Algorithmes

Antoine Cornuéjols - Laurent Miclet
Avec la participation d’Yves Kodratoff

Apprentissage
Concepts et algorithmes
Préface de Tom Mitchell

artificiel

Apprentissage artificiel
maître de conférences à l’Institut d’informatique d’entreprise et chercheur au LRI de Paris XI à Orsay. Il enseigne l’apprentissage artificiel dans plusieurs grandes écoles et en DEA. Ses recherches portent notamment sur l’utilisation de l’apprentissage pour l’analyse de données en médecine, en génomique et en vision artificielle. Laurent Miclet est professeur à l’ENSSAT de Lannion. Il est responsable du projet CORDIAL de l’INRIA et enseigne l’apprentissage artificiel et la reconnaissance des formes dans plusieurs grandes écoles et en DEA. Ses recherches portent en particulier sur l’apprentissage pour le dialogue homme-machine et les technologies vocales. Yves Kodratoff est directeur de recherches au CNRS et dirige au LRI l’équipe Inférence et Apprentissage. Il s’intéresse à toutes les techniques de raisonnement inductif, et en particulier à leur application au data mining. Cet ouvrage est publié avec le concours de l’École Nationale Supérieure des Sciences Appliquées et de Technologie (Lannion).

Antoine Cornuéjols est

Les programmes d’intelligence artificielle sont aujourd’hui capables de reconnaître des commandes vocales, d’analyser automatiquement des photos satellites, d’assister des experts pour prendre des décisions dans des environnements complexes et évolutifs (analyse de marchés financiers, diagnostics médicaux…), de fouiller d’immenses bases de données hétérogènes, telles les innombrables pages du Web… Pour réaliser ces tâches, ils sont dotés de modules d’apprentissage leur permettant d’adapter leur comportement à des situations jamais rencontrées, ou d’extraire des lois à partir de bases de données d’exemples. Ce livre présente les concepts qui sous-tendent l’apprentissage artificiel, les algorithmes qui en découlent et certaines de leurs applications. Son objectif est de décrire un ensemble d’algorithmes utiles en tentant d’établir un cadre théorique unique pour l’ensemble des techniques regroupées sous ce terme « d’apprentissage artificiel ». À qui s’adresse ce livre ? • Aux décideurs et aux ingénieurs qui souhaitent comprendre l’apprentissage automatique et en acquérir des connaissances solides ; • Aux étudiants de niveau maîtrise, DEA ou école d’ingénieurs qui souhaitent un ouvrage de référence en intelligence artificielle et en reconnaissance des formes.

Sommaire

I. Les fondements de l’apprentissage • Première approche théorique de l’induction • Environnement méthodologique • II. Apprentissage par exploration • Induction et relation d’ordre • Programmation logique inductive • Inférence grammaticale • Apprentissage par évolution • III. Apprentissage par optimisation • Surfaces séparatrices linéaires • Réseaux connexionistes • Réseaux bayésiens • Modèles de Markov cachés • IV. Apprentissage par approximation et interpolation • Classification non supervisée • Apprentissage par renforcement • Annexes et bibliographie.
Collection Technique et Scientifique des Télécommunications publiée sous l'égide de France Telecom Recherche et Développement

Ce document est la propriété exclusive de nona nina (ninasbalka@gmail.com) - 27 Octobre 2009 à 09:30

Apprentissage artificiel
Concepts et algorithmes

DANS LA MÊME COLLECTION G. DREYFUS et al. – Réseaux de neurones. Méthodologie et applications. N°11019, 2002, 380 pages. Y. COLLETTE, P. SIARRY. – Optimisation multiobjectif. N°11168, 2002, 328 pages. C. GUÉRET, C. PRINS, M. SEVAUX. – Programmation linéaire. 65 problèmes d’optimisation modélisés et résolus avec Visual XPress. N°9202, 2e édition, mars 2003, 365 pages + CD-Rom.
Ce document est la propriété exclusive de nona nina (ninasbalka@gmail.com) - 27 Octobre 2009 à 09:30

CHEZ LE MÊME ÉDITEUR

R. LEFÉBURE, G. VENTURI. – Data mining. Gestion de la relation client –Personnalisation de sites Web. N°9176, 2001, 392 pages, avec CD-ROM. M. BAZSALICZA, P. NAÏM. – Data mining pour le Web. Profiling – filtrage collaboratif – Personnalisation client. N°9203, 2001, 280 pages. M. JAMBU. – Méthodes de base de l’analyse des données. N°5256, 1999, 440 pages. M. GONDRAN, M. MINOUX. – Graphes et algorithmes. N°1571, 1995, 622 pages. BOURDA. – Introduction à l’informatique théorique. N°1642, 1994, 236 pages.

Apprentissage artificiel
Concepts et algorithmes
Ce document est la propriété exclusive de nona nina (ninasbalka@gmail.com) - 27 Octobre 2009 à 09:30

Antoine Cornuéjols • Laurent Miclet
Avec la participation d’Yves Kodratoff

Deuxième tirage 2003

ÉDITIONS EYROLLES 61, Bld Saint-Germain 75240 Paris cedex 05 www.editions-eyrolles.com

Ce document est la propriété exclusive de nona nina (ninasbalka@gmail.com) - 27 Octobre 2009 à 09:30

Le code de la propriété intellectuelle du 1er juillet 1992 interdit en effet expressément la photocopie à usage collectif sans autorisation des ayants droit. Or, cette pratique s’est généralisée notamment dans les établissements d’enseignement, provoquant une baisse brutale des achats de livres, au point que la possibilité même pour les auteurs de créer des œuvres nouvelles et de les faire éditer correctement est aujourd’hui menacée. En application de la loi du 11 mars 1957, il est interdit de reproduire intégralement ou partiellement le présent ouvrage, sur quelque support que ce soit, sans autorisation de l’Éditeur ou du Centre Français d’Exploitation du Droit de Copie, 20, rue des Grands-Augustins, 75006 Paris. © Groupe Eyrolles, 2002, ISBN : 2-212-11020-0 © France Telecom Recherche et Développement, 2002, ISBN : 2-212-11162-2

i

Preface

L
Ce document est la propriété exclusive de nona nina (ninasbalka@gmail.com) - 27 Octobre 2009 à 09:30

pables de s'ameliorer automatiquement au l du temps, soit sur la base de leur propre experience, soit a partir de donnees anterieures fournies par d'autres programmes. Dans le domaine scienti que relativement jeune de l'informatique, l'apprentissage arti ciel joue un r^le de plus en plus essentiel. Au debut de son existence, dans les annees 1950, o l'informatique se resumait principalement a programmer des machines en leur speci ant ligne apres ligne la sequence d'instructions que l'ordinateur aurait a suivre. Autour des annees 1990, les logiciels etaient devenus si complexes qu'une alternative s'imposait naturellement : developper des techniques pour que les programmes puissent s'entra^ner a partir d'exemples. Le resultat est qu'il existe aujourd'hui de nombreux domaines d'application de l'informatique dans lesquels les methodes de l'apprentissage arti ciel sont employees pour entra^ner les logiciels. Mieux, le code resultant depasse de beaucoup en performance les realisations les plus abouties de programmation manuelle (( ligne apres ligne )). C'est ainsi que tous les meilleurs logiciels commercialises de reconnaissance de la parole sont fondes sur l'entra^nement de leurs programmes a la reconnaissance des di erents sons et mots. La plupart d'entre eux permettent m^me a l'utilisateur e d'accoutumer le systeme aux caracteristiques de sa voix. D'autres exemples existent dans des domaines tels que la vision par ordinateur, le traitement automatique du texte et la robotique. La discipline de l'apprentissage arti ciel peut donc deja revendiquer des succes dans un grand nombre de domaines d'application. Des logiciels de fouille de donnees sont utilises a grande echelle pour decouvrir quelle prescription est la plus e cace pour quel patient, a partir de l'analyse de chiers medicaux anterieurs. La palette des applications va de la prediction de la demande en energie, etant connu l'historique des consommations anterieures, a l'apprentissage de la reconnaissance de transactions frauduleuses par carte de credit, par examen des transactions passees averees frauduleuses. Au moment ou nous passons des cinquante premieres annees de l'informatique au les cinquante prochaines, il semble certain que le r^le de l'apprentissage o arti ciel ne cessera de cro^tre au centre de cette science. Pourquoi cette progression ? La reponse fondamentale est que nous possedons desormais la comprehension de plusieurs principes calculatoires qui guident tout processus d'apprentissage, qu'il soit implemente sur une machine ou sur un humain. La discipline de l'apprentissage arti ciel possede desormais de riches fondements theoriques : on commence a savoir repondre a des questions comme : (( Combien au mimimum d'exemples d'entra^nement faut-il fournir a un programme d'apprentissage pour ^tre certain qu'il apprenne avec une e cacite donnee? )) e et (( Quelles methodes d'apprentissage sont les plus e caces pour tel ou tel type de probleme? )) Ces fondements proviennent de la theorie statistique de l'estimation, de la theorie de l'identi cation et de la commande optimale, de travaux pionniers sur la complexite de l'apprentissage de grammaires ou plus recents sur l'inference bayesienne algorithmique. Cet ouvrage fournit au lecteur francophone l'introduction la plus complete a ce jour a l'apprentissage arti ciel. Il traite de la theorie et des applications de cette discipline sous un grand nombre d'aspects, en couvrant des sujets comme l'apprentissage bayesien, l'inference grammaticale ou l'apprentissage par renforcement. C'est avec plaisir que je recommande au lecteur de decouvrir ce livre, et a travers lui les idees et les methodes de l'apprentissage arti ciel. Tom M. Mitchell Pittsburgh, Pennsylvania, USA Le 29 Mai 2002

apprentissage artificiel s'interesse a l'ecriture de programmes d'ordinateur ca-

Ce document est la propriété exclusive de nona nina (ninasbalka@gmail.com) - 27 Octobre 2009 à 09:30

iii
The idea of a learning machine may appear paradoxical to some readers. A. M. Turing, 1950.

Ce document est la propriété exclusive de nona nina (ninasbalka@gmail.com) - 27 Octobre 2009 à 09:30

a Isabelle, Claire, Aurelie, Sebastien, Fanny et a Maura, Fabien, Marion

Remerciements
Ce livre est publie avec l'aide de l'ENSSAT. Nous remercions son directeur, Joel Crestel, d'avoir associe cet etablissement a la publication de cet ouvrage. Nous devons des remerciements particuliers aux personnes qui nous ont autorises a reprendre leurs ecrits, edites ou non, ainsi qu'a toutes celles qui nous ont fait bene cier de leur expertise pour nous aider dans la redaction de cet ouvrage. Notre gratitude va aussi aux lecteurs critiques des versions preliminaires, ce qui inclut notablement une certaine proportion de nos etudiants. Il nous tient a c ur de remercier tout specialement : Abdel Bela d, Sami Bengio, Christophe Bernard, Marc Bernard, Olivier Boe ard, Michel Cartier, Christophe Choisy, Francois Coste, Francois Denis, Pierre Dupont, Daniel Fredouille, Colin de la Higuera, Yves Kodrato , IsraelCesar Lerman, Stan Matwin, Engelbert Mephu Nguifo, Tom Mitchell, Jacques Nicolas, Celine Rouveirol, Michele Sebag, Dominique Snyers, Franck Thollard, Fabien Torre, Stephane Vandenmersch et Jean-Daniel Zucker. L'adresse Web : www.editions-eyrolles.com contient les gures de cet ouvrage, les transparents des cours des auteurs et les errata.

Ce document est la propriété exclusive de nona nina (ninasbalka@gmail.com) - 27 Octobre 2009 à 09:30

Avant-propos
Ce document est la propriété exclusive de nona nina (ninasbalka@gmail.com) - 27 Octobre 2009 à 09:30

C

arti ciel. Son ambition est d'une part d'uni er le cadre methodologique, et d'autre part de decrire un ensemble d'algorithmes utiles, de maniere coherente avec ce cadre, en n de faire conna^tre ses applications existantes et potentielles. A quoi sert l'apprentissage arti ciel? La plupart des programmes d'intelligence arti cielle possedent aujourd'hui un module d'apprentissage et tous les programmes de reconnaissance des formes sont fondes sur des algorithmes d'apprentissage. Et que font ces programmes? Ils sont capables de reconna^tre la parole humaine et de l'interpreter. Ils realisent une analyse automatique de photos satellites pour detecter certaines ressources sur la Terre. Ils assistent les experts pour prendre des decisions dans des environnements complexes et evolutifs, par exemple le marche nancier ou le diagnostic medical. Ils fouillent d'immenses bases de donnees heterogenes comme les millions de pages Web accessibles a tous. Ils analysent les donnees clientele des entreprises pour les aider a mieux cibler leurs campagnes de publicite. Ils participent aussi a des tournois : le 11 mai 1997, le tenant du titre de champion du monde du jeu d'echecs, Gary Kasparov, a ete battu en match par un programme. On sait donc programmer les ordinateurs pour leur faire executer des t^ches considerees a comme intelligentes, de multiples facons et de maniere de plus en plus e cace. Cet ouvrage s'interesse a un aspect particulier de cette intelligence arti cielle : la faculte d'apprentissage. L'apprentissage arti ciel est une discipline dont les outils et les champs d'applications sont assez disparates. Cependant, les connaissances de base necessaires a sa comprehension sont essentiellement une culture generaliste que l'on trouve par exemple dans les ouvrages de mathematiques pour l'informatique : notions d'algebre lineaire, de probabilites, de combinatoire, d'analyse elementaire, d'algorithmique, de theorie des langages, de logique. Dans la mesure du possible, ces notions de base sont brievement rappellees selon la necessite des chapitres de ce livre.

e livre presente les theories, les algorithmes et les applications de l'apprentissage

A qui s'adresse cet ouvrage?
On peut tirer pro t de cet ouvrage en autodidacte, comme le fera par exemple un ingenieur qui cherche a conna^tre ce qui se cache derriere les mots ou a acquerir une initiation a des techniques qu'il ignore encore. On pourra aussi s'en servir comme d'un appui pour completer un enseignement : ce sera le cas pour un etudiant au niveau ma^trise, DEA ou ecole d'ingenieurs, ou comme d'un ouvrage de reference pour faire un cours sur le domaine.

vi

Quelques applications de l'apprentissage arti ciel
Voyons maintenant comment rendre un programme plus e cace en le dotant d'une possibilite d'apprentissage. Reprenons pour cela les applications de l'intelligence arti cielle et de la reconnaissance des formes citees ci-dessus. Un programme de reconnaissance de la parole augmente ses performances au fur et a mesure de son utilisation par la m^me personne : c'est une experience qu'il est aujourd'hui e facile de faire en pratique si on achete un logiciel personnel de dictee vocale. Un programme de detection des ressources terrestres apprend a reconna^tre une zone de pollution au milieu de la mer, a partir d'une base de donnees d'exemples d'images de zones connues comme propres ou comme polluees : cette base de donnees lui sert d'experience pour determiner sa decision sur une zone inconnue. Un programme de diagnostic sur un ensemble d'informations evolutives prises sur un patient doit avoir ete pourvu de connaissances, a partir de diagnostics de praticiens et d'experts sur des situations types. Mais il doit aussi avoir ete dote d'un module de generalisation, de facon a reagir correctement a des situations auxquelles il n'a jamais ete confronte exactement. Les moteurs de recherche sur le Web pourraient ^tre munis d'un module d'adaptation au e style de navigation de l'usager : c'est une faculte souhaitable pour augmenter l'ergonomie de leur utilisation. Les programmes ne sont pas encore reellement agrementes de cette propriete, mais il est clair que c'est une condition necessaire pour franchir certains obstacles de communication si evidents actuellement. L'exploitation des chiers client d'une entreprise est souvent faite par un expert ou un programme expert qui utilise des regles explicites pour cibler un segment de clientele susceptible d'^tre interesse par un nouveau produit. Mais ces regles peuvent ^tre acquises e e automatiquement, par un apprentissage dont le but est de fournir de nouvelles connaissances expertes, a la fois e caces et intelligibles pour l'expert. Un programme de jeu d'echecs possede en general une tres bonne e cacite a priori mais il est naturel d'essayer de le doter d'un module ou il puisse analyser ses defaites et ses victoires, pour ameliorer ses performances moyennes dans ses parties futures. Ce module d'apprentissage existe dans un certain nombre de programmes de jeux.

Ce document est la propriété exclusive de nona nina (ninasbalka@gmail.com) - 27 Octobre 2009 à 09:30

Quelques de nitions de base

Apprentissage (sous entendu : arti ciel, automatique) (Machine Learning) Cette notion englobe toute methode permettant de construire un modele de la realite a partir de donnees, soit en ameliorant un modele partiel ou moins general, soit en creant completement le modele. Il existe deux tendances principales en apprentissage, celle issue de l'intelligence arti cielle et quali ee de symbolique, et celle issue des statistiques et quali ee de numerique. Fouille de donnees (Data Mining) ou Extraction de connaissances a partir des donnees (Knowledge Discovery in Data) La fouille de donnees prend en charge le processus complet d'extraction de connaissances : stockage dans une base de donnees, selection des donnees a etudier, si necessaire : nettoyage des donnees, puis utilisation des apprentissages numeriques et symboliques a n de proposer des modeles a l'utilisateur, en n validation des modeles proposes. Si ces modeles sont invalides par l'utilisateur, le processus complet est repete.

Nous les regroupons selon deux grands axes : la reconnaissance des formes et la fouille de donnees ou pour ^tre plus precis. etc. telle qu'elle est de nie en analyse de donnees. detection de ressources par satellite. Si cette structure est un arbre. il su t par exemple de suivre la parution incessante des livres dans ce domaine. Generalisation Le grand dilemme de l'apprentissage.27 Octobre 2009 à 09:30 Deux champs industriels de l'apprentissage arti ciel : la reconnaissance des formes et la fouille de donnees En quarante ans et plus d'existence. Ces classes sont souvent organisees en une structure (clustering).). Pour ne citer que lui.com) . Les problemes pratiques que peut resoudre en ce domaine l'apprentissage arti ciel se posent constamment dans la vie industrielle: comment distinguer un bon client d'un mauvais. etc. l'extraction de e connaissances des donnees. Jusqu'a present les methodes de mesure de l'intelligibilite se reduisent a veri er que les resultats sont exprimes dans le langage de l'utilisateur et que la taille des modeles n'est pas excessive. Il s'agit par exemple de prevoir l'appartenance d'un oiseau observe a la classe (( canard )) ou (( oie )). Apprendre avec trop peu de precision conduit a une u ( sur-generalisation ) telle que le modele s'applique m^me quand l'utilisateur ne le desire ( ) e pas. Sous l'in uence du mot anglais classi cation. comment reconna^tre un mauvais procede de fabrication et l'ameliorer. La regression traite des cas ou les valeurs a predire sont numeriques. consiste a regrouper des ensembles d'exemples non supervises en classes. ont de ni des mesures de generalisation et c'est a l'utilisateur de xer le seuil de generalisation qu'il juge optimal. pour lequel des details insigni( ) ants (ou d^s au bruit) sont appris. Quant au premier. alors on parle de taxonomie ou de taxinomie (taxonomy). du traitement avance des signaux bio-medicaux. Pour mesurer l'extraordinaire vitalite des applications et des potentialites de la reconnaissance des formes. signatures. Intelligibilite (devrait ^tre Comprehensibility mais tend a devenir Understandability) e Depuis quelques annees. on a tendance a confondre classi cation et classement. voila deux exemples frappants parmi d'autres. rappellons seulement que les methodes de l'apprentissage arti ciel sont a la base de la reconnaissance des images (ecriture manuscrite. Le second domaine est le moins bien connu des deux bien qu'il soit porteur de reelles possibilites economiques. comme l'apprentissage par c ur. l'apprentissage arti ciel a fourni un grand nombre d'outils aux industriels et aux entrepreneurs. Ce dernier mot designe le processus de reconnaissance en intension (par leur proprietes) de classes decrites en extension (par les valeurs de leurs descripteurs).Avant-propos Precision vs. les chercheurs se sont mis a essayer de contr^ler aussi l'intelligibilite du modele obtenu par la fouille de o donnees. La classi cation. l'editeur World Scienti c a une cinquantaine de titres a son catalogue sous la rubrique (( Applications de la reconnaissance des formes )) et les renouvelle a raison de pres d'une dizaine par an. La precision est de nie par un ecart entre une valeur mesuree ou predite et une valeur reelle. vii Ce document est la propriété exclusive de nona nina (ninasbalka@gmail. on parle de classi cation. Apprendre avec trop de precision conduit a un ( sur-apprentissage ) . Classi cation. de la reconnaissance de la parole. Des methodes speci ques de visualisation sont aussi utilisees. pilotage automatique. par exemple : nombre d'exemplaires de cet ouvrage qui seront vendus = 3900. Lorsque les valeurs a predire sont des classes en petit nombre. Les deux types d'apprentissage. On constate pourtant que l'ancrage . numerique et symbolique. principalement sous la poussee des industriels. Revenons maintenant a la fouille de donnees. classement et regression.

on constate un hiatus entre l'enseignement et l'industrie. creee sous le nom de (( fouille de donnees )) (data mining ) ou ECD : ( extraction de connaissances a partir des donnees ) (knowledge discovery in databases. Rappellons la de nition classique de l'apprentissage en sciences cognitives : (( capacite a ameliorer les performances au fur et a mesure de l'exercice d'une activite )).viii de ce type d'application dans la vie industrielle ne date que des annees 1990. Elle a commence a resoudre les deux problemes industriels principaux de l'analyse des donnees. Certaines de ces compagnies existent depuis plusieurs annees et d'autres se sont vendues fort cher. ceux qui co^tent le plus cher : le fait que le client est souvent imprecis dans la de nition u du probleme qu'il se pose et le fait que les donnees dont il dispose sont souvent de qualite discutable. Elle . amelioration.com) . KDD). L'etude des applications industrielles de l'ECD montre qu'il existe une assez forte demande en outils de creation de modeles. mais tel etait l'etat de l'art dans les annees 1990. De plus. generalisation. chacune presentait un defaut particulier g^nant leur emploi : les statistiques exploratoires et l'analyse des e donnees s'adressaient a des donnees essentiellement numeriques et l'ASA se limitait aux donnees symboliques ou discretisees en intervalles de valeurs. sou raient de deux defauts communs : exiger des donnees presentees sous une forme tres rigide et faire peu de cas de l'intelligibilite des resultats. En tous cas. intelligibilite. l'analyse des donnees et l'apprentissage symbolique automatique (ASA). le present livre cherche a aller dans le sens d'un meilleur enseignement des methodes de l'apprentissage arti ciel. reconnaissance. L'ECD est nee de la constatation que les trois approches qui permettaient de construire des modeles. adaptation. a savoir les statistiques exploratoires. L'ECD est donc nee d'un quadruple e ort : permettre aux utilisateurs de fournir des donnees dans l'etat ou elles sont : ceci a donne naissance aux techniques de nettoyage des donnees (ce point sera developpe au chapitre 3) utiliser les donnees enregistrees sous forme de bases de donnees (en general relationnelles) : ceci a provoque un large courant de recherche au sein de la communaute des BD interessee par la creation de modeles fournir aux utilisateurs des outils capables de travailler sur des donnees mixtes. avec la naissance d'un discipline nouvelle. L'ensemble revele bien un secteur en progression raisonnable sur plusieurs annees. numeriques et symboliques construire des outils produisant une connaissance intelligible aux utilisateurs. Ce document est la propriété exclusive de nona nina (ninasbalka@gmail. autrement dit en apprentissage arti ciel. ( ) Nous presentons rapidement le domaine avant d'en donner l'etat de l'art industriel dans le dernier paragraphe de cet avant-propos. symbolique comme statistique. Cette de nition s'applique en particulier au comportement d'un joueur d'echecs au l des parties. Ces dernieres techniques etant moins enseignees que les premieres dans les universites.27 Octobre 2009 à 09:30 Les caracteristiques de l'apprentissage arti ciel Certaines des facultes que l'on peut lier naturellement a l'apprentissage ont ete citees dans les exemples ci-dessus : entra^nement. Notre estimation est que le marche de l'ECD est occupe par 60 % d'outils d'apprentissage statistique et 40 % d'outils d'apprentissage symboliques. ou l'assimilation de l'experience et la puissance de raisonnement se combinent dans sa progression. Ceci se traduit par le fait qu'environ cent cinquante compagnies se sont specialisees dans ce domaine. Depuis. ces domaines ont evolue et les critiques a leur adresser ont change. C'est ainsi que l'ECD a pu trouver la large reconnaissance industrielle dont elle jouit actuellement.

la problematique n'est pas fondamentalement di erente dans les deux cas. A. Turing. 1. Comme on l'a vu. il apprend une certaine facon de les resumer. consciemment ou non. mais aussi par la maniere dont les resultats sont expliques. de la revue Mind en Octobre 1950 (Vol LIX. c'est-a-dire en verite des l'apparition des ordinateurs. a une ecriture. Prenons quelqu'un qui apprend a conduire sur une berline de petite puissance. interpretable (( en clair )). Mais le resultat de cet apprentissage ne sera operatoire que si la connaissance extraite est intelligible.archives. De m^me que dans l'apprentissage naturel.ecs. Des qu'il a merite le permis. C'est ainsi qu'un programme de reconnaissance de la parole ne peut pas (( entendre )) tous les sons avant d'elaborer une regle de decision. A partir d'elles.Avant-propos est aussi pertinente pour des t^ches perceptives : on s'habitue a un accent. les chercheurs et les ingenieurs se sont poses le probleme de l'apprentissage 1 . On verra dans cet ouvrage comment des programmes peuvent mettre en uvre un apprentissage par amelioration du comportement. mais qui sera egalement valable pour d'autres. C'est que les regles qu'il a apprises et les re exes qu'il a acquis s'appliquent aussi (plus ou moins directement) a ces vehicules.uk/turing/ et le texte a : http://www. a Nous avons mentionne une autre facette de l'apprentissage. ces regles doivent s'appliquer aussi a des situations non encore rencontrees.ac. precisons a travers trois exemples comment s'organise l'apprentissage dans des situations concretes. transmissible de l'expert aux utilisateurs. a On verra aussi qu'il est possible d'ecrire des programmes qui realisent un apprentissage par generalisation : quand on leur donne su samment d'exemples et le type du concept a apprendre.abelard. Il en est de m^me pour un agent arti ciel : certaines t^ches d'apprentissage ne se mesurent pas seulement e a par leur qualite de prediction. Il s'agit dans le premier de faire evoluer des regles de comportement au l des exemples et dans le second d'extraire des regles a partir d'un ensemble d'exemples donne a priori. Qu'en est-il des machines? Des les debuts de l'intelligence arti cielle. m^me avec une performance objective superieure. un panachage de ces deux modes de e fonctionnement est facile a concevoir dans l'apprentissage arti ciel. souvent entrem^lee a la precedente : e la faculte a generaliser rationnellement.org/turpap/turpap. en abstraire ou faire evoluer des regles pour mieux e ectuer la t^che. Cet aspect est relie operationnellement a l'intelligence arti cielle symbolique. Il est ecrit pour extraire une methode de classi cation de ceux qu'on lui a presentes et traiter ensuite du mieux possible tous les sons qu'il aura a decoder. e Avant de decrire plus en detail les motivations et l'organisation de cet ouvrage. No 236) avait intitule un paragraphe Learning Machines. aux systemes experts en particulier : mieux vaut souvent un petit nombre de regles comprehensibles qu'un fouillis de regles sophistiquees. en general gr^ce a des techniques d'optimisation. Cela nous permettra de donner une typologie des methodes et de presenter le plan de cet ouvrage.com) . On a accumule des bonnes et des mauvaises experiences. dans son article Computing Machine and Intelligence. on sait. En realite.soton. d'un point de vue informatique.htm ix Ce document est la propriété exclusive de nona nina (ninasbalka@gmail. Il y a une autre facette de l'apprentissage que l'intelligence arti cielle explore. Quand un expert extrait des connaissances d'un ensemble de donnees. un grand nombre de t^ches d'intelligence arti cielle et de reconnaissance des formes s'appuient ou sont fondees a sur des modules d'apprentissage. Si une experience accumulee sur un certain nombre d'exemples a permis de tirer des regles de comportement. On peut consulter un fac-simile du manuscrit sur le site http://data. la loi l'autorise a conduire une camionnette utilitaire ou une voiture de sport.27 Octobre 2009 à 09:30 . ils choisissent un concept qui n'est pas seulement valide sur les exemples qu'ils ont vus. L'apprentissage arti ciel dans sa situation actuelle est donc le produit d'une histoire de cinquante ans de recherches et de realisations.

Quant au debutant. il sera decide qu'il s'agit d'un cygne. dans l'espace de representation choisi. en l'espece quelle est la forme generale de la ligne..2 est montree la regle de decision que notre debutant en ornithologie .1. de maniere peu distincte. . en optimisant d'un critere dont il est ma^tre. mais par la suite sur des oiseaux non encore observes. . Mais on peut tracer une in nite de telles lignes. 0. il aura alors induit une loi generale : pour tout oiseau observe qui se place (( sous )) cette ligne. Le probleme d'apprentissage est maintenant bien pose. C'est ici que l'apprenant doit preciser le type des connaissances a acquerir. mais c'est le prix a payer pour un concept aussi simple. Sur la gure 0. Ils n'apercoivent en arrivant qu'une partie des animaux. d'une oie sinon. le type du concept a apprendre. Maintenant. Que sera une telle regle? L'apprenant peut imaginer de tracer dans le plan de representation une ligne (courbe ou droite) qui separe les cygnes des oies. en lui demandant quelle est la decision correcte pour chaque oiseau.. il va donc e prendre ces deux mesures sur chaque animal qu'il voit et faire un graphique : il se place ainsi dans un certain espace de representation ( gure 0. . comment lancer une phase d'apprentissage? Il faut que le debutant se place en situation d'apprenant vis-a-vis de l'expert.... l'identi cation est cependant facile (il n'est pas expert pour rien). notre apprenant possede un graphique enrichi ( gure 0. .1 { Le premier graphique de l'avimateur debutant represente les oiseaux observes places dans son espace de representation.1. Sombre Ce document est la propriété exclusive de nona nina (ninasbalka@gmail. . Le second graphique represente les m^mes oiseaux. Une fois que l'expert a agi comme un professeur en donnant toutes les reponses. . quel oiseau est une oie et quel oiseau est un cygne? La regle trouvee doit posseder de bonnes proprietes de generalisation.. quand arrivent deux avimateurs dont l'un est expert et l'autre debutant. a droite) qui va lui permettre de demarrer l'apprentissage proprement dit. Taille de l’oiseau o o Clair o o o o c o o o o c c c c c c o c c c c c Blanc Taille de l’oiseau Fig. avec le moins d'erreurs possibles. c'est-a-dire fonctionner au mieux non seulement sur ces exemples expertises. e mais il est etiquete par l'expert. . . . . La lettre O signi e que l'oiseau est une oie. Sombre Clair Blanc . le but de l'apprentissage sera de trouver la meilleure ligne droite. . Pour representer le probleme. . Le brouillard est tombe. Pour l'expert. il doit se contenter de mesurer ce qui lui para^t caracteristique : le niveau de gris du plumage et la taille de la b^te. Si l'apprenant impose que la ligne soit droite.27 Octobre 2009 à 09:30 . On remarque d'ailleurs qu'aucune droite ne separe parfaitement les exemples. Il peut s'enoncer ainsi : comment trouver une regle qui decide. . a gauche). .x Trois exemples d'apprentissage Un exemple ornithologique Imaginons un etang sur lequel nagent des oies et des cygnes (nous admettons qu'il n'y a pas d'autres oiseaux dans cette region). C qu'il est un cygne. A partir des exemples connus. .com) .

Pas trop mal. un autre exemple.3 { Le test de la regle simple sur d'autres oiseaux. Supposons que nous disposions d'un ensemble de phrases d'une certaine langue. pour un debutant ! Il est assez facile de transposer cet Sombre o Clair o oo o o o o c o coo o o c o o c o c c c c o c c c o c c c Taille de l’oiseau Blanc c cc Fig. Est-il possible d'ecrire un programme pour en apprendre automatiquement la grammaire? Pour une langue naturelle. ne serait-ce que parce qu'un tres grand nombre d'exemples est necessaire. il est facile de constater que la droite qu'il a choisie mene a une erreur environ une fois sur cinq 2 . La ligne courbe donnerait une erreur encore plus grande. Cet exemple est caracteristique de ce que font les programmes de reconnaissance des formes.27 Octobre 2009 à 09:30 Blanc c Blanc Taille de l’oiseau Taille de l’oiseau Fig. Dans l'exemple donne sur la gure 0.2 { Une regle de decision simple et une regle de decision complexe pour separer les oies des cygnes.Avant-propos peut raisonnablement produire. Mais on peut essayer de le resoudre 2. Quand le brouillard se leve. d'autres oiseaux deviennent visibles. toujours avec l'aide de son professeur. 0.3. le probleme est certainement complexe.com) . S'il n'impose pas de restriction aussi stricte sur la forme de la ligne. nous reviendrons sur ce phenomene au chapitres 2 et 3 . Ce type d'apprentissage par generalisation est d'une immense importance methodologique et pratique. Remarquons bien qu'un tel programme n'apprend pas tout court mais apprend quelque chose. . exemple a l'ecriture d'un programme d'apprentissage. en l'occurence une regle de decision sous la forme d'une equation de droite dans le plan. Un exemple linguistique Maintenant. 0. il pourra obtenir une decision comme celle de la gure 0.3. L'apprenant peut alors veri er la qualite de la regle qu'il a apprise. Sombre Sombre xi o o Clair o o o Clair o o o o c o o o o c c c c c c o o o o c o o o o c c c c c c c c c o c c c c c c Ce document est la propriété exclusive de nona nina (ninasbalka@gmail.

(( vit dans une zone a risque de vol )). Mais comment savoir si un client qui n'a pas encore d'assurance de ce type sera interesse par le nouveau produit? Une solution est de chercher un pro l commun aux clients qui se sont deja montres interesses par un produit de ce type pour viser parmi tous les clients ceux qui ont un pro l analogue. Mais comment de nir la grammaire a apprendre? On verra au chapitre 7 que si on oblige cette grammaire a ^tre un automate ni. (( possede a une maison )). De plus. que l'on peut supposer binaires. on peut demontrer e que tous les automates nis qui sont compatibles avec les exemples forment un ensemble limite et structure par une relation d'ordre. comme ces clients possedent deja un produit analogue. chaque client est decrit par un certain nombre de champs. Ce dernier terme veut dire que le programme d'apprentissage se debrouille sans professeur : l'expertise est presente dans les donnees. L'espace de representation est ici l'ensemble de toutes les sequences de mots possibles. dont on ne conna^t que certaines. L'hypothese est donc que posseder une seule e voiture (mais de luxe) et ^tre d'^ge m^r est un pro l qui implique sans doute la possession a e a u domicile d'objets de valeur.xii dans le cas d'un langage arti ciel comme ceux qui servent a interroger les bases de donnees ou pour un sous-ensemble bien delimite de langage naturel. Le langage des echanges entre un client et un employe d'agence de voyage en est un exemple. il est e ectivement possible d'apprendre une grammaire. Une facon de constituer un pro l consiste a decouvrir des associations dans les donnees.27 Octobre 2009 à 09:30 Un exemple d'extraction de connaissances Une compagnie d'assurances cherche a lancer un nouveau produit. Ce type d'apprentissage releve de l'extraction de connaissances et de l'apprentissage non supervise. Dans de tels cas. Par exemples : (( ^ge inferieur a trente ans )). linguistiquement correctes. Certains champs peuvent ^tre non remplis: les clients qui ont seulement une assurance automobile n'ont e pas ete interroges a la constitution de leur dossier sur l'existence d'un systeme d'alarme dans leur appartement. etc. Cette compagnie ne dispose que de peu de produits du m^me type e et par consequent sa base de donnees ne comporte qu'une petite proportion d'enregistrements ou un client est deja associe a une assurance contre le vol a domicile. Remarquons encore que le programme n'apprend pas tout court. Il semble raisonnable de demarcher parmi tous les clients ceux qui repondent au m^me pro l. Il faut cependant imposer au programme des restrictions sur le type de la syntaxe que l'on cherche. Que sera un tel pro l? Dans la base de donnees. ce n'est pas vers eux qu'il faut principalement cibler la campagne. Ce document est la propriété exclusive de nona nina (ninasbalka@gmail. Elle veut faire une campagne de publicite ciblee aupres d'une partie de ses clients. mais haut de gamme.com) . Disons par exemple que la plupart des clients qui possedent deja une assurance contre le vol d'objets de valeur a domicile sont plut^t ages et o ^ n'ont en general qu'une voiture. c'esta-dire des implications logiques approximatives. mais de maniere implicite. encore une fois au sens d'un critere a lui preciser. . destine a couvrir le risque de vol d'objets de valeur a domocile. (( a un ou plusieurs enfants )). mais apprend quelque chose : en l'espece. c'est au programme de la decouvrir et de l'utiliser. une grammaire representee par un automate ni. Le programme d'apprentissage a alors pour t^che de chercher a le meilleur automate dans cet ensemble structure. La combinatoire sous-jacente a ce type d'apprentissage est evidemment tres importante.

et leur generalisation a des hyperplans (Chapitre 9 : L'apprentissage de surfaces separatrices lineaires). exemples et contre-exemples. alors que seules les donnees pouvaient conduire le programme dans le premier cas. Partie 3 : Apprentissage par optimisation et interpolation Dans la troisieme partie. Ce document est la propriété exclusive de nona nina (ninasbalka@gmail. puis un chapitre sur l'apprentissage dans la logique des predicats (Chapitre 5 : La programmation logique inductive). Le chapitre suivant propose une introduction aux theories de l'apprentissage par generalisation (Chapitre 2 : Le probleme de l'induction et les grands principes inductifs : une premiere approche). il n'y a m^me pas de e guidage dans l'espace de recherche par des exemples et des contre-exemples. Nous y faisons une presentation generale de la problematique de l'apprentissage et nous donnons les de nitions de base (Chapitre 1 : De l'apprentissage naturel a l'apprentissage arti ciel). Nous disons que. fondees sur l'exploration par algorithmes genetiques. Une extension desormais classique mene aux reseaux . Ces remarques sont cruciales pour la conception des algorithmes. En n les methodes d'apprentissage par evolution simulee. On y trouve le probleme de l'apprentissage de droites. mentionne ci-dessus.Avant-propos xiii Organisation et plan de l'ouvrage L'organisation de cet ouvrage va se decrire maintenant a partir de quelques remarques sur les exemples precedents. l'espace de recherche est peu structure. dans le second exemple. C'est la raison pour laquelle nous avons choisi d'organiser le present ouvrage selon le critere suivant : nous traitons les methodes d'apprentissage en commencant par celles pour lesquelles l'espace de representation des concepts a apprendre est fortement structure. Partie 2 : Apprentissage par exploration Nous analysons dans la deuxieme partie les methodes d'apprentissage quand les representations des concepts forment des ensembles fortement structures. Le chapitre suivant traite de la representation des donnees et des connaissances et des types d'algorithmes qui sont mis en jeu par la suite (Chapitre 3 : L'environnement methodologique de l'apprentissage). Le chapitre suivant (Chapitre 7 : L'inference grammaticale) traite de l'apprentissage des automates et des grammaires.com) . une exploration partielle de l'ensemble des solutions est possible elle sera guidee a la fois par sa structure algebrique et par les donnees. Pour le troisieme exemple. Il s'agit de ce qu'on appelle en general un probleme d'optimisation. Un approfondissement de ce theme sera fait au chapitre 17. sont exposees (Chapitre 8 : L'apprentissage par evolution simulee).27 Octobre 2009 à 09:30 Partie 1 : Les fondements de l'apprentissage Une partie de fondements methodologiques est d'abord necessaire. Il s'agit de l'apprentissage par optimisation. En revanche. intimement liee a leur qualite relative. les connaissances sur la structure des espaces sont plus faibles. Le chapitre suivant complete ce point de vue en montrant comment modi er des concepts dans des espaces structures (Chapitre 6 : La reformulation et le transfert des connaissances). Pourquoi cela? Parce qu'on ne peut pas dire si telle droite est meilleure que telle autre sans les tester toutes les deux explicitement sur les donnees. nous avons parle d'une relation d'ordre entre deux solutions. Nous l'avons appelee l'apprentissage par exploration. puis de celles pour lesquelles cette hypothese doit ^tre a aiblie et en n de celles pour lesquelles l'information a priori sur la nature des concepts e a apprendre est tres faible ou nulle. pour le premier. On y trouve d'abord une methode tres generale (Chapitre 4 : Induction et relation d'ordre : l'espace des versions). Dans ce cas.

des articles et des rapports cites dans le texte. Partie 4 : Apprentissage par approximation Ce document est la propriété exclusive de nona nina (ninasbalka@gmail. Partie 5 : Approfondissements et annexes techniques Ce livre se termine par des approfondissements et par la presentation de certains points techniques qui sont enonces sans demonstration dans les chapitres precedents. Mais si la somme des connaissances qui s'y trouvent est au total bien superieure a celle contenue dans notre livre. celles qui traitent de l'algorithme estimation-maximisation et de l'optimisation par gradient sont sans doute les plus referencees dans les chapitres precedents. leur lecture conduit a des contradictions dans les notations. La seconde liste donne les references des autres livres. Le chapitre suivant traite comme le chapitre 7 de l'apprentissage de certaines machines a produire des sequences. Il existe deja des livres d'enseignement et de recherche sur pratiquement chaque sujet aborde dans les chapitres de ce livre et nous ne manquons pas d'y faire reference. on s'interesse aux donnees non etiquetees par un expert : il s'agit de les organiser et d'y decouvrir des regularites et des associations (Chapitre 15 : La classi cation non supervisee et la decouverte automatique). typiquement applicable a l'apprentissage de son comportement par un robot (Chapitre 16 : L'apprentissage par renforcement). nous ont amplement montre l'inter^t d'un ouvrage d'introduction coherent. mais sous un aspect probabiliste (Chapitre 13 : L'apprentissage de modeles de Markov caches). Nous decrivons d'abord les techniques d'apprentissage de regles de classi cation par des methodes statistiques qui cherchent a approcher la regle de decision bayesienne. Guide de lecture Apres plus de quarante ans de recherches et de realisations en apprentissage arti ciel. souvent a plusieurs occasions. Nos collaborations avec des utilisateurs des techniques d'apprentissage et avec des chercheurs d'autres disciplines. Le livre se conclut par une bibliographie decoupee en deux parties : la premiere donne des references generales recommandees pour leur qualite et leur accessibilite. Dans le chapitre suivant.xiv connexionnistes multicouche (Chapitre 10 : L'apprentissage de reseaux connexionnistes). essentiellement des livres. traite des methodes les moins informees. Nous revenons d'abord sur les theories de l'apprentissage par generalisation (Chapitre 17 : Les grands principes inductifs : approfondissements).27 Octobre 2009 à 09:30 La derniere partie. articule autour de e grandes lignes directrices. Le fonctionnement et l'apprentissage des reseaux de probabilites conditionnelles est ensuite aborde (Chapitre 12 : L'apprentissage de reseaux bayesiens). celles ou l'espace des concepts cherches possede le moins de proprietes. a des approfondissements theoriques .com) . Parmi les annexes. Nous considerons dans la m^me famille l'apprentissage des arbres de decision et les techniques e de combinaison de classi cateurs dont l'optimisation est cependant de nature assez di erente (Chapitre 11 : L'apprentissage par combinaison de decisions). comme notre activite d'enseignement et d'encadrement avec nos etudiants. intitulee l'apprentissage par approximation. en particulier la methodes des plus proches voisins (Chapitre 14 : L'approximation de la regle de decision bayesienne). Ce chapitre inclut aussi certains aspects de l'apprentissage par analogie. Le chapitre suivant s'interesse aussi a un apprentissage numerique de type (( punition )) ou (( recompense )). il est di cile pour un non initie de savoir comment aborder ce domaine et comment s'y orienter.

type d'algorithme. 2 (paragraphes 2. e Il nous a donc paru que la discipline de l'apprentissage arti ciel pouvait ^tre presentee de e maniere uni ee. 15 et 16. 13.27 Octobre 2009 à 09:30 La situation de l'apprentissage dans l'intelligence arti cielle La gure 0. en particulier statistiques de l'apprentissage : chapitres 1. Pour comprendre l'apprentissage de phenomenes essentiellement numeriques et pour les applications a la reconnaissance des formes : chapitres 1. 5. xv Ce document est la propriété exclusive de nona nina (ninasbalka@gmail. 10. Ce paragraphe reprend ce point plus en detail avant de faire un panorama de l'etat de l'art de l'industrie ECD. 2 (paragraphes 2. des parcours di erents peuvent ^tre suivis pour e la lecture de cet ouvrage. Pour qui s'interesse a la fouille de donnees. 14 et eventuellement 16. 13. 15 et 17. Pour qui veut realiser l'apprentissage de concepts a partir de donnees sequentielles (signaux. 7. 2. Compte tenu de la variete technique des sujets abordes et de l'inter^t personnel de chaque e lecteur (autodidacte.2). 12. 11 et 13. 6. raisonnement. que l'extraction de connaissances des donnees (ECD) a resolu les deux problemes industriels principaux de l'analyse des donnees : le fait que le client est souvent imprecis dans la de nition du probleme qu'il se pose et le fait que les donnees dont il dispose sont souvent de qualite discutable. Les applications industrielles de l'apprentissage arti ciel a l'extraction de connaissances des donnees Nous avons dit plus haut.Avant-propos de niveau tres variable. 3. 14 et 16. 10. . Nous proposons en particulier les itineraires suivants.2). 3. 7. 11. un rapide apercu des methodes et un point de vue sur leurs applications : chapitres 1. Ce souci commande le fond comme la forme de cet ouvrage. 5. l'apprentissage de comportement : chapitres 1.) : chapitres 1. 14 et 15.4 presente la situation des techniques d'apprentissage dans le paysage de l'intelligence arti cielle et ses relations avec les concepts cle de cette discipline: representation des connaissances. 4. 11. mais ce n'est pas exclusif : 1. 6. textes. 12. 3. Pour qui s'interesse plus a la robotique. a des analyses di erentes du m^me probleme et a des presentations e redondantes voire contradictoires des m^mes sujets. 3 et 4. a l'extraction de connaissances : chapitres 9. 2. etc. 5.com) . 14. sans detailler. eventuellement 6. Pour une vue d'ensemble sur l'apprentissage arti ciel. 3. 9. 8. 3. 7.1 et 2. 8. 14. Cette gure permet en particulier de faire le point sur l'avancement de l'apprentissage dans la perspective de l'ouvrage classique edite par Schavlik et Dietterich ( SD90]). 11.1 et 2. dans un but d'abord didactique. 12. Pour acquerir un point de vue sur l'apprentissage dans les systemes experts et le traitement des donnees symboliques : chapitres 1. 9. 3. enseignant ou etudiant). 4. Pour un point de vue approfondi sur les principes methodologiques.

xvi Ce document est la propriété exclusive de nona nina (ninasbalka@gmail. le probleme que se pose le client s'a ne pour converger (on l'espere) vers un probleme bien pose. nettoyage des donnees La solution technique apportee par l'ECD au premier probleme est liee a l'intelligibilite du modele construit automatiquement. sur lequel nous reviendrons aussi plus en detail au chapitre 3. en m^me temps que de nouveaux modeles lui sont e decrits. pour chacune des methodes decrites. et il est le seul a pouvoir decider de ce qu'est une information interessante. car il apprend. L'ensemble du procede d'extraction de connaissances est donc une boucle e au sein de laquelle le client joue le r^le de biais. Intelligibilite des modeles. Le second probleme est lie a ce que l'on appelle le nettoyage des donnees. 0. permettant de conserver certaines connaissances o et d'en rejeter d'autres. Au cours de cette boucle. il est capital que le client comprenne parfaitement bien le sens des modeles fournis. Dans tous les cas. etc. Divers cas peuvent se combiner : les donnees sont . des regles d'association (chapitre 15). seul le client est capable de savoir le type des connaissances qui lui manquaient jusqu'alors et que la fouille de donnees est a m^me de lui fournir. L'experience quotidienne de l'analyste de donnees est qu'il produit souvent des quantites de connaissances encore plus importantes que les donnees dont il est parti. Posseder une de nition precise des facons de selectionner ce qui interessant est par consequent capital.27 Octobre 2009 à 09:30 Fig. Nous illustrons ce point dans la suite de ce livre. l'information implicite contenue dans ses donnees.com) . Mais. Un systeme de fouille de donnees produit des connaissances qui peuvent se trouver sous des formes variees selon la methode d'apprentissage utilisee : des arbres de decision (chapitre 11). des probabilites conditionnelles (chapitres 12 et 14). comme nous venons de la souligner.4 { L'apprentissage arti ciel symbolique du point de vue de l'intelligence arti cielle.

les logiciels industriels se vantent de leur rapidite et de leur capacite a traiter des masses enormes de donnees plut^t que de l'usage d'un procede o d'echantillonnage ra ne. De toute facon.27 Octobre 2009 à 09:30 xvii Les conseils de la societe Oracle Les deux problemes de l'intelligibilite et du nettoyage sont presents dans les conseils que donne la compagnie Oracle (voir les points 11 et 12 ci-dessous). avant de commencer a rechercher des modeles profonds et complexes. Sans que cette option soit negligee. Piatetsky-Shapiro sur le site Web www. Par exemple. En fait. vantait ses methodes de preparation des donnees plut^t que la puissance de ses algorithmes d'induction. il est frappant de constater que la majorite des outils ne fassent. pour mieux decrire la situation est un probleme classique(chapitre 3). C'est maintenant une des o res importantes de cette compagnie. mais ou on ( ) tente d'eliminer les attributs inutiles. Il est par ailleurs frappant de remarquer que la compagnie qui a gagne les deux premieres competitions organisees par le congres international KDD. 2. de nouveaux attributs. Cette attitude est d'ailleurs assez raisone nable. Sur son site. l'ECD dirige son e ort en direction du developpement de methodes de plus en plus e caces d'echantillonnage. bien connue pour ces systemes de gestion de bases de donnees. Utiliser une strategie (( en surface d'abord )) Ceci n'est pas un conseil pour rester super ciel.kdnuggets. cette compagnie fournit (( douze conseils pour le succes en ECD )) qui resument son experience en ce domaine. Il est facile de constater egalement que chacune des cent cinquante compagnies environ presentees sur ce site aborde ce probleme. que se resigner a recourir a l'echantillonnage. sur des donnees bancaires. En parallele. Un autre probleme universitaire classique est celui dit de ( selection des attributs ) (chapitre 3). au lieu de laisser separees les variables decrivant le revenu et la situation familiale d'un client. et qui a developpe ces dernieres annees. Tout se passe comme si on voulait soutenir que toutes les donnees sont signi catives et qu'aucune ne doit ^tre negligee. il est bien plus interessant de creer une nouvelle variable combinant son revenu et sa situation familiale de facon a rendre compte directement de ses revenus e ectifs. D'apres les donnees sur l'ECD industrielles presentees par G. o Ce document est la propriété exclusive de nona nina (ninasbalka@gmail. ou on ne cree pas de nouvelles variables. Extraire a partir d'encore plus de donnees Il ne serait pas absurde que pour repondre a l'accroissement des donnees stockees sous forme electronique. le logiciel Oracle Data Mining Suite. etc. 3. il est bon de savoir en priorite si les modeles simples engendres correspondent ou non aux besoins du client.com) . Voici l'ensemble des conseils de la societe Oracle. mais pour rechercher d'abord les modeles ou les formes les plus evidents dans les donnees. en 1995 et 1996. Creer de nouvelles variables pour mieux faire parler les donnees La creation de nouvelles variables. 1. dans la mesure ou les methodes d'entrep^ts de donnees permettent deja d'e ectuer o des operations sur les donnees (par exemple des moyennes) qui reviennent a une forme d'echantillonnage. en quelque sorte. On l'appelle parfois (( induction constructive )) en apprentissage automatique. . les variables de description se recouvrent partiellement ou dependent l'une de l'autre. Les resultats industriels et universitaires convergent : la meilleure facon d'ameliorer a la fois precision et intelligibilite est de proposer des combinaisons astucieuses des variables de depart.Avant-propos sujettes a des bruits de mesure. la recherche universitaire montre une attitude assez comparable. elles contiennent des point aberrants.com environ quinze compagnies se consacrent presque exclusivement au probleme du nettoyage des donnees.

Les outils de creation de modeles. en particulier du fait de leur nouveaute. Il est probable que le probleme pose par le client n'ait aucune solution generale (sinon. Quand une forme a ete reperee comme importante pour certaines donnees. 6. o les methodes de l'apprentissage arti ciel sont encore considerees avec une certaine suspicion. celui-ci vient du soupcon que des formes puissent e ^tre dissimulees de facon irrecuperable dans certaines donnees. Construire rapidement plusieurs modeles explicatifs. Celui-la venait du soupcon que des descripteurs aient pu ^tre oublies. il est toujours plus facile de veri er si elle l'est aussi pour d'autres donnees. Enrichir les donnees de donnees exterieures Il est en e et possible que des descripteurs signi catifs aient ete oublies dans une premiere passe de de nition du probleme. Construire automatiquement les modeles Ce conseil est equivalent a : (( utiliser des techniques inductives pour la creation de modeles. Oublier les pratiques traditionnelles d'hygiene en matiere de donnees La encore. Les utilisateurs de l'ECD reclament constamment plus d'intelligibilite des connaissances extraites. se sont developpes selon une logique qui ne poussait pas a l'intelligibilite de leurs resultats. Interpreter les resultats en termes du domaine d'application par une methode Ce conseil est certainement un des plus signi catifs et des plus di ciles a implementer. Inversement.27 Octobre 2009 à 09:30 de retro-ingenierie . Segmenter d'abord les clients et construire des modeles multibuts La segmentation. et chaque essai di erent de segmentation. 7. un souci constant des createurs d'outils est de faire des outils performants et justi es. Dans le contexte industriel en general. est une facon particulierement e cace de creer des sous-problemes. Les chercheurs qui veulent aujourd'hui faciliter leur usage par une plus grande intelligibilite se heurtent a des problemes di ciles. Varier les sources de donnees Ce conseil est en quelque sorte symetrique du conseil 6. le conseil est de chercher a accelerer le processus plut^t que d'en assurer la o validite avant la creation du modele : les procedures de validation sont mises en route a la n du processus et non prealablement a celui-ci. Un exemple frappant de ce phenomene se rencontre en detection de fraude. des formes cachees au sein des donnees et qui ne sont pas signi catives pour l'ensemble des donnees peuvent le devenir pour une sous-classe. consiste a creer des classes permettant de regrouper les objets etudies les plus semblables. 10. il l'aurait deja trouvee !) et que seule une decomposition du probleme en sous-problemes permette de trouver une solution. 9. L'ensemble des sujets etudies contient generalement tres peu de fraudeurs et les formes caracteristiques de la fraude sont noyees dans celles de la non-fraude. appelee classi cation non supervisee dans le vocabulaire universitaire (chapitre 15). Dans le contexte de l'ECD dont c'est un des r^les.xviii 4. en particulier les outils statistiques. mais pas dans toutes les e donnees. La segmentation. Il est important de remedier a ces eventuels oublis. La compagnie Oracle conseille pourtant d'utiliser ces methodes dont l'etude est le sujet ce livre. Une segmentation prealable permet de distinguer les non-fraudeurs evidents des soupconnables de fraude et c'est au sein de cette derniere classe qu'on va chercher a detecter les vrais fraudeurs. ce conseil peut sembler evident. Au lieu de recreer des outils produisant des resultats directement intelligibles (ce qui est d'ailleurs une t^che convenant mieux a la rea Ce document est la propriété exclusive de nona nina (ninasbalka@gmail. c'est-a-dire des algorithmes d'apprentissage arti ciel )). En e et. e 5. 8. M^me commentaire que pour 3 et voir 12 ci-dessous.com) .

et d'appliquer des solutions particulieres. A notre connaissance. 12. chacun d'entre eux soulignant un aspect des donnees. de facon peu comprehensible. des donnees peuvent ^tre manquantes parce que le champ est extr^mement di cile ou co^teux e e u a mesurer. Utiliser plusieurs modeles de prediction a la fois La recherche universitaire a cree de nombreuses procedures qui utilisent plusieurs modeles a la fois. Cette constance souligne l'importance capitale de l'intelligibilite des resultats obtenus sur le marche de l'ECD. chapitre 9). des approches utilisant la theorie des ensembles approximatifs (rough sets) et les approches par algorithmes genetiques (chapitre 8). Mais ce n'est pas ce que signi e le conseil d'Oracle. Pour ceci. Nous allons maintenant etudier les outils. xix Ce document est la propriété exclusive de nona nina (ninasbalka@gmail. comme les (( for^ts )) de decision (qui comportent plusieurs arbres de decision). cherche universitaire). des reseaux connexionnistes (chapitre 10). Le but de ces procedures est en general d'ameliorer la precision des previsions du modele. on peut noter qu'elles ont deux traits en commun. Il s'agit ici plut^t d'ameliorer la comprehension du client en lui o presentant plusieurs modeles. Ce cas est di erent de celui ou les donnees manquent parce que le champ a ete mal de ni (comme le champ (( cancer de la prostate )) dans une base de donnees comportant des femmes). o re maintenant des arbres ou des regles de decision (chapitre 11).Avant-propos 11. Oracle conseille de developper des outils de retro-ingenierie aidant l'utilisateur a recrire le modele obtenu dans son propre langage. Il est donc plus sain d'etudier ce probleme au cas par cas. des reseaux bayesiens (chapitre 12) et des reseaux de dependance. e le bagging et le boosting (voir le chapitre 11) qui utilisent des procedures de vote pour choisir le modele qui sera applique sur une donnee nouvelle. plusieurs points de vue di erents. . au lieu de presenter un seul modele melangeant. Le second point presente deux versants complementaires : { d'une part. L'exemple de la societe CART est typique. chaque compagnie possede une methode d'induction phare qu'elle pretend ^tre superieure aux autres e { d'autre part. dediee au depart aux arbres de regression (le RT de CART signi e regression trees). nous allons analyser les resultats d'enqu^tes menees par G. Il releve du nettoyage de donnees dont nous avons deja parle. Le premier est que toutes les compagnies se vantent de l'intelligibilite de leurs resultats. il n'existe pas d'outil analysant la nature du manque et proposant une solution adaptee a ce manque. Piatetsky-Shapiro (GPS) sur e son site dedie au marche industriel de l'ECD. Par exemple. quelles que soient les methodes inductives (c'est-a dire les algorithmes d'apprentissage) utilisees. Il serait etonnant que toutes les causes possibles de donnees manquantes se trouvent au sein des donnees d'un client particulier. Le conseil d'Oracle est pragmatique. les methodes et les besoins du marche de l'ECD. Chaque systeme existant comporte une methode pour prendre en compte les donnees manquantes. Completer les donnees manquantes Ce probleme est a la fois classique et profond. Cette compagnie.com) . il existe peu de compagnies qui ne proposent pas un eventail de produits varies.27 Octobre 2009 à 09:30 Les outils utilises par les compagnies couvrant une part appreciable du marche Au-dela de la diversite des approches des diverses compagnies. des machines a vecteurs supports (SVM.

Dec 3% Alice SGI Mineset A.27 Octobre 2009 à 09:30 Outils de base Oct 99 Ju 00 Oct 01 Plan 02 % St/Sy AD.com) . . AD Oracle Darwin ass + sg 2% 2% 5% IBM Iminer ass. y compris regression RN = reseaux connexionnistes symb = methodes de nature symbolique non expliquees en 2 = tests du 2 detail par l'industriel sq = utilisation de sequences sg = segmentation. V 4% 5% 2% 3% SPSS AR 15 % 16 % 2% Answer-Tree CART/ MARS AR 6% 7% 11 % 3% Model 1 1% 2% Quadstone 1% 1% Statistica St 2% 2% 1% Wizsoft 1% 1% WhiteCross 0% Xa nity 1% 0% 0% Autres 8% 20 % 11 % 7% Total: non signi catif du point de vue % St/Sy Total : outil plut^t statistique o Total : outil plut^t symbolique o Tab. reg 3% 7% 3% 5% 2 . ass symb st reg ? 17 % 1% 26 % 5% 20 % 1% 32 % 18 % 6% 18 % 1% 13 % 13 % 18 % 12 % 6% St : 9 % Sy : 9 % Sy : 6 % St : 18 % St : 1 % non sig St : 2 % Sy : 1 % Sy : 2 % St : 1 % Sy : 2 % Sy : 2 % St : 16 % St : 11 % St : 2 % 12 % non sig.D.1 { Les outils utilises par les entreprises en ECD Legende AD = arbres de decision V = methodes de visualisation ass = regles d'association AR = arbres de regression reg = methodes de regression st = outils statistiques et d'analyse des donnees. RN St. 18 % 60 % 22 % RN. 0. sg 7% 9% 3% 4% sq. cl Business Objects A. c'est-a-dire classi cation automatique cl = methodes de classi cation ? = totalement obscur non sig = non signi catif pour cet indice.xx Compagnie SPSS Clementine Megaputer SAS Urban Science Gain-Smarts MINEit Easy-Miner Angoss Ce document est la propriété exclusive de nona nina (ninasbalka@gmail.

com) .2 que les outils statistiques sont utilises a environ 60 % et les outils symboliques a environ 40 %. la proportion est un peu plus faible pour les outils symboliques : ils sont un peu moins vendus qu'utilises. Les enqu^tes de GPS sont relatives a des compagnies plut^t qu'a des outils proprement dits. e A n d'evaluer les parts de marche respectives des outils statitiques et des outils symboliques nous avons aussi evalue en gros cette part pour chacune des compagnies.4. L'ensemble de l'enqu^te est resume dans le tableau 0. Une compagnie peut ^tre comptee plusieurs fois e pour des applications di erentes.2 { Enqu^te de GPS : (( Quelles techniques d'ECD utilisez-vous regulierement? )) (Ao^t e u Les domaines d'application des methodes inductives de fouille de donnees Le tableau 0. Les quelques rubriques representees en 1998 qui ont disparu sont dans le tableau 0. Voir aussi au chapitre 3.1.1 est donc issue de nos propres connaissances sur les outils vendus par ces compagnies. page 117. il reste que l'ECD est une grande consommatrice d'outils statistiques et les techniques de retro-ingenierie semblent compenser leur relative di culte d'usage. Cette derniere calcule le pourcentage de compagnies declarant travailler sur une application. Dans le tableau 0.27 Octobre 2009 à 09:30 St: 13 % Sy: 19 % St: 14 % St: 17 % St: 3 % Sy: 3 % St: 4 % Sy: 4 % Sy: 7 % St: 2 % Sy: 2 % ns: 2 % ns: 5 % ns: 1 % ns: 4 % 12 % 53 % 35 % Tab. ainsi que la decroissance des applications commerciales classiques. e Reseaux connexionnistes 13 % Arbres de decision /Regles 19 % Regression Logistique 14 % Statistiques 17 % Bayesien 6% Visualisation 8% Regles d'association 7% Methodes hybrides 4% Fouille de textes (non signi catif) 2 % Fouille de la toile (non signi catif) 5 % Agents (non signi catif) 1% Autres (non signi catif) 4% Total: non signi catif Total : outil plut^t statistique o Total : outil plut^t symbolique o 2001) xxi Ce document est la propriété exclusive de nona nina (ninasbalka@gmail.3 combine une enqu^te de GPS ((( A quoi avez-vous applique l'extraction de e connaissances? ))) et notre estimation en 1998. Le symbole St designe un outil plut^t statistique et le symbole Sy un outil plut^t symbolique. 0. Ceci etant. quand cette information peut ^tre obtenue. e o La colonne (( outils de base )) du tableau 0.2. . On remarque l'accroissement des applications bancaires.Avant-propos On constate dans le tableau 0. L'attrition 3 etait plus connue en France sous le nom de churn (barattage) il semble que les 3. du commerce electronique et des telecommunications. Il s'agit du probleme des abonnes fuyants. Le symbole % St/Sy o o designe une evaluation du rapport entre outils statistiques et outils symboliques.

-) 8% 6% 2% 11 % 8 % (++) 11 % 5% Ce document est la propriété exclusive de nona nina (ninasbalka@gmail. les usagers signalent a peu pres 50% de reussites de l'ECD en relations clientele.3 { Les domaines d'application. Un dernier facteur relatif aux applications est celui du type des donnees analysees. Environ 50 % des compagnies qui vendent de l'ECD le font gr^ce a des produits dedies aux a relations clientele. e e dont les resultats sont presentes dans le tableau 0.20 % 21 . applications en ce domaine soient terminees. Ce marche qui a ete orissant en 1998 semble se retrecir rapidement.40 % 41 .xxii Application Banque Biologie/Genetique Vente directe/Relations clientele Commerce electronique/Toile Jeux Detection des fraudes Assurance Investissement/Gestion des stocks Fabrication Produits pharmaceutiques Vente au detail Science Securite Telecommunications Autres 1998 (estimation) 6% 8% 22 % 6%/0% 1. En conclusion. L'explication de ce phenomene se trouve peut-^tre dans les resultats de l'enqu^te suivante de GPS.5 % 11 % mai 2001 plans pour 2002 17 % 13 % (++) 8% 8% 11 % (.27 Octobre 2009 à 09:30 Tab.-) 4% 5% 6% 6% 6 % (.4 { Les domaines d'application disparus depuis 1998.5 % 10 % 4% 9% 5% 15 % 2.6) (( Quel type de donnees avez-vous e analysees en 2001 )) ? On remarque que les usagers montrent des besoins importants en fouille de textes.100 % Total partiel 27 % 33 % 11 % Tab. 0.5 : (( Quelle est votre experience d'echecs de projets en relations clientele )) ? % declares comme echec 0 .5 { Le succes en relations clientele.com) .-) 15 % 10 % (++) 1% 8% 11 % 6% 6% 4% 4 % (. C'est ce que determine cette autre enqu^te de GPS (tableau 0. ce qui est insu sant pour assurer le succes commercial de cette approche. ce qui .60 % 61 . 0. 0.80 % 40 % % d'utilisateurs dans cette tranche 11 % 16 % 33 % 29 % 81 . Education 2% Lutte contre la criminalite 1 % Fidelisation / Attrition 8% Tab.

c'est pourquoi un e ort de retro-ingenierie est toujours necessaire. Le (( ot des clics sur la Toile )) designe le Web clickstream. deux methodes foncierement numeriques. ce qui fournit un ensemble bien comprehensible de regles decrivant l'acheteur de caravanes. Les methodes d'induction ne sont en general pas (( naturellement )) intelligibles. En revanche. . ils engendrent des regles d'association sur les descripteurs signi cativement relies a la solution pour conclure sur l'achat d'une caravane. Avec ces restrictions. D'abord.Avant-propos Flot des clics sur la Toile Contenu de la Toile Textes Bases de connaissance Donnees XML Images Donnees audio/video Donnees de CAO Series temporelles Autres donnees complexes Ce document est la propriété exclusive de nona nina (ninasbalka@gmail. Ensuite. mais ils obtiennent au passage de precieuses informations sur les attributs les plus signi catifs pour la t^che de classi cation. 0. soient utilisees ici pour ameliorer la comprehension des resultats d'apprentissage de regles symboliques. ils combinent trois approches. Les auteurs utilisent des algorithmes genetiques (chapitre 8) pour engendrer la structure d'un reseau connexionniste (chapitre 10).27 Octobre 2009 à 09:30 xxiii 13 % 14 % 18 % 8% 8% 4% 2% 1% 16 % 17 % Tab. En n. le caractere estime plus ou moins carrieriste des individus. Pour l'intelligibilite. a ce qui con rme le fait que cette methode est a la fois simple d'implementation et d'une grande precision en prediction. Pour illustrer une facon de realiser cet e ort. a c'est-a-dire la t^che de description des consommateurs. prenons l'exemple du CoIL Challenge 2000. Les vainqueurs de la t^che de description ont utilise une interessante combia naison de methodes statistiques et symboliques. est d'autant plus vrai qu'on y ajoute les analyses du contenu de la Toile qui est une forme de fouille de textes. Ils sont moins precis en resultats purs que le vainqueur. Il est remarquable que les statistiques et les reseaux connexionnistes.com) . elle ne fournit aucune explication quand a la facon dont elle prend des decisions. comme par exemple la taille de la famille. il s'avere qu'ils obtiennent seulement sept regles ayant un support superieur a 10 %. Le probleme de l'intelligibilite Comme nous l'avons deja plusieurs fois remarque. ils utilisent un test statistique du 2 pour mesurer l'importance relative des descripteurs dans leur contribution a la solution. La t^che de prevision etait jugee selon des criteres de precision et celle de description selon des a criteres d'intelligibilite. le nombre de bicyclettes dans la famille. Ce domaine d'importance industrielle extr^me est relativement peu etudie par e les specialistes d'ECD et la plupart des outils utilises viennent de la communaute du traitement automatique de la langue naturelle. etc. le probleme de l'intelligibilite est capital. Il s'agit d'une competition ou on demandait de prevoir et de decrire le comportement d'acheteurs de caravanes a partir d'une base de donnees.6 { Les donnees analysees. Le vainqueur de la t^che de prediction a utilise un apprentissage bayesien na f (chapitre 14). a ils essaient de creer un grand nombre d'attributs comprehensibles.

Ce document est la propriété exclusive de nona nina (ninasbalka@gmail.27 Octobre 2009 à 09:30 .com) .

27 Octobre 2009 à 09:30 . Apprentissage Apprentissage arti ciel ou automatique Apprentissage par c ur Attribut Attribut numerique Attribut arborescent Classi cation automatique Distributions bienveillantes Elagage Escalade Exemple Fouille de donnees Hypothese coherente (complete et correcte) Objet ou forme ou observation Perte Pertinence du principe ERM Plus proche voisin Produit scalaire Professeur Regle de classi cation ou de classement Reconnaissance des formes Reseau connexionniste Surapprentissage Performance Learning Machine Learning Rote learning Feature ou attribute Continuous valued attribute Tree-structured attribute Clustering Benign distributions Pruning Hill-climbing Example ou instance Data mining Consistant (complete and correct) hypothesis Object ou instance Loss Consistancy of ERM principle Nearest neighbor ou neighbour Inner product Teacher Classi cation rule ou Classi er Pattern Recognition Neural network Over tting Fitness Ce document est la propriété exclusive de nona nina (ninasbalka@gmail.Avant-propos xxv Quelques termes et faux-amis anglais-francais.com) .

27 Octobre 2009 à 09:30 .com) .Ce document est la propriété exclusive de nona nina (ninasbalka@gmail.

. T et V .27 Octobre 2009 à 09:30 Notations generales P p IN IRd IBd = f0 1gd Une probabilite Une densite de probabilites L'ensemble des entiers naturels L'espace euclidien de dimension d L'espace booleen de dimension d L'ordre de grandeur maximal de complexite d'un algorithme Un vecteur O 0 1 x B .Notations Ce document est la propriété exclusive de nona nina (ninasbalka@gmail.1 La distance euclidienne entre deux vecteurs x et y de IRd y) La derivee partielle par rapport a x de la fonction f des deux variables x et y Le vecteur derive par rapport au vecteur A de la fonctionnelle J des deux vecteurs A et B rAJ (A B) Les elements en jeu dans l'apprentissage X U S S+ S. A L'espace de representation des objets (des formes) L'espace de supervision (des sorties desirees) L'echantillon d'apprentissage (un ensemble ou une suite d'exemples) Les exemples positifs Les exemples negatifs L'echantillon d'apprentissage quand on divise S en A.. Par de nition.1 MT M+ xT = (x1 : : : xd ) Un vecteur transpose jj x jj La norme du vecteur x (x y) @ @x f (x La matrice inverse d'une matrice carree M La matrice transposee d'une matrice M La matrice pseudo-inverse d'une matrice M . M + = M T (MM T ).1 C x=@ A xd M .com) .

27 Octobre 2009 à 09:30 f :X !U La supervision. ou sortie desiree. quand a et b sont des valeurs binaires a OU b NON a a implique b . d'un exemple La fonction cible (celle que l'on cherche a apprendre) L'espace des hypotheses d'apprentissage Une hypothese produite par un apprenant (un algorithme d'apprentissage) La prediction faite par l'hypothese h sur la description x d'un exemple La perte (ou distance) entre la fonction cible et une hypothese Le risque reel Le risque empirique L'hypothese de H qui minimise le risque reel L'hypothese de H qui minimise le risque empirique sur S L'hypothese trouvee par un algorithme ayant S en entree et cherchant hS H dans H H h2H y = h(x) l(f h) RReel REmp hH hS H halgo S H L'apprentissage d'une regle de classi cation C C !i a^b a_b :a a!b L'ensemble des classes Le nombre de classes Une classe de C La logique a ET b.xxviii T V m L'echantillon de test L'echantillon de validation La taille d'un echantillon d'apprentissage (le nombre d'exemples) Un exemple (element d'un echantillon d'apprentissage) La description d'un objet dans un espace de representation La valeur de la coordonnee j de la description de l'objet xi dans IRd zi = (xi ui) xi xij Les principes de l'apprentissage inductif ui Ce document est la propriété exclusive de nona nina (ninasbalka@gmail.com) .

. . . . . 1. . . . . . . . .. . . . . .com) . . . . . . . . .1 L'apprentissage arti ciel . . . . . . . . . . . 1. . . . . . .5. . . . .5. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Organisation et plan de l'ouvrage . . . . . . . . . 1.1 Apprendre a jouer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .1 L'apprentissage est impossible. .4. . . . . . . . . . . . . . . . . . . . 1. . . . . . . . . .2 Deux exemples : apprendre a jouer. . 1. . . . . . . . . . . . Les caracteristiques de l'apprentissage arti ciel . . . . . . . .2 Apprendre a reconna^tre des caracteres manuscrits 1. . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . .. . . . . . . . . . . . . . .5. .Table des matieres Ce document est la propriété exclusive de nona nina (ninasbalka@gmail. . . . .2 Le pari du cognitivisme . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . .2. . . . . . . . . . . . . . . . . . . . . . . .3. . . . . . .4. . . . 1. . 1. . . . . . . . . . . . . . . . . . . . . Trois exemples d'apprentissage . apprendre a lire . . . . . . . . . . . . 1 3 5 5 7 9 10 11 13 13 14 18 20 22 23 26 27 3 . . . . . . . . 1. . . . . . . . . . sans limiter l'espace des hypotheses . . . . . . . . . . .1 La cybernetique . . . . . . . . .3 L'exploration de l'espace des hypotheses . .2 Quelques notions cles . . . . vi vi vii viii x xiii xiv xv xv v Notations xxvii I Les fondements de l'apprentissage 1 De l'apprentissage naturel a l'apprentissage arti ciel 1. . . . . . . . . .4. . . . . . . .2. . . .3 L'induction vue comme une estimation de fonction 1. . . . Les applications industrielles de l'apprentissage arti ciel a l'extraction de connaissances des donnees . . . . . .3. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .2 . . . Guide de lecture . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1. . . . . . . . . . . . . . . . . . . . . . . Deux champs industriels de l'apprentissage arti ciels : la reconnaissance des formes et la fouille de donnees . . . . 1. . . . . . . . . . . . . . . . . . . . .6 Retour sur l'organisation de l'ouvrage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . La situation de l'apprentissage dans l'intelligence arti cielle . . . . Quelques de nitions de base . 1. . . . .3 Deux approches : la cybernetique et les sciences cognitives 1. . .5 L'induction comme un jeu entre espaces . . .27 Octobre 2009 à 09:30 Avant-propos Quelques applications de l'apprentissage arti ciel. . . . 1. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .1 Un scenario de base pour l'induction . . . .4 Les concepts de base de l'apprentissage . . . . . . . . . .

. . . . . . . . 2. . . . . . . . . . . . . . .1. . . . . . . . . . . . . . . . . .2. . . . 2. . . . . . .1 Le systeme Arch . . . . . . . .7 Les reseaux bayesiens et les modeles graphiques . . . . . . 2. . .1 La representation des objets de l'apprentissage . . . . . . . .27 Octobre 2009 à 09:30 37 37 39 42 42 45 46 48 49 50 53 57 58 59 60 63 63 64 64 65 66 67 68 69 3 L'environnement methodologique de l'apprentissage 76 76 80 86 86 87 90 90 90 91 92 93 93 94 96 96 96 97 102 103 104 73 . . .2. . . . . . . . . . .2 Le pretraitement des donnees . .1 L'espace des donnees d'apprentissage . 3. . . . . . . . 2. . . . . . . 2. . .9 Les grammaires . . . . . . .4. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .1. .3. . . . .3 Quel principe inductif adopter? Une introduction . 3. . . . . 2. . . . . . . 2.4. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2. . . . . . . . . . . . . . . . . . . 3. . . . . . . . .4 Comment analyser l'apprentissage? . . . . . . . . . . . .5 Et si l'espace des hypotheses ne contient pas la fonction cible? 2.2 Approche de l'induction . . .2 Le cas de la discrimination: l'analyse PAC . . . . . . . . .4 Les distributions de probabilites . . . . . . . . . 3. .1 Caracterisation de l'espace de recherche . . . . . . . . . . . . . . . . . . . . . 3.3 Cas particuliers de la decision bayesienne . 3.3. . . . . . . . . . 2. . . . . .6 En resume : la procedure inductive bayesienne . . . .4 Panorama des methodes inductives dans le cadre bayesien . . . 2. . . . .2 Comment de nir formellement le probleme de l'induction? .6 Les hierarchies de concepts .6 Les grands principes inductifs avec regulation des hypotheses . . . . . . . . . . . . . . . . . 3. . . . .2.2 L'espace des hypotheses d'apprentissage .6. .2 L'evaluation empirique a posteriori : generalites . . . . . . . . . .1 Nature de l'analyse bayesienne . 2. . . 3. . . . . . . . . . . . . . . . . . . . . . . .2. . . . .2. . . . . . . . . .4. . . 2. . . . .1 Le compromis biais-variance . . . . . . . . . .5 Les arbres de decision .1 L'idee generale : le reglage de la classe d'hypotheses . 2. . . . . .3 La recherche dans l'espace des hypotheses . . . . . . . . 3. . .8 Les cha^nes de Markov et les modeles de Markov caches . . . . . . . . . . . . . . . . . . 3. . . . . . . 3. . . . . . .4. . . . . . . . . . . . . 2. . . . . . . . . . . . . . . . . . .4. . . . .1 Etude des conditions de validite de l'ERM . . . . . . . . . .7 Discussion et perspectives . . . . . . . . . . . . . . .1 L'evaluation a priori : criteres theoriques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2. . . . . .2 Le risque bayesien et la decision optimale .5 Discussion : Quels types d'analyses et de principes inductifs? . . . . . . . . . . . 2. . . . . . . . . . . . . . . . . .2 Le perceptron . .com) . . .3. . 3. . . . . . . . . . . . . . 3. . . . . . . . . . . . . . . 2. . . . . . .2 La classi cation . . . . . . . . . .3 Les methodes d'optimisation . . . . 3. . . . . .10 Les formalismes logiques . . .1 Le probleme general de la representation des connaissances 3. . . . . . . . . . . . . . 2. . .8 Notes historiques et bibliographiques . . . . . . . . . . . . . . . . .4. .2 Caracterisation des fonctions de co^t . . . . . . . . . . . . . . . . .1. . . . . . . . . .3 Analyse dans le pire cas : l'apprentissage PAC . . . . . . . . . . . . .2 La selection de modeles . . . . . . . . . . .2. . . . . . . . 3. . .4 Analyse dans un cas moyen : l'analyse bayesienne . . . . . . . . 2.xxx 2 Premiere approche theorique de l'induction Table des matieres 2. . . . . . . .2. . . . .1. . . 3. . . . . . . . .4. . . . . . . . . . . . . . . . . . . . .2. . . . 2. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2. . . . .2. . . . . . . . . . .3. .4 L'evaluation de l'apprentissage . . . . . . . . . . . . . . . . . . . . . . . . . . . 3. . . . . . . . . . . . . . . . . . . . . . . . . 35 Ce document est la propriété exclusive de nona nina (ninasbalka@gmail. . . . . . . . . . .3 La regression . .2. . . 2. . . . . .2. 3. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .6. . . .2. . . . . . . . . . . . . . . .4.1 Deux exemples d'induction . . . .2. u 3. . . . . . . . . . . 3. .3. . .2. . . . .

. . . . . . . . . . . . . . . .1. . . . . 3. . .1 Preliminaires . . . 5. . . . . . . . . . . . . . . .3 Deux exemples . . . . . . . . . . . . .3 Risque empirique et risque reel . . . . . .3 La comparaison de deux algorithmes sur le m^me ensemble de test . . . . . . .2 Un exemple : les paires de rectangles . . . . . . . . . . . . . . 4. . . . . . . . . . . . . . . . . . . . . .1. . 5. . .3. . . . . . . . . . . . . . . . . . . . . . 4. . . . . . . . . . . . . . . . . . . . . . . . . . . . .3 Un ordre partiel sur l'espace des hypotheses . . . . . . . . . . . . . . 4.4.1 La comparaison de deux hypotheses produites par un m^me algorithme e sur deux echantillons de test di erents. . . . . . . . . . e Ce document est la propriété exclusive de nona nina (ninasbalka@gmail.Table des matieres 3. .4 Analyse de l'algorithme d'elimination de candidats . .4 La selection de modele en pratique . . . . . . . . . .2 L'utilisation pour l'apprentissage . . . . . . . .4. . . . .1 La construction de la structure . . . . . . . . . . . 166 . .5 L'estimation du risque reel d'une hypothese . . . . . .5 La comparaison des methodes d'apprentissage . . .3. . .4. . . . . . . . . . . 4. . 3. . . .1 Illustration : retour sur l'exemple des rectangles .2 La structuration de l'espace des hypotheses . . 3.1 Complexite de l'induction et expressivite du langage d'hypotheses 5. . . . . . . . . . . . . . . . . . . . . . . . . . . .5. . 4. . . . . . . . . . . 4.4 Quelques operateurs de specialisation et de generalisation . . . . . . . . . . . . . . . . . . . . . . 3. . .5. 4. . . . . . . . . . . 3. . . . . . .1 Complexite au pire . . . . . . . . . .7 D'autres criteres d'appreciation . . 4. . . . . . . . 4. . . . 4. . 4. . . . . . . . . . . . . . 4. . . . . .4 Un exemple d'application : le systeme LEX . . . . . . . . . . . . . . . . . .2. . . . . . . .1. . .4 Un resume des relations de subsomption possibles . 166 . . 3. .1 Les concepts de base . . . . . . . . . . . . . . . . .5. . . . . . . . . .6 Le reglage des algorithmes par un ensemble de validation . . . . . . . . .1. . . .2. . . . . . . . . . . . .2. . .4. . . .3 La construction de l'espace des versions . . . . .3. .2. . . .27 Octobre 2009 à 09:30 xxxi 105 106 111 115 117 118 119 119 120 II Apprentissage par exploration 4 Induction et relation d'ordre : l'espace des versions 4. .1 La syntaxe de la logique des predicats . . . .com) . . . . . . . 4. . . . . . .2 La relation de couverture en logique du premier ordre . . . . . . . . . . . . . . . . . . . . . . . . . 5. . . . . . .2 La comparaison de deux algorithmes sur des ensembles de test di erents . . . . .2 Le point de vue de l'apprentissage PAC . . . . . . . . . . . . . . . . . . . . .5 La representation des connaissances par un treillis de Galois . . . . .3. . . . . . . . . . . . . . . . . . . . .4. . . . . . . . . . . . .4. .5. . .3 La subsomption en logique du premier ordre . . . .1.2 L'algorithme d'elimination des candidats . . . . . 4. . . . . . . . . . . . . . . . . . . la description des concepts . . . . 4. . . . . . . . . . . .2 La logique des predicats et les programmes logiques : terminologie . . . 5. . .5. 5. . . . . . . 5.5 Quelques proprietes utiles d'un espace structure par une relation d'ordre partiel . . . 3. . . . . . . . . . . . . 4. . . . . . . . . . . . . . . . . . .2. .3 La relation de generalite entre les hypotheses . . . . . . . . . . . . . . . . . . . . 3. . 123 125 128 128 128 129 131 132 132 133 134 136 137 139 139 140 140 148 149 149 150 151 151 153 5 La programmation logique inductive 157 160 160 161 163 165 . . . .1. . . . .2.1. .2 Les selecteurs . . .1. . . . . 4. . . . . . . . . . . . . . 4. . 4. . .4. . . . . . . . . . . . . . . . . . . . . . . . . . .4 La relation entre un objet et un concept .1 La programmation logique inductive : le cadre general . . . 4. .1 La description des attributs. . 4. . . .

. . . . 7. . . . . . . . . . . . . . . .2. . . . .3 La taille de l'espace de recherche . .3. . . . . . . . .2. . . . . . . . . . . . . . . . . . . . . o . . . . . .4 Autres protocoles pour l'inference de grammaires. . . . .2. . . . . . 7. . . . . . . . . . 6. . . . . . . . . . . . . . . . . .7 Apprentissage PACS : PAC Simple . . . . 5. . La structuration de l'espace des hypotheses en logique des predicats 5. . 5. . . . . 7. .4 Changement de repere et raisonnement par analogie . . . . . . . . . . . grammaires. . . . . . . . Les chantiers de la PLI . . . . . 5. .1 Le squelette des algorithmes de PLI . . . . . . . . . . . . . . . . . . . . . . .1 Un systeme empirique descendant : Foil .1 Une methode caracterisable : l'inference de langages k-reversibles 7. . . . . .5. . . . . . . . . 5. . . . . . . . . . . . .2.5 Bilan . . . . . . . . . . . . . . . . . . . . . . .1 Langages. . . .com) .2 Une illustration de l'apprentissage EBL .2 L'identi cation a la limite d'une grammaire . . . . . . 7. . . . . . . . . . . . . . . 6. . . . . . . . . . . . . . . . . . . .3. . .2 Un systeme empirique ascendant : Progol . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7. . . .2. . . .xxxii 5. . .6 5. . . . . . . .1 De nitions et notations . . . . . . . . . 6. . .4. . . 168 170 170 172 174 177 178 180 182 182 184 186 188 188 5.3.1. .3 Abstraction et reformulation des connaissances . . 7. . . . . . . . . . . . . .27 Octobre 2009 à 09:30 Table des matieres 5. . . . . o 6. . 7. . . . . . 7. . 7.1. . . . . . . . .2 Les protocoles de l'inference : quelques resultats theoriques . .5 Bilan sur l'apprentissage a partir d'explications . . . . . . . . . . . . 6. . . . . .3 5. . . . . . . . . . .2. automates et partitions . .3 L'espace de recherche de l'inference reguliere . . . . . . . . . . L'exploration de l'espace des hypotheses . . 6. . . .2 Le calcul de rlgg pour la -subsomption relative . . . . . . . . . . Deux exemples de systemes de PLI . . 7. . .1 La speci cation d'un probleme d'inference grammaticale .3 Le calcul de lgg pour la resolution inverse . . .1 Le point de la situation . . . . . . . .1 Le calcul de la lgg pour la -subsomption . . 7. . . . .3 Deux proprietes de l'identi cation a la limite. . .2 Echantillons d'un langage et automates associes . . . . . . 7. . . . . . . . . . . . . . 5. . . . . . . .1 L'apprentissage en presence de theorie . . . . . . .5 L'inference reguliere sous contr^le d'un echantillon negatif . . . . . . . . . .6 Resultats PAC pour les langages reguliers . . . . . . . . . . . . . . . . . . . . .4 5. .2. . . . . . 7. . . .4 L'inference reguliere sans echantillon negatif . . . . . . . . . . . . . . . .4. . . . . . . . . . . . . . . . . 7. 7. . . . . . . . . . . . .2 Systeme de preuve pour les langages de clauses . . . . . 6. . . . . . Les domaines d'application de la PLI . .2. . . . . . . . . . . . . . . . . . . . . . . . . . . . .2. . . . .2. 7. . . . . . . .2. . . . . . . . . . . . . . .2. . . . . . . . . . . . . . 6.1 Le principe de l'EBL . . . . . . .2 Une methode heuristique : l'algorithme ECGI . . . . .1 Les problemes a resoudre . . . . . . . . . . . . . .4. . . . . . . . . . . . . . . . 6. . . . . . . 7. . . . . . . . . . 5. . . . . 7. . . .5 L'inference grammaticale et l'apprentissage PAC . . . . . . . .3. . . . . . . . .8 Apprentissage PAC avec distributions bienveillantes . . . . . . . . . . . .2.3. . . . . .3. .2 L'apprentissage par examen de preuve (EBL) . . . . . . . . . . . . . . . . . 5. . . . . .7. . . 7. . . . . . . . . . . . . . . . . . . . . . . . .4.2.7 6 Reformulation et transfert de connaissances 6. . . . . .4 L'apprentissage de connaissances de contr^le a partir d'explications . . . .2 Les biais de recherche dans l'espace d'hypotheses . . . . 193 194 194 194 195 198 199 201 201 203 205 7 L'inference grammaticale 207 212 212 218 220 220 221 222 222 223 224 225 226 226 226 227 228 228 228 230 233 .5 Ce document est la propriété exclusive de nona nina (ninasbalka@gmail. . . . . . . .5. . . . . . . . . . . . . . . . .3 Discussion sur l'apprentissage de concept a partir d'explications . . . . . . . . .2 Deux proprietes fondamentales . . . . . .

. . . . . . . . . . . . . .5 La selection . .5 Illustrations . . . . . . . . . . . . .4 Le fonctionnement . . . . . 8. . .1 Le jeu entre H et G . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8. .1 Hyperplans separateurs et discriminants dans un probleme a deux classes. . . . . . . . .1 Presentation . . . . . . . . . . . .6. . . . . . . . . . 7. . . . . . . . . . . . . .3.5. . . . .2. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .6 Une analyse de la programmation genetique . 9. . . . . . . . . . . . . . 8. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8. . . . . . . . . 7. . . . . 7. . . . . . . . . . . . . . . . . . . . . . . . .1. . . . . . . . . . . . . . 7. . . . . . . . . . . . . . . . .5. .1 Une solution globale . . . . . . . . . .3. . 7. . . . . . . . . . . . . .2 Le point de vue connexionniste . . . . . . 8. .6 L'inference de grammaires algebriques.2 L'algorithme generique . 245 247 249 249 249 250 251 251 252 252 255 258 262 262 265 267 267 267 268 271 272 274 III Apprentissage par optimisation 9 L'apprentissage de surfaces separatrices lineaires 9. . . . . . . . . . . . . .6 La coevolution . . . . . . . . . . . . . . . 9. . .3 L'initialisation de la population . . . . . . . .2 Un modele formel simpli e de l'evolution . . . . . . . . . . . . . . . . . . 8. . . . . . . . . . . . . . .2. . . .7. . . .3 Les methodes par exploration.6. 8. . . . . .2 L'apprentissage d'un hyperplan pour discriminer deux classes . .4 Les operateurs . .6. . . . . . . . . . . . . . . . . . 233 233 233 234 236 237 237 237 239 239 240 240 240 242 xxxiii Ce document est la propriété exclusive de nona nina (ninasbalka@gmail. . . . . . . . . .6 Le theoreme des schemas : une explication de la puissance des AG? . . . .6. . .7. . . . . . . . .4 L'algorithme RPNI . . 8. . . . . . .6. . . . . . . . . . . . . . . . . . . . . . . . 9. . . . . . . . . . 8. . . . . . . . . . . . . . . . . . . . . . . . . .1 Les grammaires stochastiques . . . . . .5. . . . . . . . . .5. . . . . . . . . .3 Evaluation et selection . . . . . . . . . . . 7. . . . . . . . . . . . . . . . . .3 Les algorithmes RIG et BRIG . . . . . . 8.1 La representation des programmes . . . . . . . . . 8.1.2 L'apprentissage a partir d'echantillons structures. . . .5. 7. . . . . . . . . . . . . . . . . . . . . . . . . 277 279 281 281 282 283 283 286 . . . . . . . . . 8. . . 7. 8. . . . . . . 8. . . . .5 L'inference de grammaires lineaires equilibrees . . . . . . . . .3. . . . . . . . . . . . . . . 7. . . . . . . . . . . . . . . 8. . . . . . . . . . . . 9. . . . . . . . . 7. . .5 La programmation genetique . . . .5 Variantes et extensions . . . . . . . . . . . . . . 7. 8. . . . . . 8. . . . . . . . . . . .1 La representation dans l'espace genotypique . . . . . . . . . . . . . . . . . .2 L'apprentissage comme processus d'evolution d'une population . . . . . . . . . . .5. . . . . 7. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .5. . . . . .1 Generalites.1 Trois espaces au lieu de deux . .2. . . .4 Les strategies d'evolution . . . . . . . . . . . . .1 L'ensemble frontiere . . . .5. . . . . .Table des matieres 7. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .3. . . . .5. . . . . 8. . . . . . . .4 Une methode avec oracle. . .2 Un peu de geometrie dans IRd . . . . . . . . . . . . . . . . . .2. . . . . . . . . . . .3. . . . . . . . . . 8.2 Le lien avec l'espace des versions . . 8. . . . . . . 9. . . .2 Une methode iterative : l'algorithme de Ho et Kashyap.1 Un exemple d'ecologie : les systemes de classeurs . . .3. . . . . . . . . . . .3 Les algorithmes genetiques . . . . . . . .com) . . . . . .6. . . . . .7 Quelques extensions . .2 Les operateurs genetiques sur les programmes . . . . . .27 Octobre 2009 à 09:30 8 Apprentissage par evolution simulee 8. . .5. . .5. . . . . . . . . . . . . . . . . . . . . . . 7. . .

. . . . . . . . . . . . . . . . . . . .2 L'architecture multicouche . . . .2. . . . . . .7 Le probleme des minima locaux . . . . . . . . . . . . . . . . 10. . .1 La transmission de l'information dans un reseau multicouche 10. . . . . . . . . . . . . . . . . . . . . . . . . . . . .27 Octobre 2009 à 09:30 10. .3 Un autre exemple : le probleme (( XOR )) .1 Principe . . .3 Les separateurs a vastes marges (SVM) . .3. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .5 Une variante . . . . . . . . . . . 11. .1. . . . . . . . . . . . 10. . . . . .2. . . . . . . . . . . . 11. . . 11. 10. . . . . . . . 10. . . . . . . . . . . 10. .4 L'hyperplan discriminant de Fisher . . . . . . . . . . . . . . . . 9. . . . . . . . . . . . . . . . .3. . . . .3 Le boosting probabiliste et l'algorithme AdaBoost . . .3 Un autre calcul : l'algorithme du perceptron . . . . .2. . . . . . . . Table des matieres . . . . . . . . . . . . . . 9. . . . . . . . . . . .6 Et pour plus de deux classes? . . . . . . . . . . . . . . . . . . . . . .3 L'organisation des calculs . . . . . . . . .3. . . . . . . . . .3. . . .2.3. . . . . . .3 Comment elaguer un arbre trop precis . .2 La construction . . . . . . .2 Les arbres de regression . . . . . .4 La n de la construction et l'elagage . . . . . . . 9. . . . . . . . . . . 10. . . . . . . . . .2. . . . . .2 Un exemple .2 Le premier algorithme de boosting . . .4.1 Les di erents elements d'un reseau connexionniste . . . . . .2. . . . . .4 Retour sur l'exemple . . . . . . . . . . . . . . . . . . . . . . . . . 10. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 287 290 292 292 293 294 302 307 309 10 L'apprentissage de reseaux connexionnistes Ce document est la propriété exclusive de nona nina (ninasbalka@gmail. . . .4 Le protocole d'apprentissage .3.2. . . . . . . 11. . . . . . . . . . . . . . e 10. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11. . .3. . . . 10. . 10. . . . .1. . .3 Un exemple . . 11. . . . . . . . 11.3. . . . . . . . .4. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .2 Complexite .5 Traduction des arbres de decision en logique des propositions 11. . . . . . 11.2.5 Surfaces separatrices non lineaires . . . . . . . . 10. . . . . . . 11. . . .3 Reseaux connexionnistes et apprentissage PAC . . . . . . . . . . . . . .2 Quelle justi cation pour les SVM? . . . . . . . . . . . . . . . . . . . . . 10. . . . . . . . . . .1. . . . . . . . . . .2. . .1 Retour sur le perceptron . . 311 313 315 315 316 318 319 320 320 321 325 326 326 328 329 329 329 329 330 330 331 11 Apprentissage par combinaison de decisions 333 335 335 336 343 347 349 352 352 353 353 354 354 354 355 357 . .1. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .3. . . . . . . . . . . . .1 Pouvoir d'expression .2. . . .2.2. . . . . . . . . . . . . 9. . . .3 L'algorithme d'apprentissage . . . . . 9.4 Un exemple : les iris de Fisher .3. . . . . . . . . . . . . .1 Les arbres de decision . .4 Conclusions sur les SVM . . . . . . . . . . . . .2 La construction recursive d'un arbre de decision . . . . . . . 11. . . . . . . .2 L'apprentissage par retropropagation du gradient de l'erreur . . 10. .3. . . . . . . . . . . . . . . . .6 Quand arr^ter l'apprentissage? . . . .2. . . . . . . .3 La regression par fonctions noyau et exemples critiques 9. 11. . . . . . . . . 10. . . . . . . . . . . . . .5 Comment choisir l'architecture d'un reseau? . . . . .3 Le boosting d'un algorithme d'apprentissage . . 9. . 10. .5 Le codage des exemples d'apprentissage .com) . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10. . . . . . . . .1. . . . . . . . . .3. . . . . . . 9. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11. . . . . . . . . .4. . . . . . . . . . .3. .1 La recherche des separateurs lineaires a vastes marges . . . .4 Quelques resultats theoriques sur les reseaux connexionnistes . . . . . . . . . . . 11. . . .1 Le principe . . . . . 10. . . . . . . . . . . . . . . . . . . . 11. . . .3. . . . . . . . . . .1 Plusieurs experts valent mieux qu'un . . . . . . 10. . .xxxiv 9. . . . . . . . . . . . . .

. . Le (( bagging )) . . . . . . . . . .2. . . . . . . . . . . . . . . . . . . . . . . . . .2. . . . . . .1 Apprentissage avec structure connue et donnees completes . . . . . . 12. . . .3. . . . . . . . 12. . . . . . .com) . . . . . . . .2 La d-separation generalisee . . . . . . . 13. . . . . . . . . . . 14. . . . . . . . . . . . . . . . . . . . . . . . . . .1. . . . . . . . . . . . . . 13.3 Apprentissage en presence de donnees incompletes . . . . . . . . . . . . . . . . . . 12. . . . . . . . 12. . 14.1.5 11. . . . . . . . . . . . . .2 La d-separation . . .3. . . . . . . . . . . . . . .1. . . . .3 Les Hmm comme regles de classi cation de sequences . . . . . . . . . . . . . . . . 13. . . . . . . . . . . 14. . . .1. . . . 12. . . . . . .8 Applications .2 Les modeles de Markov caches (Hmm) . . . 13. . . . 13. . . . . . . . . . . . . . . . . . . . . . 13. . . . 14. . . . . . .mais on ne peut que l'approcher. . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . .27 Octobre 2009 à 09:30 12. . . . . . . . . . . . . . L'utilisation du boosting . . 13. . . . . . . . . . . . . . . . . . . . .2 Pourquoi faut-il des variables cachees? . 13. 14. .7 Les proprietes de l'algorithme AdaBoost . . . .1 Les reseaux d'inference bayesiens . . . . .1 Schemas d'inference . . . . . . . . . . . . . . . . . . . . . .7 Approfondissements . . .1 Les trois problemes des Hmm .5 Le calcul du chemin optimal : l'algorithme de Viterbi . . . . 14. . . .6 11. . 13. .3. . . . . . . . . . . . . . . . . . . .3 Notations .1 De nition .. . . . . . . . . .3 De nition formelle d'un reseau bayesien . . .4 L'evaluation de la probabilite d'observation . . . . . . . . . . . . .. .. . . .2 Les inferences dans les reseaux bayesiens . . . 363 364 366 366 368 368 369 372 374 375 376 379 379 381 13 L'apprentissage de modeles de Markov caches 385 388 389 389 389 391 392 393 393 393 394 395 397 400 406 407 IV Apprentissage par approximation et interpolation 14 L'apprentissage bayesien et son approximation 14. . . . . . . . . . . .7 La regle bayesienne et la minimisation de l'entropie croisee . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14. .2 Les Hmm et la classi cation bayesienne . .3 L'apprentissage des reseaux bayesiens . .3. . .1 Presentation . . . . . . . .1. . .Table des matieres 11. . . . . . . .1. . . . . . . . . .4 Apprentissage avec structure connue et donnees incompletes .1 L'apprentissage bayesien . . 12. . . . . . . . . . . . . . 12. . .2 Apprentissage avec structure inconnue et donnees completes . . . . . . . .1 De nitions et notations . . . . .5 Apprentissage avec structure inconnue et donnees incompletes .6 La regle bayesienne et la regression aux moindres carres . . . . . . . . . . . . . . . . . . .5 Comment un Hmm engendre une sequence . . 13. . .3. . . . . . . . . . . .3 L'apprentissage bayesien d'une regle de classi cation . . . . . . . . . . . .2. . 12. . . . . . . 358 360 360 361 xxxv 12 L'apprentissage de reseaux bayesiens Ce document est la propriété exclusive de nona nina (ninasbalka@gmail. . . . . . . . . 13. . . . . . . . . . . . . . . . . .1 Les modeles de Markov observables . . . . . . . . . . . . . . . . . . . . . . 12. . . . . . . .2. . . . . . . . .3. .1. . . . . . . . . . . . . .1. . . . . . . . . . . . . . . . . . 12. . .4 11. . . . . . Boosting et theorie PAC . .3. . . . . . .3. . . . . .3. . 409 411 413 413 415 415 416 416 418 419 . . . . . . . . . . 13. . . . . .3. . . . . . . . . . . . .5 . .4 La classi cation bayesienne est optimale en moyenne. . . .2. . . . .2 Un petit retour en arriere . . . . . . . . . . . . . . . . . . . . . . 13. . . . . . . . . . . . . . . . . . . . . . . . . .4 Deux types de Hmm . . . . . .1. . . . . . . . . . . . . . . . . . . . .6 L'apprentissage . . . . . . . . . . . . . . . . . . . .2. . . 12. . . . . . . . . . . . . . 13. . . . . . . . . . . . . . . . . . . 12. . . . . . . . . . . .2. . . . . . . . . . . . . . . . 13.3. . . . . . . . . . .1. . . . . . . . .

. 14. . . . . . . .2. . . . . . . . . . . . . . . . . . .6 Le coapprentissage et les melanges d'exemples supervises et non supervises 15. .1 Generalites : le probleme de l'estimation locale d'une densite 14. . . . . . . .1. . . . . .9 L'apprentissage bayesien non supervise . . . . . . . . .3 L'indice du lien simple .2. . . . . . . . . . .1. . . . . . . . . . . . . .4 La decouverte automatique . . .3 Des hypotheses simpli catrices . . . . . . . . . .1 La classi cation hierarchique de donnees numeriques . . . .5 La prediction bayesienne de la distribution des parametres . .4 L'indice de la distance entre centres de gravite .4. . . . . . . . . . 15. . . . . . . . . .5. .6 Ameliorations ulterieures . . . . . . . . . . . . . . . . . . . .1 La methode des k-moyennes . . . . . . . . . . . .com) . . .3 Un exemple . . . . . . . . . . . . . . . . .2 Les attributs nominaux : la representation attribut-valeur . . . . . . . . . . . . . . . . .3.2. 451 453 453 456 456 457 457 458 458 458 458 460 460 462 462 463 464 464 464 465 466 467 468 470 470 470 471 473 479 479 . . . . 15. . . . . . .2. . . . . . . . 15. . . . . . . . . . . . . . .6.5 Decouverte de lois avec plus de deux variables . .5 L'indice de Ward . . . . . . . . . . . . . .1. . . . . . . . . . . . . . . . .7 Le choix du nombre de classes . . . .4 Les cas non gaussiens et multigaussiens . . . . . . . . . . . . . . . . . . . .4 Traitement des donnees bruitees . .1 La discrimination logistique . . . . . . . . 15. 15. . . . . . . . .3. . . . . . . . . . . . . .2 Les fonctions noyau et les fen^tres de Parzen . . . . . . . . . . . . 15. . . . . . . . . . . . .3. . . . .3. . . . . . . . . . . . . . . .4 Les methodes semi parametriques . .4. . . . . . . . . . . . . . . . .2 L'estimation d'une somme ponderee de distributions gaussiennes . . . . . 14.1 L'estimation par maximum de vraisemblance .3 Les donnees logiques . . .3 Decouverte de suites temporelles dans les donnees . . . . . . . . . .2. . . . . . . . . . . . . . . . . . . . . . . 15. . . . .1. . . . . . . 15. .3 Les k-plus proches voisins (k-ppv) . . . . . . . . . . . . . . . . . . . . . . .2 Un algorithme general de classi cation hierarchique . . . . . . . 15.5 La decouverte non supervisee d'associations complexes d'attributs . . . . . . . . . . 15. .1 Le cas de deux jeux independants d'attributs : le coapprentissage . . . .3 La classi cation de donnees symboliques .27 Octobre 2009 à 09:30 15 La classi cation non supervisee et la decouverte automatique 15. . .1. . . . . . . . . . . . . . 15. . . . .1. . . . . . . . . .xxxvi Table des matieres 14. . . . . . . . . 15. . . . . . . . . . . 15. . . . . . . . . . . . . 14. . . . . . . . . . . . . . . . . .2 La classi cation non hierarchique de donnees numeriques . . . .4. . . . . . . . . . . .1 Presentation . .5. . . . . . . . .6 L'indice de la vraisemblance du lien . . . . . . 14. . . . . . . . . . . . 15. . . . . . 15. . . .2 Les melanges de distributions .4. . . . . 15. . . . . . . .3 Decouverte de lois plus complexes . . . . . . . . . . . . . . . . . . . . . . . . .4. . . . 15.3.4. . . . . . . . . . . . . . 14. . . . . . . . . . . . . . . . . . . . . 14. . . . . . 14. . . . . . . .2 L'apprentissage des associations . . . . . . . . . . e 14. . . . . . . 14. . . .1 Les associations d'attributs binaires : de nitions . . . . . . . . . .1. . . . . . . . . . . 15. . . . . . . 15. . . . . . 15. . . . . . . . 15. . . . . . .3. . . . . . . . . . .1 Les donnees binaires et categorielles . . . . . .8 La regle bayesienne et la longueur minimale de description . . . . . . . . .4. .3 L'apprentissage bayesien non parametrique . . . . . . . . . . . . . . . . . . 14. . . . . . 14. . . .5. . . . . . . . . . 15. . . .4. . . . 15.3 Le cas des reseaux connexionnistes et des arbres de decision . . . 15. . . . . . . . . . . . . . . . . . . .1. . . . . . . . . . . . . . .2 La decouverte de fonctions simples . . . . . . . .2. . . . . . . . . . . .1 Generalites . .2. 14. . . . . . . . . . 14. .4. .1. . . . 15.2 Les methodes parametriques . . . . . . . . . . . . . . . . . . . .2 L'estimation des parametres d'une distribution gaussienne . . . . 15. . 420 422 422 422 423 427 428 428 431 431 432 435 445 445 447 448 Ce document est la propriété exclusive de nona nina (ninasbalka@gmail. . . . . . . .2. . . . . . 15. 14. . . . .

. . . . . . . . . . . . . . . . . . . . 16. . . . . . . . . . . .5. . . . . . . . . . . . . . . . .3 Les problemes et les grandes approches . . . . . . .3.3 Le lemme de Sauer : un lemme sauveur . . . . 16. . . . . . . . . . .2 Un theoreme conduisant a l'amelioration de politique . 16. . . . . . . . . 17. . . . . . . . . . . . . . . . . . . . . .2 La theorie de l'induction selon Solomono . . . . . 16.6. . . . . . . . .2. . . . . . . . . 16. . . 16. . . . . .1 La minimisation du risque structurel : SRM . . . . . . . . . . learning : Une methode d'amelioration (( hors politique )) . . . . . . . . . . . . . . . . . . . . .5. . . . . . . . . .8.1 L'analyse de l'induction de Vapnik . .1. .2 Fonction de croissance et dimension de Vapnik-Chervonenkis . . . .4 Si rien n'est connu : la methode de Monte-Carlo . . . . . . . . . . .2 Si tout est connu : l'utilite de la fonction d'utilite . . . . . . . 17. . . . . . . . . . . . . . 16.5. . .1 Cas ou jHj = 1 et F H . . 16. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16. . . . . . . . . . . . . . . . . .com) . .4 Methodes directes d'apprentissage de politique . . . . .2 L'utilisation de l'algorithme EM . . 17. . . . .3 Methodes de generalisation par partition de l'espace . . . . . . . . . . . .Table des matieres 15.5. . . . . . . . 16. .6. . . . . . . 16. . . . . . . . . . . . . . . . . . .3 L'induction par compression d'information . . . . . .3 Processus iteratif d'amelioration de politique . . . . . . . 16. . . . .1. . . . . .9 Bilan et perspectives . 17. . . . .3 Sarsa : Une methode d'amelioration (( sur politique )) . . . . . . .2 Les notions fondamentales . . . . . . . . . . . . .3. . . . . .6. 16. .1 Description du probleme . . . . . . . . . . . . . . .8 Exemples d'application . . .5 Discussion . . . . . . . . . . . . . . 16. . 16. . . 16.4 Le Q . 511 513 513 514 515 517 520 523 524 524 525 528 529 530 530 . . . 480 xxxvii 483 485 485 487 490 491 492 493 494 495 496 497 497 498 499 499 500 501 501 502 504 506 506 507 507 508 508 16 L'apprentissage de re exes par renforcement Ce document est la propriété exclusive de nona nina (ninasbalka@gmail. . . . . . . . . 16. .2. . . o 16. . . . . 17. . . . .2. 16. . . . . . .3 L'apprentissage des fonctions d'utilite quand l'environnement est connu . . 17. . . . . 17. 16.1. . . . . . . . .1. . . .3 La theorie de l'estimation bayesienne .5 TD( ) : les methodes de di erences temporelles a plusieurs pas . .1 Le probleme . . 16. . . . . . . . . . . .2 Generalisation par approximation de la fonction d'utilite . . . . . 17. . V Approfondissements et annexes techniques 17 Approfondissement sur l'analyse de l'induction 17. . . . . . . . . . . . . 17. . . . . . . . . . . . . . . . . . . . . . .1 Un exemple . . .4 L'analyse de Vapnik et Chervonenkis pour des fonctions quelconques 17. .1.2 La theorie de la regularisation . . . 16. . . . . . . . . . . . . . . . . . . . . . . . . . .1. . . . . . . . . .5.2 Les principes inductifs avec contr^le de l'espace o des hypotheses . . . . . .1.8. . . . . . . . .3. . . . . . . . . . . . . . . . . . . . . . . . 17. . . .6 La generalisation dans l'apprentissage par renforcement . . . . . . . . .7 Le cas des environnements partiellement observables .2 Applications au contr^le et a la robotique . . . . . . . . . . . .2 L'amelioration de politique avec les di erences temporelles . 16. .6. . . . . .1 L'evaluation suivant la methode des di erences temporelles . . .3. . 16. . . . . . . . . . . . . . . . 16. . . .27 Octobre 2009 à 09:30 16. . . . . . . . . . . .1. . . . . . . . . . . . . . . . . .5 Le meilleur des deux mondes : la methode des di erences temporelles .6. . . . . . . . . . .1 La modelisation d'un agent en action dans le monde . . . 17. . . . . . . . . . . . . . . . . . . . . . . . . . . . . .1 Le TD-Gammon .1 L'evaluation d'une politique par propagation locale d'information . . .3. . . . . . . . . . . . . . . . . . . . . . . . . . . .

. .5 Retour sur l'exemple . . . . . . . . .6. 531 532 534 536 536 541 542 544 546 18 Annexes techniques Ce document est la propriété exclusive de nona nina (ninasbalka@gmail. . . . . . . . 18. . . .3. . . . . . . . . . . . . . . . . . . . . . . . 18. . . . . . . . . . 18. . . . 18. . . . . . . . . . . . . . . . . . . . . . . . . . . 18. . . . . . . . . . . . . 17. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .27 Octobre 2009 à 09:30 18. . . . . . . . . . .xxxviii Table des matieres 17. .6 L'apprentissage des parametres des Hmm .1 Pourquoi? . . . . . . . . . . .4.1 Un exemple . . 18. . . . . . . . . .3 La complexite de Kolmogorov .9 Apprentissage par estimation-maximisation. . . . . 18. . .1 La reconnaissance de formes ou classi cation . . . . . . . . . . . . . . . . . . . 18. . . . . . .1 Notations .6. . 17.5. .2 La regression . . . . . . . . . . . . . . . . . . .5 Analyse : compression et pouvoir inductif . . . . . . . . 17. . . . . . . . . . . . . . . . . . .3. . . . . . . . . . . . . . . . . . . . . . Variantes et perspectives . . . . . .2 D'autres types d'analyses . . . . .4 L'induction en debat . . . . . . . . . . . . . . . .2 Comment? . . . . . . . 18. . . . . .1. 18. . . . . . .3 Statistique su sante . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18.9. . . . . . . . . . . . . . . . . .9. . . . . . . . . . .1. . . 18. 18. . . . . . . . . . .3 L'estimation de densite . . . . . . . .3. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18. . . . .5 L'estimation des parametres d'une distribution gaussienne . . . . . . . . . 18. . . . . . . . . . . .2 Application de l'algorithme EM a l'exemple . . . . . . .6 Pourquoi et comment la regle du PPV converge-t-elle? . .1 Exemples de fonctions de perte en induction . . . . . . . . . . . . . . . . 18. . . .3 Calcul du gradient . . 17. . . . .5.3. . . . . .com) . . . . . . . . . . . . . . . . . . . .3. . .4. . . . 17. . . . . .2 Optimisation par descente de gradient . . . . . . . . . . . . . . . . . . . . . . . . . . . 18. 17. . . . . . .3 La retropropagation du gradient de l'erreur . . . . . . .2 Fonctionnement du systeme . . . . .1. .9. . . . . 17. . . . . . . . . . 18. . .4 Estimation d'une densite de probabilite en un point .7 L'apprentissage des parametres de distributions multigaussiennes . . . . . . . . . . . . . 18. . . . . . . . . . . .4 Plus generalement . . . . . .7 Le calcul de l'intervalle de con ance de l'estimation de la probabilite d'une regle de classi cation . . . .9. .1 Le no-free-lunch theorem : toutes les methodes se valent !? . .1 D'autres modeles d'apprentissage . . .9. . . . . . . . . 18. . .9. . . . . . . . . . . . . .3. . . . . . .5 Discussion sur l'analyse classique. .9. . 18. . . . . . . . . . . . . . 18. . . . . . . . . . . . . . . . . . . . 18. . . . . . . . . . . .4 Le principe de longueur de description minimale (MDLP ) .8 Pourquoi la regle de decision bayesienne est-elle optimale? . . . . . . .2 Le no-free-lunch theorem et l'analyse de Vapnik : une contradiction? 17. . . . . . . . . . . . . 551 551 551 552 553 554 557 557 557 558 560 561 562 562 562 563 564 565 565 565 566 566 566 568 568 Bibliographie Index 571 586 . . . .

Ce document est la propriété exclusive de nona nina (ninasbalka@gmail.com) .27 Octobre 2009 à 09:30 Premiere partie Les fondements de l'apprentissage .

Ce document est la propriété exclusive de nona nina (ninasbalka@gmail.com) .27 Octobre 2009 à 09:30 .

examinons rapidement certaines activites d'apprentissage par des organismes naturels. le sens de l'equilibre. il nous manque souvent la connaissance. L'apprentissage naturel Des sa naissance. Pour plus d'information. soit des robots reels de tailles diverses. la coordination motrice. y compris d'equipes de robots comme dans la RoboCup 1 l'exploration de grandes bases de donnees (on dit aussi la fouille de donnees). . Chacune de ces t^ches et bien d'autres ont stimule l'inventivite des a chercheurs et donne lieu a de nombreuses realisations impressionnantes. il apprend plus tard a marcher. e Depuis bient^t un demi-siecle. L'enjeu est de contourner cette di culte en dotant la machine de capacites d'apprentissage lui permettant de tirer parti de son experience. programmer des machines capables de s'adapter a toutes les situations et eventuellement d'evoluer en fonction de nouvelles contraintes est di cile. un enfant apprend a reconna^tre l'odeur de sa mere.org/. puis sa voix et plus largement l'ambiance du lieu ou il vit. comme sa vue ou son toucher.1 L'apprentissage arti ciel M^me les machines ont besoin d'apprendre.Chapitre 1 Ce document est la propriété exclusive de nona nina (ninasbalka@gmail. par exemple la reconnaissance de la parole ou la vision arti cielle le contr^le de processus. Il existe plusieurs types de competitions mettant en jeu soit des agents simules. La RoboCup est une competition annuelle organisee depuis 1997 entre equipes de robots footballeurs. voir par exemple http://www.robocup. la proprioception. Il apprend pendant le m^me e temps a segmenter et categoriser des sons et a les associer a des signi cations. par exemple l'aide au diagnostic medical la reconnaissance de formes. par exemple la prediction de consommation electrique ou la prediction de cours boursiers la conduite de robots.27 Octobre 2009 à 09:30 De l'apprentissage naturel a l'apprentissage arti ciel 1. tant il est vrai que si nous croulons sous les informations. les chercheurs en intelligence arti cielle travaillent a programo mer des machines capables d'e ectuer des t^ches qui requierent de l'intelligence. manifestant une grande capacite a integrer des signaux di erents : la vue. Il apprend aussi la structure de sa langue maternelle et acquiert simultanement un repertoire organise de connaissances sur le monde qui l'environne. par o exemple la conduite de procedes industriels la prediction. il apprend a coordonner ses perceptions. avec ses mouvements. 1. Cependant. Ensuite.com) . C'est pourquoi parallelement aux recherches sur le raisonnement automatique se sont developpees des recherches sur l'apprentissage par les machines. Avant cependant d'aborder ce type d'apprentissage. Par des essais grati ants ou penalisants. Nous citerons a l'aide a la decision.

celui-ci est cependant beaucoup trop restrictif. etc. par recompense ou a punition. le but des sciences de l'arti ciel. Conna^tre. des theories sur les phenomenes sociaux. Si a certains types d'apprentissages. Ces diverses formes d'apprentissage auront-elles une contrepartie lorsqu'il s'agira d'apprentissage par des machines? Et comment envisagera-t-on l'apprentissage naturel apres cette etude? Apprentissage (( arti ciel )) ou apprentissage (( automatique )) ? Au fait. dans cette optique. accompagnent son cheminement et sanctionnent. Les modalites de l'apprentissage naturel sont donc multiples : apprentissage par c ur. les resultats observes. bien que consacre par l'habitude. Plus tard. peuvent correspondre a ce schema.4 Premiere Partie : Les Fondements de l'Apprentissage Ce document est la propriété exclusive de nona nina (ninasbalka@gmail. Prix Nobel d'economie et l'un des fondateurs de l'intelligence arti cielle. On peut aussi penser a utiliser les expressions apprentissage machine pour traduire directement l'expression americaine machine learning ou a apprentissage algorithmique pour insister sur les aspects operationnels. Il sous-entend en particulier une sorte d'activite inconsciente de bas-niveau. de preference simples. e Selon le point de vue des sciences de l'arti ciel. apprentissage impliquant des categorisations voire la formation de theories.27 Octobre 2009 à 09:30 Il va aussi apprendre a lire. Ainsi. Il est vrai que le mot arti ciel evoque aussi quelque chose de factice. comme l'habituation. sportifs. l'enfant apprend par etapes a ma^triser des concepts et des operations de plus en plus abstraits. est bien de comprendre les phenomenes de la nature. qui s'execute (( en t^che de fond )) comme disent les informaticiens pour para ler d'un processus se deroulant au second plan sans perturber la t^che principale courante. c'est concevoir un modele operatoire du monde . par instruction. en particulier de l'apprentissage arti ciel. il decouvrira et enoncera des points de vue personnels.com) . Au cours des annees qui suivent. e Sciences naturelles et sciences de l'arti ciel Le projet des sciences naturelles est de comprendre les phenomenes en formulant des lois sous-jacentes. Finalement. voire de frelate et que nous savons combien le terme d'intelligence arti cielle a sou ert de ces connotations mais nous nous placons ici sous le patronage de Herbert Simon (1916-2001). il demande des repetitions et des sequences d'exercices bien choisies. comment appeler cette discipline ? Le terme academique le plus courant est apprentissage automatique. voire m^me certaines formes d'associae tions (comme chez le fameux chien de Pavlov). cette fois sans professeur pour l'escorter. naturels et autres. Il apprend d'abord par c ur des mots associes a des sons et a leur signi cation. par le but poursuivi et les moyens utilises. Il est en partie supervise par des adultes qui preparent les t^ches d'apprentissage. L'ambition fondamentale des sciences de l'arti ciel n'est pas di erente mais. Il nous semble que la notion d'apprentissage arti ciel apporte quelque chose de plus profond que la simple idee d'(( automatique )). par decouverte. comprendre implique la capacite de fabriquer pour reproduire. par generalisation. Cependant. Cet apprentissage est long et progressif. apprentissage plus ou moins supervise ou autonome. il extrait des regles permettant de distinguer des groupements syllabiques a l'interieur des mots et de les prononcer. economiques. ce terme ne nous semble pas completement satisfaisant. qui a bien su montrer la marque et l'inter^t de la notion de sciences de l'arti ciel Sim81]. Mais cette comprehension doit passer par la construction de modeles qui (naturellement pour des informaticiens) doivent ^tre capables de realiser des simulations. parce qu'il a souvent manipule des livres illustres ou il a observe l'association des images et des symboles de l'ecriture. elles s'en ecartent cependant su samment pour se de nir a part entiere. Il sait deja faire la distinction entre texte et non texte.

faisons ici le choix que le critere de succes est lie simplement au gain de la partie.1. l'apprentissage arti ciel est la science qui cherche et etablit des liens entre les principes generaux d'apprenabilite et les methodes et outils permettant de realiser un apprentissage dans un contexte particulier. Prenons maintenant la situation du jeu d'echecs schematisee dans la gure 1. mais l'un des soucis sous-jacents sera de rechercher les conditions de realisabilite des modeles de l'apprentissage. D'une part. les sciences de l'arti ciel sont aussi des sciences normatives. Lequel est le meilleur? Pour simpli er. c'est donc prendre de la distance par rapport a l'objet et se donner les moyens de l'approcher dans son comportement. La premiere partie de l'ouvrage est davantage tournee vers l'expose des principes tandis que le reste presente des techniques justi ees en particulier a la lumiere des principes fondamentaux. Certes. simples en apparence. S'agit-il de faire apprendre les regles du jeu a la machine a partir d'observations de parties jouees? S'agit-il de lui faire apprendre a bien jouer ? S'agit-il de lui faire decouvrir les variables pertinentes pour predire comment jouera l'adversaire (son niveau. 5 Ce document est la propriété exclusive de nona nina (ninasbalka@gmail.2 Deux exemples : apprendre a jouer. Ainsi. Comment determiner le coup a jouer? L'approche classique en intelligence arti cielle utilise l'algorithme MinMax RN95] fonde sur la notion de fonction d'evaluation. elle a le choix entre plusieurs dizaines de coups legaux. son style de jeu)? S'agit-il de predire le gagnant. c'est-a-dire les lois profondes qui reglent la possibilite d'apprendre. Conna^tre. ou bien le nombre de coups restant a jouer? La liste est deja variee. a pour faire emerger les multiples questions sous-jacentes. En supposant qu'elle connaisse les regles du jeu. ce sont des sciences qui cherchent des normes permettant de de nir ce qu'est un raisonnement valide. apprendre a lire Avant de xer un cadre methodologique et de presenter les concepts de base sur lesquels s'organise cet ouvrage. En pratique. Comment s'y prendre? Il faut d'abord de nir exactement le but poursuivi. la machine e ectue une recherche en avant dans l'arbre des coups possibles. Supposons que l'on veuille faire apprendre a une machine a jouer a l'un de ces jeux.2. le jeu de go ou le morpion en sont les exemples les plus immediats.1 Apprendre a jouer . etc.27 Octobre 2009 à 09:30 1. par opposition a l'aspect principalement descriptif des sciences naturelles. dans cet algorithme.com) . C'est dans ce double sens que nous desirons presenter l'apprentissage arti ciel dans cet ouvrage. elles concoivent la connaissance et la comprehension comme une capacite de simulation. donc d'apprentissage machine. d'en faire varier des parametres et d'enoncer des conditions de realisabilite. D'autre part. Supposons que ce soit a la machine (pieces blanches) de choisir son prochain coup. une dizaine de demi-coups environ). examinons brievement deux t^ches d'apprentissage. en ignorant la duree de jeu. elle evalue 1. En ceci. Le theoricien et l'ingenieur etablissent ainsi un dialogue. Les sciences de l'arti ciel presentent deux aspects qui les distinguent des sciences naturelles. Nous avons cherche a conserver cet esprit dans l'organisation de l'ouvrage. elle n'est pas exhaustive. Ensuite. il sera bien question d'apprentissage automatisable. Le jeu d'echecs. le nombre de coups restant. ce qui implique la possibilite d'explorer e ectivement les consequences de postulats initiaux. un apprentissage correct et les conditions necessaires pour qu'il puisse avoir lieu.Chapitre 1 De l'apprentissage naturel a l'apprentissage arti ciel pour le soumettre a des manipulations reglees. Prenons d'abord le cas d'un jeu a deux adversaires sans hasard et sans information cachee. donc d'apprentissage automatique et d'un apprentissage realisable sur des machines. aussi loin que le temps et les ressources calcul le lui permettent (aux echecs.

Par exemple. comment rendre cette idee possible. liee aux capacites computationnelles de l'apprenant? Autant de questions qui ressortent tant d'une analyse theorique sur les conditions de possibilite de l'apprentissage que d'une etude experimentale. ou des parties mediocres feraient-elles aussi bien l'a aire.). Dans le cas de l'apprentissage des regles du jeu. il est clair que les joueurs humains prennent des decisions motivees par des considerations de strategie et de tactique : ils operent rarement par une exploration exhaustive avec mise en uvre d'une fonction d'evaluation (( simple )). D'autre part. Ce document est la propriété exclusive de nona nina (ninasbalka@gmail. etc. des exemples de coups illegaux seraient-ils favorables. 1. Evidemment. car c'est elle qui determine la qualite des decisions. qui jugera de leur validite? . a l'apprentissage? Il se pose aussi la question du sequencement des lecons : y a t-il un ordre de presentation plus favorable qu'un autre? Doit-on tenir compte d'une vitesse d'assimilation. la machine pourrait simplement apprendre par c ur une table d'association entre une position et le coup a jouer. ceux qui comportent un tres grand espace de situations possibles. Une simulation plus dele de l'apprentissage naturel pourrait chercher a identi er tactiques et strategies. comme dans la litterature echiqueenne. Mais nous verrons cependant au chapitre 16. l'apprentissage consiste naturellement a apprendre cette fonction d'evaluation. il peut s'agir d'observations de parties. voire indispensables. Dans ce cadre. voire indispensables. a l'apprentissage? On peut aussi penser pro ter de corpus de parties commentees par un professeur. Un probleme qui n'a pas encore ete aborde est celui du choix des donnees d'apprentissage : quelles sont les informations dont le systeme apprenant va bene cier pour apprendre? Dans le cas du jeu d'echecs. l'avantage materiel.1 { Une position dans une partie d'echecs. et nalement joue le coup lui permettant de maximiser le gain que l'adversaire est oblige de lui conceder. dedie a l'apprentissage par renforcement. Comment mesurer la performance de l'apprenant apres l'apprentissage ? En comptant la proportion de parties gagnees contre un echantillon representatif de joueurs? En incluant le temps de re exion? En demandant des explications des decisions prises? Et dans ce cas. Doit-on lui proposer des parties jouees par des champions. Finalement on n'evitera pas le probleme de la validation de l'apprentissage realise. une look-up table geante.27 Octobre 2009 à 09:30 Fig. dans le cas des jeux interessants.com) .6 Premiere Partie : Les Fondements de l'Apprentissage chaque position atteinte en fonction de certains criteres (par exemple : l'occupation du centre. Mais d'autres possibilites sont envisageables. et a les apprendre directement. comme chez les apprenants humains. cela semble absurde. ou peut^tre des parties jouees par l'apprenant contre lui-m^me? Des exemples de coups faibles sont-ils e e favorables.

a Pourquoi ne pas d'emblee coder les formes de maniere plus pertinente. Notons qu'apres ce codage le nombre de formes possible n'est plus stricto sensu in ni. le nombre de formes di erentes est cependant de 216 32 ' 1030 .2 { Une t^che de reconnaissance de caracteres manuscrits. ou bien la hauteur ou la largeur ou le nombre de points de retour. 1. Par contraste avec l'apprentissage non supervise dans lequel les etiquettes ne sont pas fournies. . Si chaque pixel est noir ou blanc. a partir d'un echantillon d'exemples ( bien choisis ) (comment?) ^tre capable de generaliser. Ici se pose la premiere question : comment coder les formes? Par une matrice binaire transcrivant l'eclairement des pixels de la retine de la camera? Dans cette hypothese. supposons que nous voulions entra^ner une machine a reconna^tre des caracteres manuscrits tels qu'ils appara^ssent sur une enveloppe timbree.Chapitre 1 De l'apprentissage naturel a l'apprentissage arti ciel M^me dans le contexte familier et apparemment simple de l'apprentissage d'un jeu. De maniere informelle. Mais. un pretraitement est indispene sable. il faut resoudre un probleme d'homogeneite.2 Apprendre a reconna^tre des caracteres manuscrits Maintenant. chaque caractere serait de ni par une matrice.27 Octobre 2009 à 09:30 Le codage La di culte de base est que la variete des formes rencontrees est in nie. Système de décision Sortie Fig. nous de nissons ( ) e un exemple comme l'association d'une forme et d'une etiquette.. Il faut par consequent. on voit e donc que l'ensemble des questions ouvertes est vaste.2 donne un exemple de caracteres tels qu'ils peuvent se presenter dans la realite. Il ne peut donc ^tre e question d'apprentissage par c ur. C'est ainsi que la forme de la gure 1. La gure 1.com) . Les caracteres seront-ils centres sur la retine? Seront-ils tous a la m^me echelle? Auront-ils une orientation imposee? On e voit que m^me dans le cas d'un codage tres primitif des formes. Comment une machine peut-elle apprendre a identi er ces formes? Ce document est la propriété exclusive de nona nina (ninasbalka@gmail.2 est associee a l'etiquette `a' (lettre de la categorie `a'). disons de taille 16 32 3 . Avant de s'interesser a l'exploitation de telles representations. Il est probable que l'apprentissage subsequent s'en trouverait facilite. en extrayant des caracteristiques essentielles ou invariantes? Par exemple la presence de boucles. c'est-a-dire en general assez bien traces et separes les uns des autres. qui a appris ce codage? Et comment? 2.2. 3. Nous avons ici a aire a ce qu'on appelle de l'apprentissage supervise 2 . 7 1..

Ce document est la propriété exclusive de nona nina (ninasbalka@gmail. On peut aussi adopter un point de vue probabiliste et apprendre des probabilites conditionnelles d'appartenance des points aux classes.. Autrement. qui n'est pas pertinente dans ce contexte (mais qui pourrait eventuellement l'^tre dans le cas de caracteres d'imprimerie). Ceci peut se faire de plusieurs manieres. Si l'on fait varier la taille de cet echantillon. ou reciproquement des probabilites conditionnelles des classes connaissant la description des points. ce ne serait pas la capacite de generalisation qui serait testee. S'agit-il simplement du nombre d'erreurs de classi cation apres apprentissage. Une nouvelle forme inconnue sera alors etiquetee en fonction de sa place par rapport aux frontieres trouvees.27 Octobre 2009 à 09:30 La mesure de performance Retournons maintenant au probleme de la de nition du critere de performance. . pour distinguer un `a' d'un `b'. On pourrait egalement envisager d'utiliser un critere de decision par les plus proches voisins dont on conna^t l'etiquette. de recoder pour tenir compte des invariances par translation ou par changement d'echelle. une redescription adaptee a l'apprentissage implique des operations non triviales et surtout des connaissances a priori sur le mecanisme de cet apprentissage. non presents dans la description brute des donnees. Il faudra alors disposer d'un nombre su sant de points etiquetes et d'une relation de voisinage de nie proprement. etc. on e mesure la performance apres que l'apprentissage a eu lieu sur un certain nombre de donnees que l'on appelle echantillon d'apprentissage.8 Premiere Partie : Les Fondements de l'Apprentissage Alors que la description des formes comme des projections sur la retine de la camera est immediate. mais une capacite a l'apprentissage par c ur. En general. par exemple la couleur de l'encre ou celle du fond de l'image. Pour donner un exemple. prenant en compte le fait qu'il vaut mieux se tromper sur une lettre que sur un chi re (le code postal est plus di cile a reconstruire que le nom de la commune) ? Ici encore. Et il existe encore bien d'autres possibilites. Certains des points de cet espace correspondent a la lettre `a'. que l'on peut ramener a une probabilite de mauvaise classi cation ? S'agit-il d'une mesure de risque plus elaboree.. Dans tous les cas. Il s'agit d'eliminer les descripteurs non pertinents. il faut s'assurer que la mesure de performance s'e ectue sur un echantillon de test di erent de l'echantillon d'apprentissage. e La modelisation Finalement. l'evaluation de l'apprentissage devra ^tre conduite avec soin. c'est-a-dire de ce qui est appris en interne par le systeme apprenant. n'impliquent pas nessairement des attributs complexes. on obtient une courbe d'apprentissage comme celle donnee sur la gure 1. voire d'introduire de nouveaux descripteurs. on peut imaginer une approche geometrique : apprendre des frontieres entre les regions correspondant aux di erentes classes. Pour donner deja quelques exemples. Mais le plus souvent. Ainsi. Le but de cet ouvrage est de les presenter et d'o rir un cadre conceptuel pour orienter les choix a faire. Le probleme est alors d'apprendre a associer a chaque point la lettre correspondante.3. les possibilites sont nombreuses et c'est l'application qui commande le choix a faire. il su t en general de considerer le rapport de leur hauteur a leur largeur. il faudra ^tre capable d'inventer des descripteurs sophistiques. Certains de ces nouveaux descripteurs. on peut se gurer les caracteres comme etant decrits dans un espace de descripteurs a plusieurs dimensions. d'autres a la lettre `b'. Cependant. il faudra decider de la forme d'apprentissage a realiser.com) . Une e autre technique consiste a introduire une grande collection de descripteurs dont l'apprentissage essaiera de tirer le meilleur parti.

1. qu'elle qu'en soit la mesure. a une t^che.3 Deux approches : la cybernetique et les sciences cognitives Pour commencer a re echir a l'apprentissage. l'apprentissage evoque aussi souvent la notion de transfert a d'autres situations. de transformation. Il faut donc y ajouter la notion de progres. Elle est generalement meilleure en reconnaissance qu'en generalisation. il faut d'abord evoquer d'autres notions. En abscisse gure l'exploitation de l'echantillon d'apprentissage. soit l'erreur faite par le systeme en prediction sur des exemples vus en apprentissage (erreur de reconnaissance). Le vin aussi evolue. Il faut qu'il y ait une sorte de retroaction de l'environnement sur le systeme pour que l'on a puisse quali er d'apprentissage le processus de transformation qui en decoule eventuellement.com) . a savoir qu'il y ait capacite a savoir tirer pro t d'une experience particuliere pour faire face a une nouvelle situation su samment (( proche )) pour que le transfert de l'une a l'autre puisse ^tre pertinent. transfert et generalisation : chacune de ces notions ren- . celles d'evolution. 1. D'abord. C'est que l'apprentissage implique aussi une notion d'adaptation a un environnement. Finalement. adaptation. voire de generalisation. Normalement. On attend plus d'un authentique apprentissage. On suppose ici que l'apprentissage est su- pervise : la machine peut exploiter les informations contenues dans un echantillon d'apprentissage en vue de faire des predictions sur des observations nouvelles. Si le vin reagit a son environnement. par exemple mesuree en nombre d'examens de la base d'apprentissage. progres. la performance s'ameliore au fur et a mesure que l'algorithme exploite davantage l'information. Quelqu'un qui apprend par c ur n'est qu'un perroquet ou un (( savant idiot )).27 Octobre 2009 à 09:30 Taille de l'échantillon d'apprentissage Fig. totalement passive. Ce phenomene qui peut sembler paradoxal trouvera son explication dans la suite de l'ouvrage. soit sur des exemples non vus (erreur en generalisation). de modi cation. c'est de maniere minimale. e Transformation. On observe aussi frequemment une baisse des performances en generalisation lorsque l'apprenant exploite (( trop )) les donnees. En ordonnee est portee une mesure de l'erreur. on ne dira pourtant pas qu'il apprend. L'apprentissage vise a rendre plus performant. Mais cette notion d'evolution n'est pas su sante. Mais le vin qui se boni e apprend-il? Non. comme tout objet ou matiere.3 { Une courbe de performance classique. Il n'y a pas d'apprentissage sans evolution. meilleur.Chapitre 1 De l'apprentissage naturel a l'apprentissage arti ciel Mesure de performance Courbe en reconnaissance (sur l'échantillon d'apprentissage) 9 Courbe en généralisation (sur un échantillon de test) Ce document est la propriété exclusive de nona nina (ninasbalka@gmail.

syntaxe et information telles qu'elles gurent dans la de nition de la machine de Turing (1912-1954). certains scienti ques se donnent pour ambition d'edi er une science generale du fonctionnement de l'esprit. Ce document est la propriété exclusive de nona nina (ninasbalka@gmail. les neurotransmetteurs le psychologue raisonnera en termes de croyances. les plus immediates. d'intentionalite. Pour etudier l'esprit.10 Premiere Partie : Les Fondements de l'Apprentissage voie a son tour a des questions que toute etude de l'apprentissage devra aborder. des assertions Prolog d'un systeme expert. sans vouloir. de connaissances l'informaticien envisagera des reseaux de neurones arti ciels. agissant a l'interieur de la machine. Une partie des papiers fondateurs de ce mouvement sont reproduits dans PT95]. leurs connexions.27 Octobre 2009 à 09:30 1. Comment peut s'e ectuer le processus de transformation? En reponse a quel type de sollicitation? Qu'est-ce qui informe le systeme apprenant qu'il doit se transformer? Qu'est-ce qui lui permet de mesurer son progres ou son degre d'adaptation? Comment un observateur exterieur peut-il mesurer le progres et attribuer a un systeme une capacite d'apprentissage et une amelioration de performance? Comment caracteriser le transfert entre deux situations? Comment mesurer leurs di erences et ce que l'experience de l'une apporte a l'experience de l'autre? Nous n'epuisons pas ici l'ensemble des questions qui peuvent se poser a propos de l'apprentissage. ils identi ent ce programme par le terme de cybernetique . tandis que Dup94] retrace l'historique et les clivages conceptuels de la cybernetique et des sciences cognitives orthodoxes. par exemple neurobiologiques. Un agent cognitif devient ainsi un module operant sur des entrees pour les transformer en sorties. On cherche donc a preciser les entrees dont dispose un systeme. d'anticipation. La notion de sujet disparait pour faire place aux concepts de programme. Dans cette section. et de la theorie de l'information de Shannon (19162001). et qui ont faconne le point de vue de l'apprentissage arti ciel durant ces dernieres decennies. Nous l'avons fait dans des termes volontairement generaux et relativement vagues pour ne pas d'emblee embrasser un point de vue. ni pouvoir naturellement ^tre exhaustif. c'est qu'il est vain de vouloir apprehender directement les notions d'intelligence. de conscience. de la societe ou de l'envio ronnement). Nous voulons seulement signaler les plus evidentes. en essayant d'evaluer la quantite d'informations disponibles et corollairement l'e et d'une quantite plus ou moins grande .com) .3. etc. il faut le naturaliser ou le materialiser et pour cela. de memoire. leurs discussions et debats donnerent lieu a dix conferences tenues a New-York sous le nom de conferences Macy du nom de la fondation philanthropique les nancant. Qu'est-ce qui est transforme lors de l'apprentissage ? En particulier. nous voulons brosser a grands traits deux modes d'approche qui e ont constitue deux moments de l'etude de la cognition au XXe siecle. d'autre part sur les mecanismes materiels. comment represente-t-on ce qui determine le comportement du systeme et qui subira eventuellement une modi cation? Le neurobiologiste evoquera immediatement le support biologique : les neurones. Leurs travaux. des systemes asservis et autoregules de Wiener. poser que celui-ci est une machine. L'un des postulats des cyberneticiens de la premiere heure.1 La cybernetique Dans les annees quarante et cinquante. d'une part assimiler l'esprit a l'activite du cerveau et d'autre part. et en n sur les regles logiques qui sous-tendent le comportement mesure. dans une machine apprenante. un type de questionnement. Sous l'in uence du mathematicien Norbert Wiener (1894-1964). Il en decoule une triple focalisation. d'une part sur l'agent cognitif considere individuellement (plut^t que par exemple sur le fonctionnement global de la culture.

c'est entierement sur le logiciel. Plus tard. Pour le dire autrement. et. Les cyberneticiens se concentrent egalement sur les modules fonctionnels qui permettent de realiser une fonction superieure donnee. Mais le cognitivisme va plus loin. ^tre aborde par ses manifestations sans avoir a presupposer de quele conques facultes mentalistes. les programmes. les calculs operes par la machine deviennent une simulation qui preserve la structure de la realite. On cherche egalement ce qu'une modi cation de structure peut entra^ner comme changement de performance.com) . mais avec une forte construction theorique. dans lequel il pourra lui attribuer des connaissances et des regles de raisonnement. Le cognitivisme pose de la sorte des contraintes beaucoup plus fortes sur le systeme de symboles manipules que la cybernetique. Le cyberneticien se preoccupe de de nir une structure d'unites en interaction et d'etudier. l'apprentissage devient completement lie a la capacite du systeme a s'autoadapter ou a continuer a (( exister )) dans une nouvelle situation. par simulation. Cette derniere idee permet en outre d'envisager la separation de l'aspect materiel (le hardware) de la machine de son aspect logiciel.27 Octobre 2009 à 09:30 1. qui est en partie heritier de la cybernetique. a savoir celui selon lequel la realite est organisee comme un langage. o re curieusement une image presque inversee. comme pour la cybernetique. il le fera en l'abordant a un autre niveau. De m^me. penser c'est calculer comme un ordinateur. ses capacites d'adaptation spontanee a toutes sortes de milieux.Chapitre 1 De l'apprentissage naturel a l'apprentissage arti ciel d'informations sur la performance de l'agent.3. En revanche. Ce qui est interessant. o 11 Ce document est la propriété exclusive de nona nina (ninasbalka@gmail. A toute operation (( mentale )) correspond ainsi une transformation possible du monde. la mise en valeur trop exclusive de simulations experimentales et de reproductions de comportements. il ne s'agit pas en revanche de manipuler des symboles denues de sens. et penurie de cadres theoriques. lors de la (( deuxieme cybernetique )).2 Le pari du cognitivisme Le cognitivisme reprend a son compte l'approche fonctionnaliste de l'esprit selon laquelle celui-ci peut. les symboles envisages par le cognitivisme ont a la fois une realite materielle et une valeur semantique. par exemple ethologiques. Ils representent certains aspects du monde. d'une part. et si un cognitiviste etudie un tel reseau. le cognitivisme s'est naturellement trouve in uence par le mouvement de pensee le plus caracteristique et le plus in uent du XXe siecle. de ce fait. que se trouve reportee la charge de toutes les eventuelles proprietes cognitives du systeme. comment il retrouve un nouvel equilibre. telle que la capacite a s'orienter dans l'espace ou a prendre une decision. Pour ce faire. e c'est-a-dire realisable par une machine de Turing. A l'instar d'autres disci- . les questions concernant l'apprentissage deviennent relatives a l'e et d'une quantite croissante d'informations sur la performance du systeme : comment celui-ci s'adapte a de nouvelles stimulations ou a un nouvel environnement. on etendra cette qu^te a l'etude des totalites engendrees e par une collection de relations et aux systemes auto-organises. De cette maniere. Avec la deuxieme cybernetique. Il y a plethore d'experiences singulieres. Le cognitivisme. avec une myopie sur l'aspect dynamique de l'apprentissage et son r^le adaptatif. c'est que la dimension dynamique de l'apprentissage et sa fonction d'adaptation a un milieu sont prises en compte. et. d'autre part. Si pour lui. nous allons le voir. ^tre considere comme une fonction calculable. Il s'agit alors d'enoncer comment est constituee une representation et ce qui peut rendre sa manipulation semantiquement correcte. a jusqu'a present nuit a une construction theorique de l'apprentissage. Dans ce cadre. mais de manipulation reglee de symboles ayant le statut de representation d'etat du monde. les nombres manipules dans les reseaux connexionnistes n'ont pas le statut de symboles pour le cognitivisme. Pour donner un exemple. parfois spectaculaires. on cherche de quels e comportements generiques est capable une structure donnee de modules fonctionnels.

suivant un ensemble de regles strictes. etc. Et l'etude de l'apprentissage selon ce point de vue amene alors naturellement a considerer un certain nombre de questions. apres qu'un certain nombre d'elements d'informations a ete recueilli. . la psychanalyse cherchant le code de l'inconscient. Cet ensemble de (( mondes possibles )) sera assimile a un espace d'hypotheses potentielles pouvant expliquer les manifestations observees du monde. il est important de souligner les consequences de ce point de vue pour l'etude de l'apprentissage. A partir du moment ou la cognition est consideree comme la manipulation. Nous invitons ici le lecteur a faire une pause et a s'interroger sur le programme de recherche qu'il envisagerait a ce point. l'ethnologie de Levi-Strauss inscrite dans le mouvement structuraliste. de propositions sur le monde. et manipulees suivant des regles d'inference strictes d'un langage formel.com) . les sciences cognitives ont ete chercher du e c^te de la philosophie analytique { essentiellement une philosophie du langage { une solution a o leur probleme. dotees d'une syntaxe. l'abduction. ou plusieurs. Si la physique s'enivre d'une telle puissance. en choisir une plut^t qu'une autre? o Comment peut-on rendre e cace l'exploration de l'espace des hypotheses en cours d'apprentissage? Quelles sont les regles d'inference appropriees pour rendre compte de l'apprentissage? En particulier. s'accordant aux donnees recueillies jusque-la. maintenant entierement concue comme elucidation du code genetique. l'abduction. l'existence de particules). parmi lesquelles gurent au premier plan la deduction. par exemple. Voici. l'apprentissage devient la recherche d'une. en particulier la projection operee ainsi de la cognition sur le plan des representations et des regles de la logique formelle.12 Premiere Partie : Les Fondements de l'Apprentissage Ce document est la propriété exclusive de nona nina (ninasbalka@gmail. sans trop de risque. touchant entre autres au probleme de la reference et de l'intentionalite (voir par exemple l'excellent livre de Joelle Proust Pro97]). Par ailleurs. et avec quel succes. ces questions sont encore vagues. et m^me la physique 4. a trop se mettre au niveau de la proposition 4. comme dans le cadre des theories de l'apprenabilite. l'analogie. Il s'agit la en e et de tester a quel point un parti pris philosophique sur un sujet determine ensuite de maniere tres profonde la nature du questionnement qui va faconner toute la discipline.27 Octobre 2009 à 09:30 plines comme la biologie. il devient naturel d'envisager l'ensemble de toutes les propositions possibles sur le monde et de toutes les theories correspondantes. On ne s'attardera pas ici sur les di cultes de nature philosophique rencontrees par cette approche. un ensemble de questions fondamentales qui faconnent le point de vue cognitiviste : Comment evolue l'espace d'hypotheses en fonction des donnees disponibles sur le monde? Peut-on montrer qu'il se reduit? Si oui. Dont une grande partie de l'activite est tournee vers l'exploration des consequences de manipulations du langage mathematique (par exemple la theorie des groupes qui permet de predire. peut-il y avoir espoir qu'elles aient une parente ou un proximite pour pouvoir. Selon cette perspective. il reste plusieurs hypotheses. Nous verrons comment elles peuvent ^tre e precisees dans les modeles et les algorithmes de l'apprentissage. En revanche. la pensee procede a partir de propositions portant sur le monde. a quelle vitesse? Peut-il y avoir espoir de converger vers une hypothese unique? Et si. par quels operateurs peut-on modeliser les regles d'inference telles que l'induction.. c'est-a-dire des regles d'inference liees a la logique. elle ne peut que s'interroger sur (( le pouvoir predictif deraisonable des mathematiques )) Wig60]. Selon cette approche. la generalisation. qui correspondent a des formes de raisonnement permettant d'elaborer une representation plus operatoire que la simple memorisation des entrees? A ce stade. Il ne faudra pour autant pas oublier le formidable reductionnisme dont elles sont issues. hypothese(s).

Dans ce cas. mais il fournit un bon point de u depart. le fonctionnement des theories et de la connaissance en general nissent par ^tre occultes. et d'autre part une reponse. dans lequel un (( oracle )) fournit la bonne reponse.5. ou bien une matrice de niveaux de gris). ou encore volatile = cygne) qui est supposee ^tre fournie par un oracle. Nous ne nous interrogerons pas ici sur ce qui permet de de nir et de segmenter ces (( donnees )). de regles d'inference. a l'occasion. La suite de ce chapitre vise a fournir les concepts et notations de base necessaires a la comprehension du reste de l'ouvrage.1 Un scenario de base pour l'induction Dans ce scenario. C'est sans doute le prix a payer pour faire les premiers e pas. nous allons nous referer dans ce chapitre introductif a un scenario certes limite. ui ) 5 . (par exemple situation de mat en trois coups ou bien lettre `a'. il a a sa disposition quelques exemples de volatiles.Chapitre 1 De l'apprentissage naturel a l'apprentissage arti ciel et de la regle d'inference. Il faudra bien s^r l'amenager. on ose se servir de toute une a panoplie d'outils mathematiques permettant de caracteriser l'apprentissage comme un processus de convergence vers une fonction cible. on parle d'induction supervisee. les premiers programmes. nous supposons qu'un systeme apprenant recoit des donnees de l'univers dans lequel il est place. sur lesquels il e ectue des mesures (la couleur. en rel^chant les contraintes sur les symboles manipules. Il ne faut cependant pas en devenir dupe et negliger l'objectif qui est la comprehension de l'apprentissage. mais servant de cadre ideal a la majorite des recherches actuelles sur l'apprentissage arti ciel : celui de l'induction supervisee.27 Octobre 2009 à 09:30 1. sortie e desiree) que nous noterons (xi . en particulier dans sa dimension liee a la construction de connaissances. de langage de representation. Les lecteurs interesses par un debat entre plusieurs perspectives sur l'apprentissage (incluant la didactique.com) . Mais il a fallu aussi l'apport du premier courant pour que. la scene globale. Du second. Dans le cas de l'apprentissage supervise. Pour ce faire. de recherche dans un espace de possibilites. Nous pensons que le reste de l'ouvrage montrera que l'apprentissage arti ciel tel qu'il est aborde actuellement est place a la resultante des in uences de la cybernetique et du cognitivisme. . 1. Il reste sans doute maintenant a depasser ces deux perspectives. Qu'est-ce que l'induction? C'est le processus par lequel on tire des lois de portee generale en partant de l'observation de cas particuliers. Cela a rendu possible les premieres simulations. la taille. il a pris les concepts d'espace d'hypotheses. Voir la gure 1. telle que l'envisage par exemple la didactique.4. la psychologie et l'informatique) peuvent se reporter par exemple a TNC+ re]. De plus. Une donnee z i est ainsi de nie par un couple (observation. il dispose d'un expert qui lui dit a quelle espece appartient chacun d'eux. mais pour cela il est utile de les conna^tre et d'en peser l'in uence. 5. par exemple). nous reservant o la lettre y i pour indiquer la sortie produite par le systeme apprenant en reponse a l'entree xi . Nous de nissons ceci plus formellement ci-dessous. 13 Ce document est la propriété exclusive de nona nina (ninasbalka@gmail.4 Les concepts de base de l'apprentissage A n de presenter les principaux concepts permettant d'etudier l'apprentissage. Nous utilisons la lettre u en accord avec les notations de l'automatique et de la theorie du contr^le. C'est ainsi que l'avimateur novice evoque dans la preface cherche une loi generale lui permettant de distinguer les oies des cygnes. que l'on appelle aussi frequemment sortie desiree. voire le bousculer. chacune de ces donnees prend la forme d'un couple dans lequel on distingue d'une part la description d'une situation ou encore observation (par exemple une situation de jeu.

Plus generalement. la mesure de performance peut inclure des facteurs independants de l'adequation aux donnees d'apprentissage et de natures tres diverses. les t^ches dites de prediction s'interessent a prevoir correctement une a . Il faut ainsi distinguer l'apprentissage hors ligne (batch learning). Par exemple. il faudra se contenter d'une approximation de la reponse de l'oracle.14 Premiere Partie : Les Fondements de l'Apprentissage 1. A chaque fois la reponse correcte est disponible le lendemain seulement.4. la performance sera fonction a la fois du nombre de documents pertinents trouves par le systeme rapporte au nombre reel de documents pertinents et du nombre de documents pertinents non trouves.2.2.4. apres un certain temps d'apprentissage. Par exemple.com) . et que seulement alors l'oracle produit la reponse correcte ui . un scenario peut speci er qu'a chaque instant l'apprenant recoit une observation xi . On parle alors naturellement de t^che de prediction. a Plus fondamentalement. ou en fonction de son taux d'erreur apres apprentissage. Ce document est la propriété exclusive de nona nina (ninasbalka@gmail. de l'apprentissage sequentiel. partie gauche). son intelligibilite par un expert. Le critere de succes est ce qui est mesure dans l'evaluation de la performance. Il faut ici faire une remarque importante. Par exemple. Nous formaliserons plus loin cette notion d'approximation gr^ce a une a fonction de risque. Dans le cas ideal. la facilite de son integration dans une theorie courante. la t^che de l'apprenant est d'essayer d'approxia mer au mieux la sortie desiree ui pour chaque entree observee xi . la sortie desiree ui . sa comprehensibilite. un algorithme d'apprentissage de reseau connexionniste cherche generalement a minimiser un ecart quadratique entre ce qu'il predit sur chaque exemple d'apprentissage et la sortie desiree.1 Le critere de succes 1. Il s'agit donc d'un critere relatif a un observateur externe.27 Octobre 2009 à 09:30 1.2 Quelques notions cles Dans le scenario de l'apprentissage supervise. qu'il doit alors fournir une reponse yi . Le protocole stipule egalement le type d'entrees fournies a l'apprenant et le type de sorties attendues. elle lui permet de mesurer la qualite de l'approximation de son modele courant avec les donnees d'apprentissage. (Voir gure 1. la performance sera mesuree en fonction du nombre d'erreurs commises par l'apprenant en cours d'apprentissage. Par exemple. dans lequel toutes les donnees d'apprentissage sont fournies d'un seul coup a l'apprenant. Une illustration d'un tel protocole est fournie par le cas d'un systeme essayant de predire le cours du lendemain d'un titre en bourse a partir d'informations sur le contexte economique courant. etc. Le critere de succes. celle qui consiste a chercher des documents relatifs a une requ^te partie culiere. l'apprenant devient capable.4. qui dependra a la fois du domaine etudie et de l'objectif de l'apprentissage. de predire exactement. mesure par un observateur externe. En general cependant. Cette mesure est interne au systeme. le faible co^t computau tionnel necessaire a son obtention. mais elle n'est pas generalement celle qui interesse l'observateur externe qui examine par exemple le taux d'erreur ou prend eventuellement en compte d'autres criteres comme ceux evoques plus haut. n'est pas necessairement identique a la fonction de co^t ou de perte qui est interne u a l'apprenant et le guide pour faire converger les parametres de son modele d'apprentissage. pour chaque entree xi . incluant l'oracle. la simplicite du resultat d'apprentissage produit par l'apprenant.2 Notion de protocole d'apprentissage L'apprentissage et son evaluation dependent du protocole qui regle les interactions entre l'apprenant et son environnement. incremental ou apprentissage en ligne (on-line learning) dans lequel les donnees arrivent en sequences et ou l'apprenant doit deliberer et fournir une reponse apres chaque entree ou groupe d'entrees. encore appelee critere de succes. Dans une t^che qui prend une importance grandissante a avec le reseau Internet.4.

qui consiste a deviner une con guration de pions de couleurs caches en posant des questions suivant certaines regles. on parle alors d'apprentissage par requ^te d'appartenance (membership e queries).27 Octobre 2009 à 09:30 1. et on parle alors d'apprentissage actif. pourquoi pas. 6. Dans les protocoles decrits jusqu'ici. l'apprenant peut poser des questions sur la classe d'appartenance d'une observation. par reorganisation. partie droite). Mais cela ne prejuge pas de sa capacite a utiliser ses connaissances. e . dans une representation logique. Par rapport a la connaissance Le but de l'apprentissage peut ^tre de modi er le contenu de la connaissance 6 . En parlant de maniere informelle. 15 Ce document est la propriété exclusive de nona nina (ninasbalka@gmail. Le but de l'apprentissage peut aussi ^tre. optimisation ou compilation par exemple. en e et. Un systeme d'analyse boursiere pourrait ainsi chercher a identi er la fonction suivie par le cours du soja. l'apprenant peut ^tre plus ou moins actif.2. est un exemple simple d'apprentissage actif dans lequel l'apprenant possede l'initiative des questions. Les methodes de boosting. l'apprenant sait desormais plus ou moins de choses. on demande beaucoup plus a l'apprenant puisqu'on attend de lui une hypothese explicite. une t^che d'identi cation consisterait a trouver des lois permettant de faire a un diagnostic pour n'importe quel malade et non pour un patient particulier. tout ce e o qui peut ^tre deduit correctement a partir de la base de connaissances courante. un fournisseur d'electricite e pourrait vouloir conna^tre l'ensemble de la courbe de la consommation sur une annee.com) . par exemple lorsque l'apprenant. sans necessairement modi er le (( contenu )) de e la connaissance. Les t^ches de prediction sont a contraster avec les t^ches d'identi cation dans lesquelles le but a a est de trouver une explication globale parmi toutes celles possibles. Il est possible d'envisager des scenarios dans lesquels l'apprenant a une certaine initiative dans la recherche d'informations. e l'apprenant recoit passivement les donnees sans avoir d'in uence sur leur selection.4. Dans certains cas. donc une sorte d'explication de ses predictions (voir gure 1. de revision. quelle est la pathologie de ce patient particulier.Chapitre 1 De l'apprentissage naturel a l'apprentissage arti ciel reponse en un point precis : quel sera le cours du soja demain a midi. Ce pourrait ^tre le cas d'un joueur d'echecs ou d'un e calculateur mental qui apprend a aller de plus en plus vite sans pour autant conna^tre de nouvelles regles de jeu ou de calcul. sans avoir la totale ma^trise du choix de l'echantillon d'apprentissage. c'est-a-dire. On concoit que le critere de succes ne soit pas le m^me dans le cas d'une t^che de prediction que dans celui d'une t^che d'identi cation. d'oubli. e Le jeu de MasterMind. de le rendre plus e cace par rapport a un certain but. et. Par exemple. Le scenario sera alors di erent.4. Qui peut-^tre mesure par exemple par sa cl^ture deductive. De m^me. decrites dans le chapitre 11. Par ailleurs. Dans d'autres cas.3 Notion de t^che d'apprentissage a Il est possible d'aborder l'objectif du processus d'apprentissage suivant plusieurs points de vue. qui une fois connue permettra de faire des predictions quelle que soit la question. etc. ou m^me organiser des experiences sur le monde. cette initiative est limitee. Dans le cas de la medecine. est simplement capable d'orienter sa distribution de probabilite. il pourra prevoir que le systeme apprenant doit fournir apres chaque nouvelle entree (xi ui ) une hypothese sur la (( fonction cachee )) de l'oracle par laquelle celui-ci determine ui en fonction de xi . On parle dans ce cas d'optimisation de performance (speed-up learning). en sont une illustration. la consommation electrique dans trois mois. On parle alors e d'acquisition de connaissances. e a a Dans ce dernier cas.

En un certain sens.u(x ) 2 2 "oui" ou "non" h2 x .).u(x ) 1 1 Espace des exemples x1 h 1 h1 (x 1) x . il est possible de caracteriser l'ape prentissage par une classe generale et abstraite de problemes et de processus de resolution qui leur sont lies. qui fournit les reponses desirees. Apprendre a ^tre plus e cace. Par rapport a des classes abstraites de problemes Independamment m^me d'un algorithme d'apprentissage.27 Octobre 2009 à 09:30 h3 x3 h (x ) 3 3 "oui" ou "non" Apprentissage ou identification Prédiction Fig. Il s'agit d'extraire l'information essentielle ou le message initial d'un emetteur ideal. C'est ainsi qu'un certain nombre de disciplines. etc. on suppose qu'apres chaque prediction. debarasse de toutes . Lorsque l'apprentissage se fait avec un professeur. Dans le protocole de prediction. Ici.16 Nature Premiere Partie : Les Fondements de l'Apprentissage Apprenant Nature Apprenant ? ? ? ? ? ? Espace des exemples x . l'apprenant recoit une con rmation ou une in rmation de sa prediction. l'objectif de l'apprenant est de trouver une hypothese h qui rende bien compte des donnees d'apprentissage. Les theories de compression d'information. on parle d'apprentissage supervise. ou oracle. la t^che d'apprentissage consiste a la fois a decouvrir des categories et a trouver des regles a de categorisation. Cela peut inclure : Apprendre a reconna^tre des formes (par exemple : des caracteres manuscrits. Apprendre a predire. Dans ce cas. des oiseaux. des predateurs. Par rapport a l'environnement La t^che de l'apprentissage peut aussi ^tre de nie par rapport a ce que l'agent apprenant a e doit realiser pour (( survivre )) dans son environnement.com) .u(x ) 3 3 x2 h (x ) 2 2 "oui" ou "non" Ce document est la propriété exclusive de nona nina (ninasbalka@gmail. Dans le protocole d'identi cation. une appendicite. Il y a alors une notion de dependance temporelle ou de causalite. se sont decouvertes un inter^t pour les problemes d'apprentise sage. Sinon. 1. une tendance haussiere a la bourse. on parle d'apprentissage non supervise. l'apprenant doit (( seulement )) chercher a trouver la bonne reponse a une question particuliere. en particulier issues des mathematiques ou de la theorie de l'information. ou de recherche de plans d'action dans le monde. l'apprentissage peut ^tre e aborde comme un probleme d'extraction et de compression d'information. C'est le cas notamment des situations de resolution de e probleme.4 { Di erence entre un protocole d'identi cation (a gauche) et un protocole de prediction (a droite).

D'autre part. c'est-adire peut l'avoir produit?). il est en revanche generalement impossible de trouver a partir d'un nombre ceux dont il est le produit (probleme inverse). Dans le cas d'un probleme inverse. c'esta-dire n'ayant pas de solution unique. D'une part. Finalement.27 Octobre 2009 à 09:30 . l'agent cognitif apprenant doit apprendre quelque chose qu'un autre agent cognitif equivalent conna^t. Les mathematiques appliquees. Par exemple. La t^che de l'apprenant est bien alors de trouver une approximation aussi bonne que possible a d'une fonction cachee connue uniquement par l'intermediaire d'un echantillon de donnees. L'analyse. Dans le cas d'un probleme direct. s'est penchee sur l'apprentissage en tant que probleme de generalisation. c'est-a-dire e sous quelles conditions un apprentissage est possible. procedent par elimination des details super us ou redondants et par la mise en evidence de regularites cachees. actuellement dominant.5. proche des preoccupations de la theorie de l'information.Chapitre 1 De l'apprentissage naturel a l'apprentissage arti ciel ses redondances. quelles sont les probabilites associees a tel evenement?). on se donne une (( structure )) et on en cherche les consequences. On cherche alors e quels sont les operateurs dans ce langage qui peuvent correspondre a des operations de generalisation ou de specialisation utiles pour l'induction. Dans une perspective analogue. l'etude de l'apprentissage peut ^tre vue comme celle des conditions permettant de resoudre un probleme mal pose. Nous aurons largement l'occasion de developper ce point de vue. 17 Ce document est la propriété exclusive de nona nina (ninasbalka@gmail. En un sens. e c'est-a-dire des contraintes qu'il faudra ajouter pour que la procedure de resolution puisse trouver une solution particuliere. les sciences d'observation. L'apprentissage peut egalement ^tre examine comme un probleme d'approximae tion. Dans les annees soixante-dix et au debut des annees quatre-vingt. { Etant donnes deux nombres. C'est evidemment typiquement le probleme auquel sont confrontes les ingenieurs. permettant de resumer les donnees tout en evitant de les surgeneraliser et d'en tirer des consequences illegitimes.com) . une large communaute de chercheurs. Le probleme de l'apprentissage devient alors souvent celui de l'etude des conditions d'approximation et de convergence. les connaissances et les donnees peuvent ^tre decrites par un langage. L'induction. Il est donc normalement capable d'atteindre parfaitement la connaissance cible. l'ingenieur peut ^tre tente de voir dans l'ape prentissage un cas particulier de resolution de probleme inverse. l'apprentissage peut ^tre considere comme une t^che de decodage ou m^me e a e de decryptage d'un message code par l'emetteur ideal et intercepte en tout ou partie par l'agent. tel avion est capable de supporter telle charge dans telles conditions. c'est parfois ainsi qu'est vu le scienti que etudiant la nature. telles l'astronomie ou l'ornithologie. Prenons deux exemples : { On peut dire que la theorie des probabilites est une theorie s'attachant a un probleme direct (etant donne un modele parametre. il est facile d'en trouver le produit (probleme direct). dans le chapitre 2. particulierement active en France. Apres tout. tandis que la theorie des statistiques s'attaque a un probleme inverse (etant donne un echantillon de donnees. sous l'inuence du point de vue cognitiviste. Les problemes inverses sont ainsi souvent des problemes que l'on dits mal poses. Cette approche part de deux presupposes essentiels. Selon cette perspective. et on construit des algorithmes les utilisant. Il est alors logique de se demander sous quelles conditions un message peut ^tre (( casse )). C'est particulierement clair lorsque l'on adopte le point de vue de la gure 1. on se donne des speci cations sur les capacites souhaitees et on cherche a concevoir un objet qui les veri e. La cryptographie. quel modele permet de l'expliquer.

de maniere plus formelle dans le chapitre 2 et dans son complement. et qui permettra de comprendre le fonctionnement des algorithmes d'apprentissage decrits dans les chapitres suivants.5. qu'il soit mesure par les senseurs d'un robot ou qu'il s'exprime sous la forme d'une base de donnees. On pourra supposer que ces vehicules sont independants les uns des autres (sauf dans le cas de corteges o ciels ou mortuaires). Nous supposons que l'environnement. le chapitre 17.1 et dans la gure 1. ainsi que l'approche a suivie pour la mener a bien. L'arbre de decisions correspondant est souvent a la fois concis et comprehensible. nous citerons parmi les principales structures de donnees etudiees : Les expressions booleennes. permettant de representer des sequences d'evenements. mais que leur distribution dependra de la ville.18 Premiere Partie : Les Fondements de l'Apprentissage Par rapport aux structures de donnees ou types d'hypotheses visees Il arrive frequemment que l'on impose le type de structure de donnees (ou de langage d'expression d'hypotheses) qui doit ^tre recherche par le systeme apprenant. . qui sont souvent appropries pour apprendre des concepts de nis sur un langage attribut-valeurs (par exemple des regles de systeme expert).).3 L'induction vue comme une estimation de fonction Apres avoir brievement passe en revue les facteurs et les points de vue en jeu dans l'apprentissage arti ciel. Dans le cadre de l'apprentissage supervise. Cela permet de guider e a la fois la determination de l'algorithme d'apprentissage a utiliser. New-York se revelant sans doute di erent de Londres ou Nouakchott 7 sous cet aspect. Revenons sur le scenario esquisse dans la section 1. Les fonctions lineaires ou non lineaires permettant de discriminer des formes appartenant a un sous-espace ou a son complementaire. nous supposons egalement qu'un oracle etiquette les formes xi gr^ce a une fonction inconnue de l'apprenant.4. Les grammaires et les processus markoviens. Sans chercher a ^tre exhaustif. Les programmes logiques auxquels il faut songer lorsque l'on cherche a apprendre des concepts relationnels. et que les formes xi mesurees correspondent aux vehicules observes. Nous allons considerer la t^che de l'apprenant. Ce document est la propriété exclusive de nona nina (ninasbalka@gmail. On peut ainsi imaginer qu'une webcam prenne des images a intervalles reguliers d'un carrefour a New-York. Il s'agit ici d'un premier expose qui sera precise. a 7. que nous appellerons fonction cible. nous y e reviendrons pmus longuement au chapitre 3. C'est encore une fois.d. le probleme de l'optimisation de performance.27 Octobre 2009 à 09:30 1. Capitale de la Republique islamique de Mauritanie. nous allons maintenant esquisser la maniere dont est envisage actuellement le processus d'apprentissage. mais aussi les donnees qui seront necessaires pour que l'apprentissage soit possible.com) . sous un autre angle. Les reseaux bayesiens permettant a la fois de representer des univers structures par des relations de causalite et de prendre en compte et d'exprimer des mesures de certitude ou de con ance. Parfois l'apprentissage peut consister a changer de structure de donnees pour en trouver une equivalente mais plus e cace du point de vue computationnel. Les arbres de decision qui permettent l'expression de classi cations par des hierarchies de questions.i.4. fournit un ensemble de formes xi de nies sur l'espace des entrees X et tirees aleatoirement suivant une distribution de probabilites notee DX (on parle de tirage independant et identiquement distribue ou tirage i.

Chapitre 1 De l'apprentissage naturel a l'apprentissage arti ciel x1. ym Fig.. ou au moins a en trouver une approximation h. la fonction f reste constante.. y1. x m 19 Environnement X : distribution de prob ... et a partir de cet echantillon. ainsi que le cas d'une distribution variable des exemples.u1). L'apprentissage de la reconnaissance des lettres de l'alphabet peut ainsi ^tre aborde comme e l'estimation d'une fonction de nie sur un espace d'entree (par exemple une matrice de pixels) vers un espace de sortie a 26 valeurs. des volatiles caracterises par un certain nombre d'attributs en types d'oiseaux. Il s'agit la e ectivement du point de vue dominant actuellement. Cette description de l'apprentissage.5 { Le scenario classique de l'apprentissage par induction. 1. L'apprenant recoit un echantillon d'exemples ou couples (xi ui ) = (xi f (xi )).. L'apprentissage de concept..u2).5). notee f . dans lequel il s'agit d'apprendre a reconna^tre une classe d'objets parmi tous les autres objets. Par exemple : a Un probleme de regression peut ^tre vu comme un probleme d'estimation dans lequel il e s'agit de trouver une fonction h telle que : 8x 2 X h(x) f (x) = u L'apprentissage d'une classi cation d'objets (par exemple apprendre a classer des images de pieces de mobilier en types de meubles. x m Ce document est la propriété exclusive de nona nina (ninasbalka@gmail. . (x 2. peut ^tre considere comme l'estimation d'une fonction e binaire (on dit aussi fonction indicatrice). DX "Oracle" S m = (x 1. conduit naturellement a voir l'apprentissage comme une t^che d'estimation de fonction a partir d'un echantillon de son a comportement.. x 2. On supposera egalement ici. L'environnement fournit des donnees xi tirees aleatoirement suivant une distribution DX sur l'espace d'entree X . . Nous etudierons plus tard le cas e d'une fonction cible bruitee ou presentant une derive au cours du temps. (xm. de m^me que la distribution DX des formes xi .) peut-^tre vu comme l'estimation d'une fonction a e valeur discrete. etc. plus precisement de l'induction.um ) Apprenant : h(x.. . prenant la valeur 1 quand la forme d'entree est de la classe cible et 0 autrement. y2 . On supposera que l'oracle choisit la fonction cible f dans une famille de fonctions notee F . Ces donnees sont etiquetees par un oracle qui utilise pour ce faire une fonction f 2 F ..com) . L'apprenant recoit donc un ensemble d'exemples S = fxi uig1 i m = fxi f (xi)g1 i m (voir gure 1. qu'une fois selectionnee par l'oracle.. Notons que le cadre de l'estimation de fonction cible est tres general puisqu'il couvre de nombreuses t^ches d'apprentissage classiques.. doit chercher a deviner f . ou a chaque entree correspond une valeur correspondant a une classe.27 Octobre 2009 à 09:30 .. α) x1. . x 2.

ou plus encore en Mauritanie). Par exemple. Pour selectionner une fonction hypothese h. Nous avons de ni la t^che d'apprentissage comme celui d'un probleme d'estimation de fonca tion a partir de l'observation d'un echantillon de donnees.20 Premiere Partie : Les Fondements de l'Apprentissage Un probleme d'optimisation multicriteres dans lequel on cherche a optimiser a la fois plusieurs criteres objectifs peut ^tre vu comme l'estimation d'une fonction multi-valuee. La fonction de risque (1. Par exemple aussi. On evaluera la qualite de l'estimation h relativement a une esperance de performance dans un environnement donne. le desormais fameux avimateur novice ne cherche que des separations lineaires dans l'espace des descriptions des oies et des cygnes.1) dans laquelle R(h) denote une fonction de risque. Pour de nir le probleme d'apprentissage. En supposant que le probleme soit d'apprendre a reconna^tre des taxis. Les notions . nous nous focalisons dans cette section sur l'apprentissage supervise de concept. C'est le cas par exemple d'un apprenant utilisant un reseau de neurones dont l'architecture contraint le type de fonctions realisables a un certain ensemble de fonctions. Ce serait un nonsens de fournir un echantillon de donnees non representatif de l'environnement qui sera rencontre ensuite par l'apprenant et de lui demander d'en tirer une information qui le rende performant dans ce nouvel environnement inconnu pour lui. (Apprendre a reconna^tre des taxis dans New-York peut se reveler d'une utilite limitee si l'on doit ensuite se debrouiller a Londres. c'esta-dire sur l'apprentissage de fonctions indicatrices ou encore a valeur dans f0 1g.27 Octobre 2009 à 09:30 R(h) = Z x2X DX l(h(x) f (x))dx (1. il faut maintenant se donner un critere de performance. l'apprenant doit se fonder sur l'information apportee par chaque exemple fxi ui g qu'il peut comparer a la prediction de la fonction d'hypothese h(xi ). la distribution des voitures de couleur jaune est di erente de celle trouvee a Londres. e Toujours pour simpli er. C'est pourquoi cette distribution appara^t dans l'expression du risque. Nous nous tournons maintenant vers les principes permettant de realiser cette estimation.5 L'induction comme un jeu entre espaces Dans le but de simpli er toute la discussion qui suit et de permettre une visualisation aisee des problemes. si l'apprenant se trouve a New-York.com) .1) mesure donc l'esperance de perte dans un environnement donne. On suppose naturellement que cette distribution des formes est aussi celle qui sera rencontree apres l'apprentissage. il faut prendre en compte la distribution des vehicules dans l'environnement d'apprentissage. tandis que l designe une fonction de perte de nie pour chaque exemple. 1. nous supposerons que l'apprenant cherche une approximation de la fonction cible a l'interieur d'une famille H de fonctions hypotheses h. speci e par la distribution DX des evenements mesurables par l'apprenant. Par exemple. C'est pourquoi on speci e generalement le critere de performance d'une fonction hypothese h sous la forme d'une expression exprimant ce que co^tera le choix de u la fonction hypothese h si la vraie fonction inconnue est f . la performance d'un systeme d'apprentissage de diagnostic sera mesuree par l'esperance de co^t de la decision h(x) u lorsque la vraie pathologie est f (x). L'integrale est prise sur l'ensemble des formes x 2 X possibles suivant la distribution donnee DX . C'est ce que denote l'equation suivante : Ce document est la propriété exclusive de nona nina (ninasbalka@gmail.

6 schematise la t^che d'apprentissage de concepts.Chapitre 1 De l'apprentissage naturel a l'apprentissage arti ciel abordees seront cependant d'une portee beaucoup plus generale et valables pour l'essentiel dans toutes les situations d'apprentissage. nous le noterons Sm ). qu'ils le soient positivement (exemples au sens propre) ou negativement (contre-exemples). 1. on appelle souvent exemples ou exemples positifs les points etiquetes par 1 ou par '+'. Pour des raisons evidentes. c'est-a-dire que les exemples sont correctement decrits et correctement etiquetes. l'apprenant cherche une partition de X permettant de discriminer les formes x appartenant au concept de celles n'y appartenant pas. Dans ce cadre restreint. Ces deux classes sont aussi notees f+ . nous eviterons) a l'apprenant dans la mesure ou la partie de X qu'il cherche doit couvrir tous les exemples positifs de l'echantillon (ce que l'on appelle la propriete de completude) et ne couvrir aucun des exemples negatifs (ce que l'on appelle la propriete de correction). Nous supposons maintenant. Nous noterons 21 S = f(x1 u1) (x2 u2 ) ::: (xm um)g Ce document est la propriété exclusive de nona nina (ninasbalka@gmail. d'une part que l'echantillon d'apprentissage n'est pas bruite.g. c'esta-dire un etiquetage de chaque forme x 2 X par 0 ((( x n'appartient pas au concept vise ))) ou 1 (x (( appartient au concept ))) 8 . l'echantillon d'apprentissage S = f(x1 u1 ) (x2 u2 ) ::: (xm um )g fournit une information coherente ou encore consistante (un anglicisme qui s'est introduit dans le jargon de l'apprentissage arti ciel mais que. et contre-exemples ou exemples negatifs les points etiquetes par 0 ou par '-'. pour notre part. La gure 1. ici gures par des points '+' et des points '-'. au sens ou la m^me forme n'est pas a la fois exemple et contree exemple. .+ + + + + + - - + - - - X Fig.com) . Dans ce cadre.6 { A partir d'un echantillon de points etiquetes. L'apprentissage supervise de concept consiste a chercher une fonction f : X ! f0 1g. a ? + + - + . on peut maintenent poser deux questions : Quelle information est fournie par chaque exemple? 8.27 Octobre 2009 à 09:30 un echantillon d'apprentissage de m points non necessairement tous distincts (lorsqu'il sera important de preciser la taille de l'echantillon d'apprentissage. Il arrivera cependant dans la suite de l'ouvrage que nous parlions d'exemples pour denoter les points etiquetes. Cette fonction est apprise a partir d'un echantillon de points etiquetes que l'on appelle echantillon d'apprentissage. d'autre part qu'il est n'est pas incoherent.

1g.1 L'apprentissage est impossible. il s'agit d'identi er les regions de X . choisir une hypothese. c'est-a-dire l'extrapolation du connu a l'inconnu est impossible. nous pourrions considerer toutes les partitions Dans le cadre de l'induction de concept. cela determinera notre decision pour la classe de x. Chaque exemple ne fournit aucune information sur une forme inconnue. ou au contraire n'y appartient pas. jXj. Supposons que cinq exemples parmi ces huit aient coherentes avec l'echantillon d'apprentissage. ce qui n'est pas un espace tres grand. Apres l'observation de la moitie de ces 1024 points.. il reste 21024. correspondant au concept vise (voir gure 1. donc d'une fonction indicatrice de nie sur l'espace Ce document est la propriété exclusive de nona nina (ninasbalka@gmail. Les deux questions soulignees dans la section precedente ont donc recu une reponse qui jette pour le moins une ombre sur la possibilite de l'induction. Le nombre de partitions de X compatibles avec ces m exemples est : 22n .22 Premiere Partie : Les Fondements de l'Apprentissage Comment. sur la base de l'echantillon d'apprentissage. Malheureusement. Comment proceder? Puisque nous manipulons des partitions de X . L'aventure de l'apprentissage arti ciel tournerait-elle court? .com) . Cela fait 23 = 8 formes possibles. Supposons que l'echantillon d'apprentissage comporte m exemples distincts. soit 1024 points di erents. il existe 2jXj partitions possibles de X . est ni. Que peut nous apprendre un echantillon d'exemples S sur cette partition? Supposons que l'apprenant soit pr^t a considerer toutes les partitions possibles de X . nous e pourrions encore decider que la classe de x est la classe majoritaire parmi les predictions de toutes les partitions coherentes avec l'echantillon d'apprentissage. Supposons m^me que toutes ces partitions ne soient pas d'accord sur la classe de x. soit 2512 . Cela signi e que si le cardinal de X . donc e que n'importe quel etiquetage des formes x 2 X soit possible a priori.m puisque m points sur les 2n sont xes.5. On voit que ces 512 exemples laissent un ensemble considerable de partitions possibles.27 Octobre 2009 à 09:30 Exemple 1 (Apprentissage de fonction boolenne (1)) Soit un ensemble X de points decrits par n attributs binaires. Chaque partition de X correspond a un etiquetage particulier des 2n points de X . Le cardinal de X est jXj = 210 . Toutes les partitions de l'espace X coherentes avec l'echantillon sont egalement probables et leurs predictions s'annulent en chaque point inconnu. puis decider alors de la classe de x en fonction de ces partitions. Il se trouve que si l'on prend toutes les partitions coherentes avec n'importe quel ensemble de points d'apprentissage S (c'esta-dire predisant correctement l'etiquette de chacun de ces points). alors il existe autant de partitions predisant l'etiquette 1 pour x que de partitions predisant l'etiquette 0. X des entrees. Si toutes les partitions coherentes avec l'echantillon S prescrivent que x appartient au concept. une partition de X ? 1. En e et. L'induction.. L'echantillon d'apprentissage a lui tout seul ne fournit donc pas une base su sante pour decider de la classe d'un point nouveau. c'est-a-dire dans le cas de l'estimation d'une fonction indicatrice. Il existe 21024 manieres di erentes de les etiqueter par 1 ou 0. Seul un apprentissage par c ur est realisable.512 partitions possibles. aucun de ces deux cas de gure ne se presente. donc les formes x. l'apprentissage revient a chercher une partition de l'espace X . et si l'on prend n'importe quel point x 62 S . Prenons le cas de n = 10 attributs binaires et de m = 512 exemples d'apprentissage.6). Supposons alors que nous cherchions a determiner la classe d'un point x 2 X inconnu connaissant la classe de tous les points d'apprentissage xi 2 X . Etudions un probleme plus simple dans lequel les exemples sont decrits par trois attributs binaires. Il existe donc 22n partitions di erentes de X ou encore 22n fonctions indicatrices de nies de X sur f0.

une hypothese h correspondant a une partition de X appropriee.Chapitre 1 De l'apprentissage naturel a l'apprentissage arti ciel x1 x2 x3 f (x) 0 0 0 0 1 1 1 1 0 0 1 1 0 0 1 1 0 1 0 1 0 1 0 1 + + + 23 ? ? ? - Ce document est la propriété exclusive de nona nina (ninasbalka@gmail. Il travaille sur des expressions du langage LH et non pas sur des ensembles de nis par l'enumeration de leurs elements. la recherche d'une partition de X s'e ectue par l'intermediaire de H.7 { Soit f une fonction binaire de nie sur un espace d'entree a trois attributs. Il s'agit de chercher dans H.2 .8 donne des exemples de la restriction de l'espace des hypotheses par un langage de description. C'est evidemment impossible. Celui-ci permet de de nir un espace d'expressions ou d'hypotheses H. gr^ce au langage LH . La gure 1. l'apprenant manipule des partitions de X en intension et a non plus en extension. 1. Nous verrons au chapitre (3) qu'il s'agit du langage CNF (Conjunctive Normal Form).com) .7. dans l'exemple precedent.5. ete etiquetes par l'oracle. il faut determiner la valeur des trois dernieres formes. sauf dans le cas d'espaces X tres restreints pour lesquels un apprentissage par c ur est envisageable.. par exemple l'espace des hypotheses decrites par une conjonction de conditions sur les descripteurs 9. c'est-a-dire en enumerant toutes les formes et leur etiquette associee. Il faut donc faire un choix entre 23 = 8 fonctions. sans limiter l'espace des hypotheses C'est pourquoi on utilise generalement pour decrire des partitions de X un langage de descripion des hypotheses. En d'autres termes. D'abord. En revanche.27 Octobre 2009 à 09:30 Fig. Nous nous sommes places dans le cas ou l'apprenant cherche directement une partition de l'espace d'entree X . ce langage interdit de considerer une fonction telle que (x1 = 0 ^ x2 = 1 ^ x3 = 1) _ (x1 = 0 _ x2 = 0 ^ x3 = 0). 9. Ainsi. Il est donc impossible d'avoir m^me seulement une preference pour une prediction plut^t qu'une e o autre concernant l'etiquette de ce point. 1. La table fournit un echantillon de 5 exemples de cette fonction. Pour xer completement une fonction. que nous noterons LH . . Il y a quatre fonctions parmi les huit qui sont associees a la sortie + et quatre associees a la sortie -.. Les avantages de l'utilisation explicite d'un espace d'hypotheses sont multiples: 1. Lorsqu'un espace d'hypotheses H est disponible. c'est-a-dire qu'il cherche a determiner l'etiquette de chaque forme x 2 X . on pourrait decrire des fonctions binaires du type (x1 = 0) ^ (x2 = 1) ^ (x3 = 1). comme le montre la table 1. Supposons que nous voulions determiner la valeur associee a l'entree (0 1 1). il est generalement impossible d'apprendre une partition de X en extension.

Si les (( illeres )) dont on a muni l'apprenant ne correspondent pas avec la fonction cible de la Nature ou de l'oracle. l'echantillon d'apprentissage fourni dans la table precedente lui permet de faire une prediction pour le point (0 1 1). correspond a une partition de l'espace des entrees X .8 { Introduction d'un espace d'hypotheses Ce document est la propriété exclusive de nona nina (ninasbalka@gmail. et (010) ! +. Supposons que pour une raison quelconque. Il su t pour cela que LH ne permette pas de decrire toutes les partitions de X . Evidemment. e Pour quali er ces (( illeres )) qui limitent l'espace des fonctions hypotheses que peut considerer l'apprenant. ou encore hypothese. cette fois-ci. Ensuite. Voyons pourquoi. qui permette d'en rendre compte. c'est-a-dire une fonction. Ceci parce que la seule fonction a valeur sur x1 x3 et coherente avec les exemples d'apprentissage est la fonction dont le tableau est le suivant : 0 0 + 0 1 1 0 + 1 1 Et selon cette fonction. pour decider de l'etiquette de la forme recue. Naturellement. Nous allons d'abord le montrer en reprenant l'exemple precedent. Cela revient a dire que le nombre de fonctions que l'apprenant peut considerer est de 4 (22 ) au lieu des 8 (23 ) possibles lorsque l'on prend en compte les trois descripteurs. La gure 1. c'est-a-dire x1 et x3 . Chaque point de H. et c'est un point capital d'apres la discussion de la section precedente. ce pouvoir a un prix.24 Premiere Partie : Les Fondements de l'Apprentissage ? + + - + . tout biais de Exemple 2 (Apprentissage de fonction boolenne (2)) x1 x3 f (x) .9 est egalement une illustration de cette m^me idee.27 Octobre 2009 à 09:30 H. Nous voyons donc qu'une limitation de l'espace d'hypotheses rend possible l'induction. En revanche. Cela signi e en particulier que si l'echantillon d'apprentissage contient les exemples (000) ! . l'apprenant qui recoit des entrees decrites sur les trois descripteurs binaires x1 x2 x3 ne puisse prendre en compte en fait que le premier et le troisieme descripteurs. l'etiquette de la forme (0 1 1) est '-'. 1. l'apprenant ne pourra pas construire une hypothese. 2.com) . on ne peut pas l'apprendre correctement. il devient possible d'e ectuer une induction a partir d'un echantillon limite d'exemples. on parle d'un biais de representation.+ + + + + + - xh - + - - - X H Fig.

Dans ce cas. En particulier.Chapitre 1 De l'apprentissage naturel a l'apprentissage arti ciel 25 ? + + + + - - xh + + + + - - - - X H Ce document est la propriété exclusive de nona nina (ninasbalka@gmail. l'espace H des hypotheses peut o rir des structures permettant son exploration de maniere plus ou moins systematique et plus ou moins e cace. Dans ce cas. Nous verrons plus loin que la notion de biais en apprentissage se de nit comme toute restriction de l'ensemble des hypotheses potentielles. 1. selon ce biais. Vrai concept ? xh + + + + - - + + + - + - X H Fig.com) . Par exemple. . Cet acte de foi peut ^tre errone auquel cas l'apprentissage peut donner de tres e mauvais resultats (voir gure 1.10 { Supposons que le langage de representation des hypotheses LH corresponde a une restriction aux parties de X qui sont des rectangles et que la partition (( vraie )) de la Nature.9 { Supposons que le langage de representation des hypotheses LH corresponde a une restriction aux parties de X qui sont des rectangles.27 Octobre 2009 à 09:30 Fig. il devient possible d'induire la classe de points jamais observes dans l'echantillon d'apprentissage. y compris des restrictions qui vont plus loin que les restrictions portant sur le langage d'expression des hypotheses.10). Il faudra arriver a detecter quand c'est le cas. correspondant aux exemples positifs. Finalement. une relation d'ordre sur H correlee avec la generalite de l'induction e ectuee est tres utile (voir le chapitre 4). On voit que des lors. il est impossible d'approximer correctement le concept cible a l'aide d'une hypothese de H. 1. 3. representation correspond a un (( acte de foi )) sur le type d'hypotheses adequat pour decrire le monde. la donnee du point '+' indique par la eche implique que tous les points inscrits dans le rectangle dont il delimite un angle sont de classe '+'. le point denote par un rond noir est predit appartenir a la classe '+'. soit representee par les deux (( patato des )).

4. La question est : ou doit-il chercher? En supposant qu'a l'instant t. et plus il sera envisageable .27 Octobre 2009 à 09:30 Quel que soit le processus guidant l'exploration de H.12 est relative a un apprentissage en ligne.26 Premiere Partie : Les Fondements de l'Apprentissage 1.3 L'exploration de l'espace des hypotheses Soit un espace d'hypotheses H. La t^che de l'apprenant est de trouver une hypothese a h approximant au mieux. e Par exemple. Comment savoir qu'une hypothese satisfaisante (voire optimale) a ete trouvee. Comment trouver une telle hypothese h 2 H ? Deux questions se posent : 1.5.11 schematise la recherche d'une hypothese dans le cas d'un apprentissage hors ligne (quand tout l'echantillon d'apprentissage est suppose d'emblee disponible). on suppose ici que l'hypothese courante ht est comparee a l'entree courante zt+1 = (xt+1 ut+1 ) et modi ee s'il y a lieu. La gure 1. La gure 1. en supposant des descriptions non bruites des entrees. eventuellement. comment peut-il en changer? C'est la que se decide l'e cacite de l'apprentissage et que joue la structure exploitable sur l'espace H. qui permet a l'apprenant de mesurer sa performance sur l'echantillon d'apprentissage et de decider s'il doit poursuivre sa recherche dans H ou s'il peut s'arr^ter. + + + + - - + + + + - ? x hj x hi x hk - - X H Fig. alors il faut que l'apprenant cherche une nouvelle hypothese dans H. d'autres inu formations fournies par l'environnement (y compris l'utilisateur par exemple). Plus celle-ci sera riche et ne. plus. l'apprenant cherche une hypothese exprimable dans le langage LH couvrant tous les exemples positifs de l'echantillon d'apprentissage et ne couvrant aucun des exemples negatifs. Comment organiser la recherche dans H ? Ce document est la propriété exclusive de nona nina (ninasbalka@gmail. Nous avons vu (section 1. Dans ce dernier cas. 1. au sens d'une certaine mesure de performance.1) que cette evaluation fait intervenir une fonction de co^t interne (par exemple un u ecart quadratique entre les sorties calculees a partir de h et les sorties desirees u fournies dans l'echantillon d'apprentissage).11 { Si l'hypothese courante ht est insatisfaisante {ici elle n'exclue pas tous les exemples negatifs connus{.com) . l'apprenant juge insatisfaisante son hypothese courante ht . un espace d'entree X et un echantillon d'apprentissage S = ((x1 u1) (x2 u2) ::: (xm um)). une fonction cible f sur la base de l'echantillon S dans lequel on suppose que chaque etiquette ui a ete calculee gr^ce a a la fonction f appliquee a la forme xi . il est necessaire que l'apprenant puisse evaluer les hypotheses h qu'il considere a un instant t de sa recherche. dans le cas de l'apprentissage supervise de concept.2. C'est cette fonction de co^t. et plus generalement comment evaluer la qualite d'une hypothese? 2. dans lequel les exemples sont fournis sequentiellement.

convexite. Un probleme fondamental est celui de la pertinence de cette notion de voisinage.27 Octobre 2009 à 09:30 d'organiser e cacement l'exploration de H. par exemple.12 { Si l'hypothese courante ht est insatisfaisante (ici elle ne couvre pas le nouvel exemple zt+1 = (xt+1 ut+1 )). s'exprimant en particulier dans les biais et dans le critere de performance. Une notion de voisinage est de nissable sur H. En contrepartie. C'est le cas en particulier des structures d'ordre partiel induites par des relations de generalite entre hypotheses. Examinons rapidement trois possibilites par ordre croissant de structuration. seule une exploration aleatoire est possible. . c'est encore une structure faible qui. bien s^r. De ce qui precede. de la fonction a optimiser) ne permet pas une exploration rapide.6 Retour sur l'organisation de l'ouvrage Toute etude de l'apprentissage arti ciel peut se situer par rapport a trois p^les : o Une approche theorique de l'apprentissage s'attachant a identi er ce qu'il est possible d'ap10. et ce qui les rend si populaires. il est evident que plus la structuration de l'espace des hypotheses est forte et adaptee au probleme d'apprentissage.com) . Ce type d'exploration. Il est alors possible d'operer une exploration par des techniques d'optimisation comme le gradient 10 . Rien ne permet de guider la recherche. 1. c'est qu'elles sont d'un usage tres general puisqu'il est souvent possible de de nir une notion de voisinage sur un espace. il devient possible de modi er une hypothese erronee en la specialisant juste assez pour qu'elle ne couvre plus le nouvel exemple negatif. Il est parfois possible de disposer d'une structure plus forte permettant d'organiser l'exploration de H. Ce terme inclut ici des methodes plus ou moins sophistiquees y compris les approches de type evolution simulee (algorithmes genetiques) et celles des reseaux connexionnistes. Encore une fois. sauf dans des cas particuliers (di erentiabilite. L'avantage de ces techniques. et plus les connaissances a priori. possible en particulier quand l'espace des hypotheses est structure par un langage (voir chapitre 4). Une mauvaise relation de voisinage peut en e et eloigner l'apprenant des regions prometteuses de l'espace ! Par ailleurs. Dans ce cas. etc. sont importantes. ni m^me de tirer parti des e informations deja glanees sur H. ou au contraire en la generalisant juste assez pour qu'elle couvre le nouvel exemple positif fourni. L'espace H des hypotheses ne presente aucune structure. alors il faut que l'apprenant cherche une nouvelle hypothese dans H.Chapitre 1 De l'apprentissage naturel a l'apprentissage arti ciel + 27 + - - + + + + + + - ? x hj x hi x hk - - - X H Fig. est generalement mieux guide et plus e cace qu'une exploration aveugle. plus l'apprentissage sera facilite. 1. cela necessitera un travail de re exion prealable d'autant u plus important. C'est le cas ou l'on ne conna^trait rien a priori sur H. la question est : ou doit-il chercher? Ce document est la propriété exclusive de nona nina (ninasbalka@gmail. Dans ce cas.

. les methodes developpees Ce document est la propriété exclusive de nona nina (ninasbalka@gmail. Chaque auteur doit alors faire un choix pour organiser. le moins arbitrairement possible. architecture cognitive. Nous avons decide de presenter dans une premiere partie les concepts et principes fondamentaux qui permettent de comprendre et de justi er la plupart des methodes d'apprentissage.27 Octobre 2009 à 09:30 . Plus la connaissance prealable est faible. Parmi nos illustres predecesseurs. ainsi que de motiver l'utilisation de certains principes inductifs que l'on retrouve a la base de toutes les methodes d'apprentissage. et plus son exploration peut ^tre guidee. Les trois grandes parties presentant ces methodes regroupent ainsi d'abord les methodes d'apprentissage par exploration suivant les directions de recherche fournies par l'espace d'hypotheses.28 Premiere Partie : Les Fondements de l'Apprentissage prendre ou. Une approche d'ingenieur concerne par la realisation de methodes d'apprentissage sous formes d'algorithmes et de programmes informatiques.. Plus l'espace H se trouve dote d'une structure forte.com) . Une approche d'utilisateur interesse par les realisations des programmes d'apprentissage et les problemes qu'ils permettent de resoudre. e L'ouvrage adopte cette ligne directrice en presentant les methodes d'apprentissage en fonction de la structuration de H. En particulier nous nous sommes attaches a l'etude des conditions sous lesquelles un apprentissage est possible. Tom Mitchell Mit97] a choisi d'equilibrer tout au long de l'ouvrage theorie et pratique. pour aller graduellement vers l'apprentissage dans des espaces (( minimaux )) pour lesquels il n'existe m^me plus d'ese pace d'hypotheses a proprement parler. plus precisement. et que sont donc utilisables essentiellement des techniques de gradient. en imposant une notation uniforme et des exemples de t^ches d'apprentisa sage illustrant l'ensemble des methodes. de la. sans suivre de principe directeur particulier et en assumant les di erences de notations entre les ecoles de pensee. nous avons choisi de centrer notre attention sur le probleme de la recherche d'une ou plusieurs hypothese(s) dans l'espace d'hypotheses H. et plus l'apprentissage requiert de donnees pour aboutir. mais seulement une notion de voisinage dans l'espace X des entrees et une mesure de performance. modeles de la physique. conduisant en general a une plus grande e cacite. ce qui est necessaire pour qu'un apprentissage soit possible en principe. En contrepartie. vers les applications. Ceci nous permet de cerner les conditions necessaires a un apprentissage. Tout ouvrage general sur l'apprentissage arti ciel doit a ronter la di culte d'avoir a presenter une collection de methodes et d'algorithmes parfois issus de communautes scienti ques di erentes. Dans la section precedente. m^me si la progression logique impose de partir de premices plut^t conceptuelles et theoriques e o pour aller vers la conception de systemes d'apprentissage et. A n d'en organiser l'exposition. et ceci independamment d'un algorithme particulier. pour des motivations diverses (metaphores biologiques. Pat Langley Lan96] a fait le pari audacieux de structurer tout son ouvrage sur les langages de representation des hypotheses manipules par les systemes apprenants. nous avons choisi de suivre un autre principe structurant. Le reste de l'ouvrage est dedie aux methodes et algorithmes d'apprentissage ainsi qu'aux realisations associees. Comme nous l'avons deja dit dans l'avant-propos. a l'image de son cours a l'universite de Carnegie-Mellon (CMU). partant des espaces les mieux structures. On ne peut pas gagner sur tous les tableaux. ou impossible. l'exposition de toutes ces techniques. ensuite les methodes d'apprentissage par optimisation lorsque H ne dispose plus que d'une notion de voisinage et d'une mesure de performance. nous avons evoque l'in uence des connaissances prealables sur le processus de recherche et son e cacite. nalement les methodes d'apprentissage par interpolation qui sont les seules utilisables quand on ne conna^t plus d'espace d'hypotheses a priori..) et souvent decrits dans les articles scienti ques a l'aide de notations non homogenes. Nous avons essaye de rendre compte de ces trois points de vue tout au long de l'ouvrage.

com) . les grandes options. mathematique. dont nous avons parle dans ce chapitre. les problemes profonds. Nous la brossons ici a grands traits. C'est particulierement le cas des premieres simulations de tortues ou souris cybernetiques que l'on place dans des labyrinthes en esperant les voir apprendre a s'en sortir de plus en plus vite. biologie. tant historiquement. sur les connaissances. la publication du livre de Minsky et Papert ( MP69]) qui enonce les limites des perceptrons a pour e et d'arr^ter pour une quinzaine d'annees presque toutes e les recherches dans ce domaine. A la m^me periode. D'autre part. mais elle a deja une histoire. l'informatique e e na^t avec les travaux de Godel. et qu'il est souvent rentable de chercher a tirer parti de toutes les connaissances disponibles. l'apprentissage est marque par deux courants. De maniere concomittante. leur representation et l'utilisation de regles d'inference sophistiquees (periode des systemes experts) encourage les travaux sur l'apprentissage dans des systemes bases sur des representations des connaissances structurees mettant en jeu . etc.27 Octobre 2009 à 09:30 Notes pour aller plus loin L'apprentissage arti ciel est une discipline jeune. a leur analyse automatique. A la n des annees 1960. l'accent mis en intelligence arti cielle. Dans les annees 1960. developpe un programme pour jouer au jeu de dames americain qui apprend une fonction d'evaluation des positions lui permettant de devenir rapidement un tres bon joueur. etc. un premier connexionnisme. que par la prise en compte des parrainages exerces par d'autres disciplines: philosophie. Par ailleurs. De son c^te. 29 Ce document est la propriété exclusive de nona nina (ninasbalka@gmail. les ecarts necessaires. Cette etude qui reste a faire depasse cependant de beaucoup le cadre de notre ouvrage et nous nous limiterons a quelques jalons. malgre leur usage encore modere dans les applications actuelles. mais surtout comment valider une hypothese par rapport a un jeu de donnees. Church puis surtout Turing en 1936. par les tensions mises a jour. il nous semble aussi que les t^ches d'apprentissage a essentiellement numeriques qui ont fait ores ces dernieres annees vont probablement bient^t o ceder le pas a des t^ches d'apprentissage { comme la recherche de documents sur le reseau. et les premieres simulations informatiques deviennent possibles apres la seconde guerre mondiale. qui sous la houlette de Rosenblatt pere du perceptron. a l'instar de l'intelligence arti cielle et de l'informatique. pr^tes a ^tre essayees sans grands e orts de re exion a priori. integrant souvent de l'apprentissage. en remontant l'histoire de la pensee. psychologie. s'adaptant a tous les contextes. cherchant a determiner comment inferer un modele a partir de donnees. des pionniers essaient de programmer des machines pour realiser des t^ches a intelligentes. Fisher en particulier etudie les proprietes des modeles lineaires et comment ils peuvent ^tre inferes a partir d'un echantillon de donnees. D'une part. logique. C'est pourquoi ces methodes (par exemple les reseaux connexionnistes ou les algorithmes genetiques) sont les plus populaires. Nous avons voulu souligner que e e ce calcul est parfois mauvais. dans les annees 1970. Des principes preliminaires theoriques de l'apprentissage sont poses des les premiers travaux en statistique dans les annees 1920 et 1930. { requierant des espaces d'hypotheses beaucoup plus structures et prenant en compte une enorme quantite de connaissances. voit se developper des petits reseaux de neurones arti ciels testes sur des t^ches d'apprentissage supervise de classes a d'objets.Chapitre 1 De l'apprentissage naturel a l'apprentissage arti ciel pour les t^ches dans lesquelles on dispose de peu d'informations prealables sont aussi celles a qui sont d'usage le plus general. C'est pourquoi nous avons reserve une place importante a ces methodes. des outils conceptuels sur la reconnaissance des formes se developpent. A c^te des re exions o theoriques et des debats conceptuels sur la cybernetique et le cognitivisme. Il serait bien s^r interessant d'examiner l'etude de l'apprentissage arti ciel dans une persu pective plus large. croyant qu'il est toujours interessant de conna^tre le passe d'une discipline. dans les o annees 1959-1962. Samuel chez IBM. et que cela peut reveler.

P(C ) 2 2 x Ce document est la propriété exclusive de nona nina (ninasbalka@gmail. souvent implicites. De plus. D'ou aussi des systemes comme ACT de Anderson testant des hypotheses generales sur l'apprentissage de concepts mathematiques dans l'education.30 Premiere Partie : Les Fondements de l'Apprentissage Perceptron Expériences : tortues cybernétiques D lin isc é a ri m ire in (F ant ish er ) (n Tu l'i a iss rin nf or anc g m ed at iq e ue ) Reconnaissance des Formes : Théorie de la décision bayésienne P(x|C ). l'analogie. ces annees ont vu une reemergence tres puissante du connexionnisme en 1985. C'est pourquoi les annees 1980 ont vu progressivement se tarir les travaux portant sur de telles simulations a quelques brillantes exceptions pres comme les systemes Act ou Soar.com) . ces systemes presentent des faiblesses qui viennent de leur complexite.13 { La premiere periode de l'apprentissage arti ciel. aussi spectaculaires soient-ils. La deuxieme est que leur realisation implique necessairement un grand nombre de choix. On retiendra en particulier le systeme Arch de Winston en 1970 (voir chapitre 2) qui apprend a reconna^tre des arches dans un monde de blocs a partir d'exemples et de contre-exemples le systeme AM de Lenat en 1976. qui decouvre des conjectures dans le domaine de l'arithmetique par l'utilisation d'un jeu d'heuristiques elles-m^mes apprises dans le systeme Eurisko du m^me auteur en 1982.P(C ) 1 1 Région d'erreur P(x|C ). et surtout jettent le doute sur la portee generale et generique des principes mis en avant. le type procedural ou declaratif des connaissances. etc. Cela a profondement modi e l'etude de l'apprentissage arti ciel en ouvrant grand la porte a tous les concepts et techniques mathematiques portant sur l'optimisation et sur les proprietes de convergence. c'est-a-dire le quantum d'action dans l'institution scienti que.27 Octobre 2009 à 09:30 R 1 R 2 20s 1936 50s 60s Fig. est qu'ils sont a la limite de ce qui est realisable dans le cadre d'un travail de these. ou bien e e encore le systeme Meta-Dendral de Mitchell qui apprend des regles dans un systeme expert dedie a l'identi cation de molecules chimiques. des regles d'inference complexes comme la generalisation. petits et grands. 1. d'autres mathematiciens se sont engou res (derriere Valiant en 1984 Val84a]) dans la breche ouverte par la notion d'espace des versions due a Mitchell (voir chapitre 4) et qui en gros permet d'envisager l'apprentissage comme la recherche dans un espace . C'est aussi une periode durant laquelle le dialogue est facile et fecond entre les psychologues et les praticiens de l'apprentissage arti ciel. Cependant. Parallelement a l'intrusion des mathematiques continues. avec en particulier la decouverte d'un nouvel algorithme d'apprentissage par descente de gradient pour les perceptrons multicouche (voir chapitre 10). la moins determinante mais neammoins in uente. C'est alors le triomphe de systemes impressionnants realisant des t^ches d'apprentissage speci ques en simulant plus a ou moins des strategies mises en jeu dans l'apprentissage humain. et qui de ce fait ne permettent pas une replication aisee des experiences. les hypotheses portant dans les deux communautes sur des concepts comme les memoires a court terme et a long terme. La premiere. etc.

14 { La deuxieme periode de l'apprentissage arti ciel. Il s'agissait alors dans ce cadre de chercher comment un echantillon de donnees tire aleatoirement pouvait permettre d'identi er une bonne hypothese dans un espace d'hypotheses donne. ceux-ci continuerent a developper des algorithmes plus simples mais plus generaux que ceux de la decennie precedente : arbres de decision (chapitre 11). 1994. Cela ne a doit cependant pas faire oublier les immenses territoires laisses en friche (voir chapitre 17). et plus generalement tous ceux qui travaillent sur l'apprentissage sous une forme ou une autre. induction de programmes logiques (chapitre 5). 1991. et comme le langage utilise dans ces recherches etait assez e eloigne de celui des praticiens de l'apprentissage arti ciel. Le cerveau et la memoire mars 1998. et par un redeploiement vers la mise a l'epreuve des techniques developpees sur de grandes applications a nalite economique. 1985. La memoire et l'oubli juil.com) . 1. algorithmes genetiques (chapitre 8). Il est indeniable que pour le moment l'apprentissage est ressenti comme necessaire dans de tres nombreux champs et que nous vivons un ^ge d'or pour cette discipline. Les lecteurs interesses par des articles generaux sur l'apprentissage peuvent se reporter a des articles parus dans des magazines scienti ques. Le developpement actuel de la discipline est domine a la fois par un e ort theorique vigoureux dans les directions ouvertes par Vapnik et les theoriciens de l'approche statistique. que la theorie statistique de l'apprentissage (chapitres 2 et 17) a veritablement in uence l'apprentissage arti ciel en donnant un cadre theorique solide a des interrogations et a des constatations empiriques faites dans la pratique de l'apprentissage arti ciel. Ce n'est que dans les annees 1990. comme la genomique. L'intelligence dec. Les performances de la memoire humaine sept. d'hypotheses de ni a priori d'une hypothese coherente avec les donnees. 2000 des numeros hors serie de la revue La Recherche : L'intelligence arti cielle oct. dont : plusieurs numeros hors serie de la revue Science & Vie : Le cerveau et l'intelligence dec. A quoi sert le cerveau? juin 1996. C'etait extr^ment deroutant. a mais comme un processus d'elimination d'hypotheses ne satisfaisant pas un critere d'optimisation.Chapitre 1 De l'apprentissage naturel a l'apprentissage arti ciel Apprentissage artificiel : une explosion Systèmes dédiés à une tâche : inspiration psychologique 31 Induction supervisée Arbres de décision Algorithmes génétiques Explanation-Based Learning Raisonnement par cas 2ème connexionnisme AR A Ce document est la propriété exclusive de nona nina (ninasbalka@gmail. etc.27 Octobre 2009 à 09:30 1970 1976 M ET A CH M 1978 -D EN D RA L 70s 80s Fig. D'un seul coup l'apprentissage etait vu non plus comme la recherche d'algorithmes simulant une t^che d'apprentissage. La memoire juil. 2001 un numero hors serie de la . ni la necessite de renouer le dialogue avec les psychologues. comme la fouille de donnees. et surtout apres 1995 et la parution d'un petit livre de Vapnik ( Vap95]). les didacticiens. ou a nalite socio-economiques. 1998.

ai. Eng96.SVMs . Pin97]).mit.ai. BKL00. . dont une part non negligeable provient de travaux francais. Dup94. revue Pour la Science : La memoire : le jardin de la pensee avril 2001. European Conference on Machine Learning (ECML) : conference annuelle europeenne (mais internationale). Conference francophone d'Apprentissage (CAP) : conference annuelle francophone qui a pris la suite des Journees Francaises d'Apprentissage (JFA) depuis 1999. mais nous encourageons le lecteur a faire des recherches plus amples (voir And92.edu/projects/jmlr/) Journal of Arti cial Intelligence Research (JAIR) accessible gratuitement sur Internet (http://www. Nous citons ici des ouvrages faciles a se procurer. de la reconnaissance des formes et de la fouille de donnees sont aussi pertinentes : International Conference on Machine Learning (ICML) : conference annuelle internationale (mais dominee par les Americains). 1. Beaucoup d'autres dans le domaine de l'intelligence arti cielle. Voici une liste non exhaustive de revues specialisees sur l'apprentissage arti ciel : Machine Learning journal Journal of Machine Learning Research (disponible gratuitement sur http://www.32 Premiere Partie : Les Fondements de l'Apprentissage Apprentissage artificiel : une théorisation et une mise à l'épreuve ni Nouvelles méthodes : .mit.27 Octobre 2009 à 09:30 ap 1995 90s 00s Fig.Boosting k Th éo rie de V Data mining Text mining Ce document est la propriété exclusive de nona nina (ninasbalka@gmail.15 { La troisieme periode de l'apprentissage arti ciel.edu/projects/jmlr/) Data Mining and Knowledge Discovery journal Transactions on Knowledge and Data Engineering Voici aussi une liste de conferences completement dediees a l'apprentissage arti ciel. Une large litterature existe sur les fondements philosophiques de l'intelligence arti cielle ou sur son histoire.com) . Cre97.

il est necessaire qu'il existe un biais d'apprentissage.27 Octobre 2009 à 09:30 . L'etude de l'apprentissage tourne en particulier autour de deux questions : L'apprentissage est-il possible pour un probleme et des donnees d'apprentissage particuliers? L'apprentissage est-il realisable e cacement? Les reponses a ces deux questions dependent en grande partie de l'espace des hypotheses : Pour que l'apprentissage soit possible. l'espace des hypotheses et le protocole regissant les interractions de l'apprenant avec son environnement. Ce document est la propriété exclusive de nona nina (ninasbalka@gmail. L'e cacite de l'apprentissage depend de la force de ce biais et de la structuration de l'espace des hypotheses.com) . l'apprentissage non supervise et l'apprentissage par renforcement. On distingue particulierement l'apprentissage supervise pour lequel un oracle fournit les reponses desirees.Chapitre 1 De l'apprentissage naturel a l'apprentissage arti ciel 33 Resume Il existe plusieurs types ou problemes d'apprentissage qui sont de nis par un certain nombre de caracteristiques dont l'espace des donnees.

Ce document est la propriété exclusive de nona nina (ninasbalka@gmail.com) .27 Octobre 2009 à 09:30 .

relativement recente. 1. donc des regles du jeu et une mesure de performance. l'etude de l'induction est devenue petit a petit plus rigoureuse. ce qui rend possible le passage de l'observation d'evenements passes a la prediction. . ou d'autres encore. et nalement un algorithme qui realise au mieux le principe inductif.Chapitre 2 Ce document est la propriété exclusive de nona nina (ninasbalka@gmail. plusieurs principes inductifs sont imaginables : choisir l'hypothese qui s'accorde le mieux avec les donnees observees jusquela. les philosophes ont cherche a comprendre e l'induction. Voir le chapitre de J. En apprentissage arti ciel. Apres la realisation de quelques systemes pionniers et de quelques techniques impressionnantes. ou bien choisir l'hypothese permettant la description la plus economique de ces donnees.G Ganascia dans DKBM00]. l'induction met en jeu d'abord un probleme.27 Octobre 2009 à 09:30 Premiere approche theorique de l'induction Regardons passer un vol de cygnes en le indienne. mais di ciles a ma^triser. des conditions de validite de ces grands principes a conduit a la de nition de principes inductifs plus sophistiques qui sont a la base de nouvelles methodes d'apprentissage. Une fois le probleme d'apprentissage pose. A ses debuts. Ce chapitre est concerne par les deux premiers points. initialement introduite par le philosophe Goodman. sans s'arr^ter a tous les problemes profonds lies a l'induction comme forme e de raisonnement. l'apprentissage arti ciel a e ectue de l'induction comme M.com) . Il s'agit d'une metaphore classique. ensuite un principe inductif qui speci e ce qu'est l'hypothese ideale etant donne un probleme. c'est-a-dire qui cherche e ectivement l'optimum de ni par le principe inductif. Pouvons-nous predire quel sera le prochain oiseau a passer? Encore un cygne? Une oie? Le vol va-t-il s'arr^ter? e Dans combien de temps passera un autre vol? Que ce soit a l'aide d'experiences de pensee impliquant des volatiles ou plus classiquement des emeraudes (vertes jusqu'ici. L'etude theorique. mais bleues peut-^tre a partir de demain 1 ). pour discuter de l'induction. Jourdain de la prose.

. On parvient a expliquer un phenomene si on l'a relie de facon univoque a des antecedents a travers une ou plusieurs loi(s) de la nature. Si tout va bien. c'est-a-dire le passage d'observations particulieres a des classes d'evenements ou a des lois s'appuie souvent sur une recherche d'explications. qui enonce une loi extraite d'observations. Si l'on se place d'un point de vue philosophique. faire simple . l'induction est liee a plusieurs notions : La generalisation. A partir de la. etc.36 vol. il devient possible de savoir comment distinguer des classes d'oiseaux. de leur elegance et de leur fecondite par rapport a l'ensemble des connaissances. le cri. une explication scienti que est de nie comme une assignation causale. Une explication. et cela pourrait s'expliquer par la theorie de l'evolution. beaucoup d'attributs les separent. dont celles que l'on nomme corbeaux et canards. Finalement. est valide quand elle peut ^tre retournee en un outil de prediction permettant d'aller de e causes connues a des phenomenes encore inconnus. Cette forme d'apprentissage. Elle e signi e en realite (( presque tous les gens que j'ai observes faire cet exercice sont capables sous certaines conditions de distinguer un corbeau d'un canard )). En e et. )). Il est extr^mement rare de rencontrer en France des canards e noirs. le pouillot veloce (Phylloscopus Collybita) et le pouillot tis (Phyloscopus Trochibus) ne se distinguent pratiquement que de cette maniere. en cette periode de l'evolution. peut coexister un certain nombre d'especes presentant certaines caracteristiques speci ques. a c^te de leur pouvoir predictif. etc. D'ou la formulation raccourcie. tirant des lois generales a partir d'observations particulieres. dans nos regions temperees. predire. Il faudrait d'abord xer le cadre ou cette loi est operatoire.27 Octobre 2009 à 09:30 Induire : expliquer. c'est-a-dire a trouver des regularites permettant leur identi cation.com) . zoologiques (il y a en France beaucoup d'especes de canards et plusieurs de corbeaux). Mais m^me dans un cadre plus precis. Mais a partir d'observations en nombre limite. Nous trouverons la trace de ces liens tout au long de l'ouvrage. La couleur. classiquement. mais elle est e fondee et generalement valide. tout le monde. la vitesse du Ce document est la propriété exclusive de nona nina (ninasbalka@gmail. ))). cet observateur n'a certainement pas deja vu tous les corbeaux ni tous les canards. il a appris a les distinguer.. Cette prediction n'est peut-^tre pas vraie a 100%. Ainsi un corbeau est di erent d'un canard parce que la theorie de l'evolution des especes selon un certain schema idealement deductif dicte que. Pourtant. Cet exemple n'est pas pris au hasard : mis a part leur chant.. La theorie de l'evolution est-elle bien inseree dans les connaissances generales? Est-elle performante dans d'autres contextes? Cette theorie permet-elle de predire que l'on peut distinguer les canards des corbeaux a partir simplement de leur couleur ? Est-il besoin pour les distinguer de mesurer la longueur des plumes de leurs ailes 2 ? L'etude de l'induction est donc liee a celle des concepts d'explication.. de prediction et d'economie de description. s'appelle induction ou generalisation. 2. presenter certaines couleurs. les descriptions et les explications sont aussi o jugees a l'aune de leur simplicite. ce qui est une generalisation (exageree). T out le monde sait distinguer un corbeau d'un canard. Cela determine des classes d'animaux possibles. qui consiste a remonter d'un phenomene connu a ses causes inconnues. cette a rmation ne fait que generaliser des observations. L'induction est donc egalement liee a la capacite de prediction. Il y a dans le paragraphe ci-dessus un autre exemple d'induction : il est ecrit (( tout le monde sait . Toute personne qui observe l'un de ces deux oiseaux peut lui donner son nom pratiquement sans erreur. la silhouette. cette theorie va expliquer pourquoi les volatiles peuvent exister dans certaines classes de poids. la temperer par des contraintes geographiques ((( En France.

c) ^ NE DOIT PAS TOUCHER(c.27 Octobre 2009 à 09:30 Le point de vue decrit ci-dessus presuppose chez l'agent cognitif l'existence de tout un ensemble de connaissances sophistiquees.c) ^ A LA PROPRIETE(a. D'ou les questions fondamentales suivantes : Qu'est-ce qui autorise a generaliser a partir d'un echantillon limite de donnees? Comment realiser cette extrapolation? Suivant quel principe? Est-ce qu'une bonne explication des donnees disponibles est la promesse d'une bonne capacite de prediction? Quelles garanties peut-on avoir sur les performances d'une extrapolation? Ce chapitre a pour objectif de presenter les outils conceptuels et theoriques qui ont ete developpes pour repondre a ces questions.2.com) .a) ^ PARTIE DE(arche.Chapitre 2 Premiere approche theorique de l'induction 37 L'induction arti cielle Ce document est la propriété exclusive de nona nina (ninasbalka@gmail.c) ^ NE DOIT PAS TOUCHER(b. Cette regle de decision peut avoir deux buts. DOIT ^ ETRE SUPPORTE PAR) 2.b) ^ PARTIE DE(arche. NE DOIT PAS TOUCHER) FORME OBLIGATOIRE(EST SUPPORTE PAR.allonge) ^ SORTE DE(a.1).b) ^ A GAUCHE DE(b. le probleme est d'inferer par des moyens automatiques une bonne regle de decision a partir d'un echantillon restreint de donnees sur le phenomene etudie.c) ^ A DROITE DE(c. . Du point de vue de l'ingenieur.b) ^ DOIT ETRE SUPPORTE PAR(a. Ce genre de connaissances complexes (comme la theorie de l'evolution) ne se trouve pas encore chez les agents cognitifs arti ciels.objet) ^ SORTE DE(debout. est-ce un canard ou un corbeau?).1.debout) ^ SORTE DE(b.1 Le systeme Arch De cette maniere.objet) ^ DOIT ETRE SUPPORTE PAR(a. la representation choisie permet d'exprimer explicitement des conditions necessaires.brique) ^ SORTE DE(c.brique) avec des faits exprimant une connaissance sur le monde des blocs tels que : SORTE DE(brique.2 correspond a peu pres aux expressions du calcul des predicats suivantes : PARTIE DE(arche. Le but est d'apprendre des descriptions de concepts a partir d'exemples et de contre-exemples. Le type de concepts etudies par Winston est celui des arches dans un monde de blocs (voir gure 2. Cela permet d'exprimer en une seule structure des conditions necessaires et su santes.1 Deux exemples d'induction Le travail realise par Winston pour sa these en 1970 Win70] a servi de precurseur a de nombreuses methodes d'apprentissage. 2.debout) ^ A LA PROPRIETE(c. Ces reseaux permettent a la fois la comparaison directe avec les descriptions des scenes supposees fournies par le systeme visuel et la representation de concepts relationnels. Le reseau de la gure 2.propriete) et des faits exprimant des relations entre predicats. tels que : OPPOSE(DOIT TOUCHER. non contradictoires : soit permettre uniquement la prediction sur une nouvelle observation (l'oiseau que je vois maintenant.b) ^ A LA PROPRIETE(b. de m^me que le concept e a apprendre. soit correspondre a la decouverte d'une theorie generale du phenomene qui a la fois l'explique et permet de predire ce qui se passera dans chaque cas particulier possible (il su t de considerer la couleur pour savoir a quel type d'oiseau on a a aire : corbeau ou canard). Les scenes visuelles correspondantes sont decrites par des reseaux semantiques tels que celui de la gure 2.

1 { Dans un monde de blocs. le systeme Arch doit apprendre a distinguer les construc- tions correspondant a des arches (a et c) de celles n'y correspondant pas (b et d).27 Octobre 2009 à 09:30 (b) (c) (d) Fig.2 { Un exemple d'arche et sa representation. .com) .38 Premiere Partie : Les Fondements de l'Apprentissage (a) Ce document est la propriété exclusive de nona nina (ninasbalka@gmail. 2. arche Partie-de allongé a b c b A-la-propriété A-la-propriété a Doit-êtresupporté-par Ne-doit-pastoucher A-droite-de A-gauche-de Sorte-de objet c Sorte-de debout A-la-propriété brique Fig. 2.

2 Le perceptron . Le premier est que le concept cible est suppose provenir d'un professeur et peut donc ^tre e parfaitement appris par un apprenant. Cela necessite bien s^r que l'enseignant connaisse l'hypothese de l'apprenant a chaque u instant. c'est-a-dire tirant parti de la representation des connaissances et des relations entre concepts. L'algorithme est schematiquement le suivant : Si le nouvel exemple est positif. les exemples d'apprentissage (exemples ou contre-exemples du concept a apprendre) et modi e au fur et a mesure son hypothese courante pour qu'elle couvre.Chapitre 2 Premiere approche theorique de l'induction L'algorithme d'apprentissage de Winston prend en compte un par un. Cet algorithme suppose qu'il soit aise de comparer directement l'hypothese et les exemples d'apprentissage. mais mises sur une pile pour le cas de retour-arriere.27 Octobre 2009 à 09:30 2. c'est-a-dire qui couvre correctement tous les exemples positifs et exclut tous les exemples negatifs. on suppose que les exemples sont fournis dans un ordre pedagogique. le formalisme de representation est le m^me et l'on parle alors d'astuce e de representation unique (single-representation trick). Le systeme Arch est un exemple de systeme d'apprentissage inductif symbolique. Les autres di erences sont ignorees. y compris de generalite. il faut generaliser l'hypothese courante pour qu'elle couvre le nouvel exemple si ce n'est pas deja le cas. Nous allons voir maintenant. Ici. Celle-ci est alors convertie en une condition necessaire. s'il est negatif.com) . brique). une condition necessaire (representee par un lien doit) est ajoutee au reseau semantique representant l'hypothese courante. l'algorithme a recours a des regles ad hoc pour choisir une di erence a (( bl^mer )) expliquant pourquoi l'exemple est a negatif. Le probleme auquel s'attaque l'algorithme du perceptron developpe par Rosenblatt ( Ros62]) est le suivant : supposons que nous ayons une sequence d'observations x1 x2 : : : xm . le rejette. chacune 39 Ce document est la propriété exclusive de nona nina (ninasbalka@gmail.1. L'idee sousjacente est que l'hypothese va ainsi converger vers une hypothese correspondant au concept cible a apprendre. Nous aurons l'occasion de discuter en profondeur ces deux presupposes dans la suite de ce chapitre. qu'elle ne le couvre pas. l'algorithme doit choisir entre ces deux techniques de generalisation. soit en remplacant un n ud (e. il faut remarquer que cet algorithme d'apprentissage est representatif de deux presupposes communs a quasiment tous les travaux en intelligence arti cielle et en psychologie cognitive dans les annees 1970. Dans certains cas. Finalement. L'algorithme Arch generalise un reseau semantique soit en eliminant des n uds ou des liens. le nouvel exemple s'il est positif ou. a n d'eviter l'explosion du nombre de choix a faire par l'algorithme. Si le nouvel exemple est negatif. Ce genre d'exemples est appele nuance critique (nearmiss).g. Par ailleurs. de telle maniere en particulier que les exemples negatifs ne presentent qu'une seule di erence avec l'hypothese courante. cense partager le m^me appareil cognitif et la m^me e e representation des connaissances. Il essaye d'abord le choix le moins radical (remplacement de n ud) et place l'autre choix sur une pile de possibilites en cas de retour-arriere. sequentiellement. ou encore accepte. au contraire. avec le perceptron. cube) par un concept plus general (e. un exemple d'apprentissage nonsymbolique ou numerique. Le second est que la meilleure hypothese est celle qui (( colle )) parfaitement aux donnees d'apprentissage. S'il y a plusieurs di erences entre l'exemple negatif et l'hypothese courante.g.

Pour ce faire. En partant de l'echantillon e d'apprentissage. ou au moins pour le plus grand nombre d'entre eux. Ceci parce qu'ils sont issus de modelisations de neurones faites dans les annees quarante et cinquante. dont on suppose que le r^le est de ponderer l'entree correspondante. on cherche un vecteur de poids w veri ant : wT x : u > 0 8(xi ui ) 2 S (2. Le noyau cellulaire e ectue un traitement sur le vecteur d'entree x dont chaque composante xi est ponderee par le poids synaptique correspondant wi . A droite le signal de sortie est o vehicule par l'axone.3 permettant de predire la classe d'une nouvelle observation. il s'agit donc de trouver un vecteur de poids w et un seuil w0 tel que : wT x + w0 soit encore : ( 0 =) <0 x 2 !1 !2 ( wT x ( 0 =) <0 x 2 !1 !2 ( (2.d  0 sinon xd Ce document est la propriété exclusive de nona nina (ninasbalka@gmail. une methode inductive s'appuyant sur l'echantillon d'apprentissage consiste a chercher un vecteur w veri ant les equations ci-dessus pour tous les exemples d'apprentissage.x i =0 .27 Octobre 2009 à 09:30 a = ∑ w .40 x1=1 Premiere Partie : Les Fondements de l'Apprentissage x1 w0 x2 w1 w2 wd   1 si ∑ wi . A gauche sont gurees les synapses. 3.3 { Le schema d'un perceptron. cela pourrait ^tre des dese criptions de volatiles avec comme classe oie ou cygne. Par exemple. 2. Ces reseaux sont souvent egalement appeles (( reseaux de neurones )) (neural networks) dans la litterature. En associant a la classe !1 la valeur u=1 et a la classe !2 la valeur u=-1. P par exemple en appliquant une fonction seuil sign d=0 wi xi . . i d'entre elles etant a ectee a une classe ! 2 f!1 !2 g. Nous voulons trouver les parametres d'un automate tel que celui de la gure 2. Cet automate est en fait l'anc^tre des reseaux connexionnistes 3. d i i Fig. Nous trouvons cependant ce terme abusif et trompeur et nous utiliserons dans cet ouvrage le terme de (( reseaux connexionnistes )) qui souligne egalement que les parametres du systeme sont les poids des connexions.com) .xi > 0 y =  i = 0.2) ou S est l'echantillon d'apprentissage.1) en considerant le vecteur de description des observations augmente xT = (1 x1 x2 ::: xd ) et le vecteur poids w augmente du seuil w0 : wT = (w0 w1 w2 ::: wd ).

Cette procedure d'ajustement doit ^tre repetee en presentant chaque exemple plusieurs fois. 3. que nous appellerons plus tard risque empirique. ces deux exemples de systemes tres di erents ont montre comment il etait possible d'apprendre des regles de decision a partir d'exemples etiquetes. Il est alors facile de montrer que l'erreur ne peut que decro^tre au sens large et m^me qu'il e y a convergence en un nombre ni de presentations d'exemples (voir le chapitre 9 pour une description plus complete du perceptron). de nit un algorithme d'apprentissage tres simple : e (2. Cette mesure est proportionnelle a la somme des distances des exemples mal classes a la frontiere de decision decrite par l'equation 2. changeant brusquement pour chaque erreur de classi cation en plus ou en moins.2 ci-dessus suggere une autre mesure de performance. ajouter le vecteur x au vecteur poids w.4) w(t + 1) = w(t) . L'idee la plus immediate est de compter le nombre d'erreurs commises sur l'echantillon d'apprentissage.5) 1. Passer en revue chaque exemple dans l'echantillon d'apprentissage et tester la reponse y produite par le perceptron par rapport a la reponse desiree u. est la somme de termes positifs. Nous avons vu comment un systeme peut decider de la reponse a faire en presence d'une nouvelle observation. e Si cette procedure de descente de gradient est appliquee au critere du perceptron.27 Octobre 2009 à 09:30 X xj 2M wT xj : uj (2. xi ui Celle-ci. ne rien faire. comment on peut mesurer la qualite des decisions prises. L'inconvenient de ces deux mesures est qu'elles sont discontinues. avec comme objectif de le reduire au maximum.com) . on obtient l'equation suivante : w(t + 1) = w(t) .3) ou M est l'ensemble des exemples d'apprentissage mal classes par le perceptron de vecteur poids w. @REmp((tw(t) @ w ) w(t) ou est un reel positif de petite valeur que l'on appelle pas d'apprentissage. si l'exemple est incorrectement classe en !1 . Si les deux reponses co ncident { l'exemple est correctement classe {. quelle forme peut prendre une procedure de . l'un des algorithmes d'apprentissage les plus simples consiste a ajuster le vecteur de poids w par une procedure de descente de gradient a n d'optimiser la mesure de performance (2. L'equation 2.3). Sinon.1. En resume. On parle dans ce cas d'erreur de classi cation. s'il est incorrectement classe en !2. Une fois choisie une mesure de performance. 2. retirer x au vecteur poids w. On obtient alors une sequence de vecteurs poids w(t) obeissant a l'equation : (2. Cette mesure d'erreur.Chapitre 2 Premiere approche theorique de l'induction Comment apprendre un tel vecteur de poids? Le premier prerequis est de pouvoir mesurer la performance d'un perceptron avec un certain vecteur poids a l'instant t : w(t). connue sous le nom de critere du perceptron : 41 REmp(w) = . est n'est egale a zero que si tous les exemples d'apprentissage sont bien classes. Une autre mesure de performance liee a la precedente consiste a calculer un taux d'erreur en classi cation qui est une moyenne de l'erreur en classi cation rapportee au nombre m d'exemples d'apprentissage. utilisee avec un critere d'arr^t. Ce document est la propriété exclusive de nona nina (ninasbalka@gmail. Il s'agit donc d'une fonction continue et lineaire par morceaux (et donc non derivable en un nombre de points egal au nombre d'exemples mal classes).

.um ) Apprenant : h(x. (x 2.. 2... 2. l'apprenant recoit d'une part un echantillon de donnees fx1 ::: xi ::: xm g compose d'objets ou de formes xi 2 X .. Pour simpli er. l'apprenant recoit d'autre part une etiquette ou supervision ui produite suivant une dependance fonctionnelle entre X et U .u2).2 Approche de l'induction Quels sont les facteurs qui entrent en jeu dans l'apprentissage et determinent le resultat nal? Comment de nir un cadre formel permettant de poser le probleme de l'induction et d'analyser les methodes d'induction? Cette section pose les bases d'une etude plus formelle de l'induction.d. ym Fig.i.. y1. Suivant le scenario schematise dans la gure 2.2. sous la forme d'un bruit.1 Le compromis biais-variance Le compromis biais-variance exprime l'e et de di erents facteurs possibles sur l'erreur nale entre l'hypothese choisie par l'apprenant et celle qu'il aurait d^ choisir. L'apprenant cherche a trouver une fonction hypothese h. et en n. modi cation de la regle de decision.. Nous notons S = fz 1 = (x1 u1 ) ::: z m = (xm um )g l'echantillon d'apprentissage constitue ici d'exemples supervises (ou bien Sm lorsqu'il sera necessaire de preciser leur nombre). 2. x m ..27 Octobre 2009 à 09:30 aleatoirement suivant une distribution xe. c'est-a-dire d'un ecart mesurable entre l'etiquette proposee et la veritable etiquette selon f . C'est ce que l'on appelle l'hypothese de tirages independants et identiquement distribues (i. ou X est l'espace de representation des entrees. . y2 .. aussi (( proche )) que possible de f .u1). Nous preciserons plus tard la notion de proximite utilisee pour evaluer la distance de f a h. et pour des raisons de simplicite de modelisation et d'analyse mathematique.5 illustre les di erentes sources d'erreur entre la fonction cible f et la fonction . la fonction cible ideale. x m Environnement X : distribution de prob . la fonction cible. La gure 2. on supposera que ces objets sont tires aleatoirement et independamment les uns des autres suivant une distribution de probabilites DX . α) x1. u Nous en donnons ici une description qualitative visant a introduire et a illustrer un certain nombre de concepts utiles pour tout ce chapitre. x 2. . quel type de garantie de convergence on peut chercher sur une procedure d'apprentissage. .. Attachee a chacune de ces formes xi .com) . dans l'espace des fonctions H.. Nous n'y perdrons pas en generalite si nous supposons egalement qu'il peut y avoir des informations d'etiquetage erronees.4.4 { Le scenario fondamental de l'induction a partir d'un echantillon de donnees tire Ce document est la propriété exclusive de nona nina (ninasbalka@gmail. DX "Oracle" S m = (x 1. En l'absence d'information supplementaire sur leur provenance. Nous allons maintenant reexaminer tous ces points d'une maniere plus generale. nous supposerons que la dependance fonctionnelle entre une entree xi et son etiquette ui prend la forme d'une fonction f appartenant a une famille de fonctions F .42 Premiere Partie : Les Fondements de l'Apprentissage x1. (xm.. : independently and identically distributed). x 2.

De ce fait. intervient le bruit sur l'etiquetage : a cause d'erreurs de transmission. l'apprenant ne fournit en general pas h? . On peut montrer formellement qu'elle est ^ une variance liee a la sensibilite du calcul de l'hypothese h en fonction de l'echantillon S . Il s'agit la d'une erreur intrinseque qui complique generalement la recherche de l'hypothese optimale h? . Plus l'espace d'hypotheses H est riche et plus.27 Octobre 2009 à 09:30 H {hS}S h × h* × Erreur d'approximation (Biais) F Erreur totale × f Erreur intrinsèque × fb = f + bruit Fig. qui depend des particularitees de S . l'apprenant recoit un e echantillon de donnees relatif a la fonction bruitee fb = f + bruit.Chapitre 2 Premiere approche theorique de l'induction hypothese h. l'etiquette ui associee a xi peut ^tre inexacte vis-a-vis de f . La premiere source d'erreur provient du fait suivant : rien ne permet a priori d'assurer l'egalite entre l'espace des fonctions cible F de la Nature et l'espace des fonctions hypothese H realisables par l'apprenant. est l'erreur d'estimation. mais generalement au prix d'une plus grande erreur d'approximation. . Nous appelons erreur totale l'erreur resultant de la conjonction de ces di erentes erreurs entre f et h. Ensuite. comme H0 . on peut reduire la variance. h? est forcement prise dans H et peut donc ^tre di erente de la fonction cible f . En fonction de ^ cet echantillon. l'hypothese optimale dans H.com) . De ce fait. 4. Erreur d'estimation (Variance) 43 Ce document est la propriété exclusive de nona nina (ninasbalka@gmail. m^me si l'apprenant fournit une hypothese h? e optimale (au sens de la mesure de la proximite evoquee plus haut). Nous reviendrons souvent sur la notion de biais en apprentissage arti ciel. La distance entre h? et l'hypothese estimee h. mais ^ calcule une hypothese h sur la base de l'echantillon d'apprentissage S . 2. Avec un espace d'hypotheses plus restreint. l'hypothese h apprise pourra varier a l'interieur d'un ensemble de fonc^ gS pour souligner la dependance de chacun de ses elements sur tions que nous noterons fh ^ l'echantillon aleatoire S . cette variance est importante. Elle est de fait plus generale que le biais inductif qui exprime les limites de l'espace des hypotheses a decrire le monde represente dans X . Finalement. en general. Il s'agit la d'une erreur e d'approximation souvent appelee biais inductif (ou simplement biais 4 ) due a la di erence entre F et H. Detaillons-les.5 { Les di erents types d'erreurs intervenant dans l'estimation d'une fonction cible a partir d'un echantillon d'apprentissage.

disons cent. revenons sur l'exemple du paragraphe 2. Malheureusement. Soit alors le probleme suivant : les (( objets )) decrits sont des ^tres humains et l'espace de representation est constitue d'un seul attribut : la taille. leur taille. puisqu'on joue sur une somme de termes qui varient ensemble en sens contraire. et l'apprentissage consiste a le determiner a partir des exemples. car il est imaginable Exemple 3 (Exemple de compromis biais-variance) .44 Premiere Partie : Les Fondements de l'Apprentissage P(femme|taille) P(homme|taille) s Ce document est la propriété exclusive de nona nina (ninasbalka@gmail.com) .1. On peut chercher a determiner si un individu donne appartient a l'une des classes ou a l'autre en comparant la taille mesuree a un seuil s determine experimentalement a l'aide d'un echantillon de personnes des deux sexes. c'est-a-dire contenant seulement des fonctions e proches de la fonction cible. e Le compromis biais-variance devrait donc plut^t s'appeler compromis erreur d'approximao tion/erreur d'estimation.2.27 Octobre 2009 à 09:30 Taille Fig. qui est la somme de l'erreur d'approximation et de l'erreur d'estimation. peut ^tre rendue pratiquement nulle : m^me en prenant des echantillons di erents tires aleatoirement e e dans une population donnee. on mesure sa taille et on la compare au seuil s. mais en m^me temps bien informe.6 { Soient les deux courbes de probabilite des femmes et des hom mes en fonction de la taille. A titre d'illustration. Mais l'important est qu'il s'agit bien de faire un compromis. Le probleme e d'apprentissage consiste a discriminer les hommes des femmes. ce qui reviendrait evidemment a disposer d'une connaissance a priori sur la Nature. le compromis biais-variance se de nit de la facon suivante : pour reduire le biais d^ a la mauvaise adequation de H par rapport a F . ou erreur d'estimation. etc. la longueur de leur cheveux. cet enrichissement de H va generalement de pair avec une augmentation de la variance. sur chacun des individus exemples : par exemple. c'est-a-dire de l'erreur de la recherche de l'element optimal dans H. la variance. ou erreur intrinseque. la taille. Dans ce cas. Cela signi e que la decision prise sur le seul critere d'un seuil s sur la taille fera de nombreuses erreurs. En revanche. L'espace H des hypotheses possibles y est celui des hyperplans. la couleur de leur peau. Supposons maintenant qu'au lieu de mesurer seulement la taille. Le biais sera baisse. on prenne des dizaines de mesures. voire nul. il faut accro^tre u la richesse de H. ne peut qu'aggraver les choses en augmentant. En revanche le bruit. Pour savoir si un individu est un homme ou une femme. De ce fait. 2. ou erreur d'approximation. est ici important puisque l'espace des fonctions choisi est pauvre et ne permet pas une discrimination parfaite entre hommes et femmes. Le biais. Etant donnees ces circonstances. les courbes P (femmejtaille) et P (hommejtaille) seront stables et par consequent le seuil s calcule sera de variance faible. un hyperplan se reduit a un seuil s sur le seul attribut disponible. L'ideal serait d'avoir un bruit nul (mais comment s'en assurer?) et d'avoir un espace d'hypotheses H restreint pour reduire la variance. l'erreur totale. ne peut ^tre signi cativement diminuee.

7 dans laquelle l'erreur totale est tracee comme la somme du biais 6 et de la variance. En realite.d. Au fur et a mesure que l'on diminue la richesse de H le biais augmente et la variance diminue. En reconnaissance des formes. 2. Le compromis biais-variance peut s'illustrer par la gure 2. e pour le m^me nombre m d'exemples.6 decrivant les grands principes inductifs servant de base aux algorithmes d'apprentissage. qui. nous en donnons maintenant une expression plus formelle. On aura e donc cette fois une forte variance sur les hypotheses produites a partir de di erents echantillons d'apprentissage.7 { Il est possible d'essayer de diminuer l'erreur totale accessible en reglant la richesse de l'espace d'hypotheses H. ce probleme est connu sous le nom de la malediction de la dimensionnalite (curse of dimensionnality) 6. on emploie generalement le carre du biais. de ne pas trouver le meilleur hyperplan (erreur d'estimation). la precision des estimations sera tres douteuse.com) . On voit la une indication de ce qu'il est possible de chercher a faire pour ameliorer l'apprentissage. 2. . pour des raisons d'homogeneite mathematique. Une autre illustration du m^me probleme est que. En revanche. Un probleme d'apprentissage est de ni par les composantes suivantes : 1. Nous verrons des realisations de cette idee dans la section 2.27 Octobre 2009 à 09:30 Variance "Richesse" de H décroissante Fig. D'abord un ensemble de trois acteurs : L'environnement : il est suppose stationnaire et il engendre des formes xi tirees independamment et de maniere identiquement distibuees (echantillon i.i.2. L'erreur totale atteint en general un minimum pour un certain reglage du biais. Un oracle ou superviseur ou professeur ou Nature.2 Comment de nir formellement le probleme de l'induction? Apres avoir ainsi fourni les elements pour une comprehension intuitive du probleme. qu'il existe un hyperplan discriminant les hommes des femmes dans un espace de representation d'une telle richesse.) suivant une distribution DX sur l'espace d'entree X . sur la base d'un echantillon de donnees forcement limite. pour chaque forme xi retourne 5. il est beaucoup plus di cile d'estimer cent parametres qu'un seul 5 : on risque donc.Chapitre 2 Premiere approche theorique de l'induction Erreur Ereur totale (Biais)2 Minimum de l'erreur totale 45 Ce document est la propriété exclusive de nona nina (ninasbalka@gmail.

Le principe inductif prescrit quelle hypothese on devrait choisir pour minimiser le risque reel sur la base de l'observation d'un echantillon d'apprentissage. Ainsi. d'autres criteres. il faut utiliser l'echantillon d'apprentissage pour les estimer. telle que la sortie produite par l'apprenant veri e : yi = h(xi ) pour h 2 H. Cette dependance peut ^tre exprimee par une e densite de probabilite conjointe de nie sur X U qui est inconnue. un principe inductif qui prescrit ce que doit veri er la fonction h recherchee. Ainsi.46 Premiere Partie : Les Fondements de l'Apprentissage Ce document est la propriété exclusive de nona nina (ninasbalka@gmail. il y a de nombreuses methodes d'apprentissage qui resultent de choix di erents pour regler les problemes computationnels qui ne sont pas du ressort du principe inductif. on mesure une perte ou co^t (loss en anglais) l(ui h(xi )) evaluant le co^t u u d'avoir pris la decision yi = h(xi ) quand la reponse desiree etait ui . eventuellement.2. de la fonction de perte et.27 Octobre 2009 à 09:30 une reponse desiree ou etiquette ui en accord avec une distribution de probabilite conditionnelle F (ujx) inconnue. la t^che d'apprentissage : l'apprenant cherche dans l'espace H une fonction h qui a approxime au mieux la reponse desiree de l'oracle. Il faut le distinguer de la methode d'apprentissage (ou algorithme) qui decrit une realisation e ective du principe inductif. par exemple. elle ne depend pas de la fonction de perte choisie (voir annexe 18. la methode d'apprentissage cherchera par une methode de gradient. il s'agit de trouver une hypothese h proche de f au sens de la fonction de perte. sans perte de generalite. ce co^t toujours positif ou nul).1 pour les principales fonctions de perte). Or il n'y a pas de principe inductif Z =X U 2. Par exemple. en satisfaisant certaines contraintes de realisabilite comme des ressources computationnelles. Elle a le merite de distinguer les principaux ingredients d'un probleme d'apprentissage qui sont souvent melanges dans les descriptions de realisations pratiques.6) Il s'agit d'une mesure statistique qui est fonction de la dependance fonctionnelle F (x u) entre les entrees x et les sorties desirees u. en fonction a la fois de la notion de proximite evoquee ci-dessus et de l'echantillon d'apprentissage observe S = f(x1 u1 ) (x2 u2 ) ::: (xm um )g. Pour un principe inductif donne. Ensuite. pour chaque entree xi et reponse de l'oracle ui . et ce particulierement dans les regions de l'espace des entrees X frequemment rencontrees. Dans le cas de l'induction. Il s'agit d'un objectif ideal. ou risque reel est u u alors : Z RReel (h) = l(ui h(xi))dF (x u) (2. dans le but de minimiser le risque reel. Finalement.3 Quel principe inductif adopter? Une introduction . L'esperance de co^t. ou une hypothese suboptimale s'il y a lieu. Comme on ne conna^t pas a priori ces regions. Un apprenant A capable de realiser une fonction (non necessairement deterministe) prise dans un espace de fonctions H. l'optimum de ni par le principe inductif.com) . 3. o La de nition donnee ci-dessus est tres generale : en particulier. La methode d'apprentissage doit alors speci er comment chercher e ectivement cette hypothese. sub-optimale mais facilement contr^lable. 2. (On supposera. Le principe inductif dicte ce que doit veri er la meilleure hypothese en fonction de l'echantillon d'apprentissage. et le probleme de l'induction est donc de chercher a minimiser le risque reel inconnu a partir de l'observation de l'echantillon d'apprentissage S . En d'autres termes. le principe inductif peut prescrire qu'il faut choisir l'hypothese la plus simple compatible avec l'echantillon d'apprentissage. la distance entre la fonction hypothese h et la reponse de l'oracle est de nie par l'esperance de perte sur les situations possibles dans Z = X U .

a partir des donnees. on cherche une hypothese coherente avec les exemples. C'est pourquoi. Le risque empirique est la perte moyenne mesuree sur l'echantillon d'apprentissage S : m 1 X l(u h(x )) Remp(h) = m i i i=1 47 (2. est une hypothese qui decrit correctement le monde en general. Dans ces deux cas. Nous en decrivons les principales de maniere qualitative ici avant de les reexaminer plus formellement dans la suite de ce chapitre ainsi que dans le chapitre 17. soit choisir l'hypothese la plus probable a posteriori (principe du maximum de vraisemblance) ou Maximum A Posteriori (MAP). apres la nouvelle du premier impact sur l'une des Twin Towers.Chapitre 2 Premiere approche theorique de l'induction unique ou ideal. le principe utilise en intelligence arti cielle depuis l'origine. Comment extraire. Apres le second impact sur l'autre tour. Il sera alors possible d'a ner le principe de minimisation du risque empirique en choisissant parmi les hypotheses optimales. alors maire de New-York. la probabilite d'un avion percutant accidentellement un gratte-ciel etait jugee tres faible a priori.27 Octobre 2009 à 09:30 2.7) Ce document est la propriété exclusive de nona nina (ninasbalka@gmail. Le principe de minimisation du risque empirique a ete. lorsque Rudolph Giuliani. On peut alors. Pour prendre un exemple dramatique tire de l'actualite de l'annee 2001. tant dans le connexionnisme que dans l'apprentissage symbolique. 1. . L'idee est d'eliminer les redondances presentes dans les donnees a n L'idee sous-jacente a ce principe est que l'hypothese qui s'accorde le mieux aux donnees. L'echantillon d'apprentissage est alors considere comme une information modi ant la distribution de probabilite sur H (voir la gure 2. Nous examinerons plus loin (chapitre 4) le cas ou il existe une relation d'ordre de generalite entre les hypotheses. c'est-a-dire de risque empirique nul. L'idee est ici qu'il est possible de de nir une distribution de probabilite sur l'espace des fonctions hypothese et que la connaissance du domaine prealable a l'apprentissage peut en particulier s'exprimer sous la forme d'une distribution de probabilite a priori sur les hypotheses. C'est le principe de decision bayesienne. soit l'une des plus generales. Deux exemples su saient ici a modi er de maniere considerable les probabilites a priori sur l'espace des hypotheses. en supposant que celles-ci soient representatives. l'hypothese d'un accident devenait negligeable devant celle d'un acte delibere. soit l'une des plus speci ques. Nous appellerons ce precepte : principe de compression d'information. souvent implicitement. Quoi de plus naturel en e et que de considerer qu'une regularite observee sur les donnees connues sera encore veri ee par le phenomene qui a produit ces donnees? C'est par exemple le principe directeur de l'algorithme du perceptron comme de celui du systeme Arch. Le choix de l'hypothese minimisant le risque empirique (Empirical Risk Minimization en anglais ou principe ERM) .com) . Il s'agissait alors de l'hypothese la plus probable pour expliquer la collision.8). s'est reveille le matin du 11 septembre 2001. et plus encore celle d'un avion en percurtant un intentionnellement. Le choix d'une hypothese qui comprime au mieux les informations contenues dans l'echantillon d'apprentissage. Le choix de l'hypothese la plus probable etant donne l'echantillon d'apprentissage. le maire s'est-il demande comment un avion avait-il pu s'egarer hors des couloirs aeriens. une regularite qui ait des chances d'avoir une pertinence pour l'avenir? Un certain nombre de reponses (( raisonnables )) ont ete proposees. soit adopter une hypothese composite resultant de la moyenne des hypotheses ponderee par leur probabilite a posteriori (vraie approche bayesienne). 3.

Il faut noter que ces principes inductifs qui servent de cadres (parfois implicites) aux travaux sur l'apprentissage arti ciel. comme un probleme d'optimisation : chercher la meilleure hypothese au sens de la minimisation de l'esperance de risque sur la base d'un echantillon d'apprentissage. ou bien s^r les fonctions cibles. ne sont pas incompatibles entre eux. C'est pourquoi nous en avons fait une description succincte ci-dessus.2. ou bien sur l'oracle. d'extraire les regularites sous-jacentes permettant la description economique du monde. ou encore sur l'espace des u fonctions hypotheses. Cette analyse requiert des hypotheses supplementaires qui correspondent a des options sur ce qui est attendu du systeme d'apprentissage.com) . Nous voulons maintenant etudier sous quelles conditions la resolution d'un tel probleme est possible. 2. m^me s'ils relevent de e philosophies et. Nous voulons aussi avoir des outils permettant de juger de la performance d'un principe inductif ou d'un algorithme d'apprentissage. Plus precisement. c'est-adire sur le risque reel? Plus precisement encore.4 Comment analyser l'apprentissage? Nous avons decrit l'apprentissage. comment la performance en generalisation depend-elle de l'information contenue dans l'echantillon d'apprentissage.? Quelle performance maximale est possible pour un probleme d'apprentissage donne? Quel est le meilleur apprenant pour un probleme d'apprentissage donne? Repondre a ces questions implique des choix qui dependent en partie du type de principe inductif utilise. Il est sous-entendu que les regularites decouvertes dans les donnees sont valides au-dela des donnees et s'appliquent au monde en general. etc.27 Octobre 2009 à 09:30 H est suppose muni d'une densite de probabilites a priori. souvent. du moins l'apprentissage inductif. ou bien de sa taille. de communautes scienti ques di erentes. un probleme d'apprentissage depend de l'environnement qui soumet des formes d'apprentissage xi suivant une certaine distribution inconnue DX . 2. La question est de savoir si ces idees intuitivement seduisantes permettent d'apprendre effectivement.48 Premiere Partie : Les Fondements de l'Apprentissage H Fig. Comment joue l'echantillon d'apprentissage sur la performance en generalisation. de l'oracle qui choisit une fonction . L'apprentissage consiste a modi er cette densite en fonction des exemples d'apprentissage. nous aimerions obtenir des reponses a un certain nombre de questions (( na ves )) : L'application du principe inductif selectionne conduit-elle a minimiser e ectivement le risque reel? Faut-il pour cela veri er certaines conditions ? Par exemple sur l'echantillon d'apprentissage.8 { L'espace des hypotheses Ce document est la propriété exclusive de nona nina (ninasbalka@gmail. Ainsi.

Malheureusement. lorsque l'environnement et l'oracle sont bienveillants et veulent aider l'apprenant. Dans ce cas. L'avantage de ce point de vue est que les garanties de performances eventuelles seront independantes de l'environnement (le risque reel etant calcule quelle que soit la distribution des evenements) et de l'oracle ou de la Nature (c'est-a-dire quelle que soit la fonction cible). celle d'un professeur par exemple. n'a pas encore de cadre bien etabli. et son analyse conduit a des principes conceptuels tres generaux. au prix cependant de devoir faire des hypotheses a priori sur les etats du monde. les conditions identi ees pour obtenir de telles garanties seront tellement fortes qu'elles seront souvent tres eloignees des situations d'apprentissage reelles. 49 Ce document est la propriété exclusive de nona nina (ninasbalka@gmail. Finalement.Chapitre 2 Premiere approche theorique de l'induction cible f et de la fonction de perte choisie l. L'analyse qui en resulte est une analyse en cas moyen. quoique interessant. ce qui ne serait plus de l'apprentissage. et la collusion qui verrait alors l'oracle agir comme un complice et coder la fonction cible dans un code connu de l'apprenant. On peut au contraire vouloir mesurer une esperance de performance. C'est pourquoi ce type d'analyse. Trois postures en particulier sont possibles : 1. on pourrait chercher a caracteriser le cas le plus favorable.3 Analyse dans le pire cas : l'apprentissage PAC Dans cette section.27 Octobre 2009 à 09:30 2. que nous decrivons ici. Mais il est di cile de determiner la frontiere entre la bienveillance. . La performance d'un apprenant (qui depend du principe inductif choisi et de l'algorithme d'apprentissage le realisant) sera evaluee en fonction des choix de chacun de ces parametres. donc ni sur la distribution des formes d'apprentissage. par reference a la theorie des jeux. ni sur la dependance cible. et il faut generalement utiliser des methodes d'approximation qui enlevent une partie de l'inter^t d'une telle ape proche. il faut supposer qu'il existe une distribution DX sur les formes d'apprentissage. a egalement fait l'objet de nombreux travaux tres interessants. On parle aussi de cadre bayesien. il est souvent tres di cile d'obtenir analytiquement des conditions de garanties d'apprentissage reussi. En revanche. Cette analyse permet en principe une caracterisation plus ne de la performance. C'est l'analyse dans le pire cas. C'est en e et la regle la plus employee. mais aussi une distribution DF sur les fonctions cible possibles. mais une transmission illicite. mais l'on veut se premunir contre la pire des situations possibles. On cherche alors a caracteriser la performance de l'apprenant dans les pires situations envisageables.com) . 3. ce qui se traduit generalement par des bornes. comme si l'environnement et l'oracle etaient des adversaires. faisant intervenir des idees de physique statistique. Elle est cependant techniquement nettement plus di cile et est discutee dans le chapitre 17 portant sur des approfondissements theoriques de l'etude de l'apprentissage. On parle aussi de cadre d'analyse MinMax. nous nous concentrons sur l'analyse du principe inductif ERM qui prescrit de choisir une hypothese minimisant le risque empirique mesure sur l'echantillon d'apprentissage. 2. nous devons donc prendre position sur la source de ces parametres. Lorsque nous cherchons a determiner la performance attendue d'un apprenant. On suppose que l'on ne conna^t rien a priori sur l'environnement. Une analyse en cas moyen. Le principe ERM a d'abord fait l'objet d'une analyse dans le pire cas.

Formellement. C'est pourquoi aussi. la probabilite que cela arrive est faible. RReel (hS ). l'echantillon d'apprentissage peut conduire.com) . RReel (h? ) ^ optimale h 2. sur la base d'un tel echantillon. lorsque l'on ^ etudie la di erence RReel (h? ) .3. ^ Nous noterons hS cette hypothese optimale pour le risque empirique mesure sur l'echantillon S : ^ hS = ArgMin REmp (h) (2. et ceci dans la grande majorite des situations qui peuvent se presenter. La di erence (forcement positive ou nulle) entre le risque reel de l'hypothese selec^ tionnee a partir de l'echantillon d'apprentissage hS et le risque reel de l'hypothese ? : RReel (hS ) . Le principe de minimisation du risque empirique est un principe inductif valide si.10) La gure 2. via le principe ERM. c'est-a-dire pour la majorite des echantillons d'apprentissage tires aleatoirement suivant la distribution DX . De maniere plus formelle. . Reprenons donc la question de la correlation entre risque empirique et risque reel. il faut prendre en compte la probabilite de l'echantillon d'apprentissage etant donnee une certaine fonction cible. parie que la piece est truquee.8) Ce document est la propriété exclusive de nona nina (ninasbalka@gmail. le risque reel qui en resulte est garanti d'^tre proche e du risque reel optimal obtenu avec l'hypothese optimale h? . Si celle-ci est mauvaise. La probabilite que cette di erence soit superieure a une borne donnee ". il n'est pas impossible qu'avec une piece non truquee on tire cent fois (( pile )). Nous cherchons a determiner sous quelles conditions la probabilite que l'on choisisse une mauvaise hypothese (dont le risque reel est superieur au risque reel optimal de plus de ") est bornee par .27 Octobre 2009 à 09:30 Le probleme est que l'on ne conna^t pas le risque reel attache a chaque hypothese h.50 Premiere Partie : Les Fondements de l'Apprentissage 2. on cherche sous quelles conditions il serait possible d'assurer : ^ 8 0 " 1 : P (jRReel (hS ) . Cette correlation va faire intervenir deux aspects : 1. la correlation entre le risque empirique mesure et le risque reel depend de la representativite de cet echantillon. lorsque l'on choisit l'hy^ pothese hS qui minimise le risque empirique. Etant donne en e et que le risque empirique depend de l'echantillon d'apprentissage. Son analyse doit donc s'attacher a etudier la correlation entre les deux risques et plus particulierement la correlation entre le risque reel encouru avec l'hypothese selectionnee a l'aide ^ du principe ERM : REmp(hS ) et le risque reel optimal : RReel (h? ). On ne pourra alors reprocher a quelqu'un d'avoir. mais seulement dans les situations raisonnables e (echantillons d'apprentissage representatifs) qui sont les plus probables. L'idee naturelle est donc de selectionner une hypothese h dans H qui se comporte bien s^r les donnees u d'apprentissage S : c'est le principe inductif de la minimisation du risque empirique (ERM) .9) h2H Ce principe inductif ne sera pertinent que si le risque empirique est correle avec le risque reel.1 Etude des conditions de validite de l'ERM Rappelons que l'apprentissage consiste a chercher une hypothese h telle qu'elle minimise l'esperance de perte pour l'apprenant. a choisir une mauvaise hypothese.9 illustre ce probleme. il s'agit de trouver une hypothese optimale h? minimisant le risque reel : h? = ArgMin RReel (h) h2H (2. Fort heureusement. Par exemple. On ne peut pas ^tre un bon apprenant a tous les coups. RReel (h? )j ") < (2.

le risque reel encouru soit a plus de " du risque reel optimal. La loi des grands nombres incite a vouloir assurer l'equation (2. suivant une distribution DX quelconque). Le terme d'apprenant consistant est aussi employe pour decrire un apprenant dont l'erreur reelle tend vers l'erreur optimale de Bayes lorque la taille de l'echantillon m tend vers l'in ni (voir DEV96]). ( Consistance ) est le terme generalement employe. Nous preferons introduire un nouveau terme. et.10) illustre la convergence souhaitee du risque empirique vers le risque reel.). la moyenne d'une variable aleatoire (e. l'equation (2.Chapitre 2 Premiere approche theorique de l'induction 51 Risque réel Erreur d'approximation Ce document est la propriété exclusive de nona nina (ninasbalka@gmail. Cela suggere naturellement une application de la loi des grands nombres selon laquelle.i.d. ^ On dit que le principe ERM est pertinent 7 si le risque reel inconnu RReel (hS ) et le risque ^ S ) convergent vers la m^me limite RReel (h? ) lorsque la taille m de l'echantillon empirique REmp (h e 7.com) . 2 H place On comprend bien que la correlation entre le risque empirique et le risque reel depend de l'echantillon d'apprentissage S .g.11) La courbe (2. sous des conditions tres generales. Dans le cas present. De nition 2.i.27 Octobre 2009 à 09:30 Risque empirique ^ hS h* H Fig. repris directement de l'anglais.1 (Pertinence du principe ERM) .10) est garantie : 80 " ^ 1 : 9 m tq: P (jRReel (h? ) . celui de pertinence qui traduit bien ce que l'on cherche : la validite du principe inductif ERM. RReel (hSm )j ") < (2. ce ( ) terme n'evoque rien en francais et fait un double emploi malheureux avec le terme d'apprenant (( consistant )) employe parfois pour decrire un apprenant qui cherche une hypothese dont les predictions sur tous les exemples de l'echantillon d'apprentissage sont en accord avec les reponses fournies par l'oracle. La courbe en pointilles indique le risque empirique associe a ces hypotheses pour un echantillon d'apprentissage S . de sa taille m. 2. Nous voudrions borner la probabilite que.d.9 { La courbe continue indique le risque reel associe a chaque hypothese h ici en abscisse. Le principe de minimisation du risque empirique (ERM) dicte de choisir l'hypothese minimisant ce risque empirique. ce faisant. puisque celui-ci est tire aleatoirement (tirage i.10) en faisant cro^tre la taille de l'echantillon d'apprentissage S vers 1 et a se demander a partir de quelle taille m d'un echantillon d'apprentissage tire aleatoirement (tirage i. REmp(h)) converge vers son esperance (ici RReel (h)) lorsque cro^t la taille m de l'echantillon.

alors ces courbes doivent converger vers la courbe de risque reel lorsque la taille m de l'echantillon d'apprentissage cro^t. Il faut bien voir que dans ce cas l'echantillon d'apprentissage ne joue plus uniquement le r^le d'un o ensemble de test. 2. dans laquelle doivent intervenir le nombre et la diversite des etudiants.com) . donc sans qu'il y ait correlation entre le risque empirique minimal et le risque reel minimal. on peut supposer que les notes obtenues par un etudiant lors d'examens repetes convergent vers sa vraie valeur sur la matiere testee.52 Premiere Partie : Les Fondements de l'Apprentissage Risque réel Risque empirique (fonction de S) Ce document est la propriété exclusive de nona nina (ninasbalka@gmail. Un autre exemple donne par les theoriciens est qu'on peut construire des espaces d'hypotheses H tels qu'il soit toujours possible de trouver une hypothese de risque empirique nul sans que cela indique une bonne performance generale.12) Dans ce cas en e et. tend vers 1 (voir la gure 2. c'est que le risque empirique d'une hypothese donnee h converge vers son ^ risque reel. En e et. independante de S . On ne peut donc plus prendre sans precaution la performance mesuree sur l'echantillon d'apprentissage comme representatrice de la performance reelle. prise dans H et qui minimise le risque empirique pour l'echantillon S . a un risque reel associe qui converge vers le risque reel optimal obtenu pour l'hypothese optimale h? . ^ . si on choisit dans la classe l'etudiant ayant obtenu la meilleure moyenne sur ces examens. Il se peut en e et que le vrai meilleur etudiant n'ait pas ete le meilleur sur les examens donnes.27 Octobre 2009 à 09:30 m m/2 m/3 m/4 hS ^ h* H Fig.! RReel (hS ) m!1 RReel(h? ) ^ . mais aussi d'un ensemble servant au choix de l'hypothese.10 { La courbe continue indique le risque reel associe a chaque hypothese h 2 H place ici en abscisse. Malheureusement. Mais ce que nous cherchons est di erent. ce que cette loi a rme.! REmp(hS ) m!1 RReel(h? ) (2. Si le principe inductif ERM est pertinent. il est justi e d'utiliser le principe inductif ERM pour choisir une hypothese a partir de l'observation d'un echantillon de donnees. Il s'agit ici d'une convergence plus complexe. Il su t pour cela d'imaginer une hypothese qui s'accorde a toutes les donnees d'apprentissage et qui tire au hasard l'etiquette des formes non . Nous voulons assurer que l'hypothese hSm . Les courbes en pointilles indiquent le risque empirique associe a ces hypotheses pour un echantillon d'apprentissage Sm . on n'est pas garantit d'avoir ainsi l'etudiant le plus performant reellement. Ainsi par exemple. Cependant.11). la loi des grands nombres n'est pas su sante pour notre etude.

focalises sur les t^ches d'apprentissage de concepts. C'est pourquoi il faut generaliser la loi des grands nombres.Chapitre 2 Premiere approche theorique de l'induction Risque 53 RRéel(hSm) RRéel(h*) REmp(hSm) m Ce document est la propriété exclusive de nona nina (ninasbalka@gmail. dans le cadre de l'induction. il arrive que pour de petits echantillons de donnees. elle n'a ete obtenue que recemment par Vapnik et Chervonenkis (1971. on supposait en e et implicitement que l'apprenant et l'oracle etaient tous les deux des ^tres humains et donc qu'ils partageaient le e m^me appareil cognitif. nous n'etudions dans ce chapitre que le cas de l'apprentissage de fonctions indicatrices (a valeur dans f0. Souvent. L'apprentissage peut alors ^tre considere comme un processus eliminatoire qui e ecarte toutes les hypotheses non coherentes avec l'echantillon d'apprentissage. Cette generalisation est aisee dans le cas d'un espace ni de fonctions hypotheses.2 Le cas de la discrimination: l'analyse PAC Dans la lignee des travaux en intelligence arti cielle symbolique (dont le systeme Arch est un prototype). il est donc toujours possible de trouver une hypothese de risque empirique nul. le risque reel optimal atteint pour l'hypothese h? n'est generalement pas egal a zero. pour le cas des espaces de dimension in nie. Dans le cas. vues. Au fur et a mesure que la taille m de l'echantillon cro^t.1g) prises dans un espace d'hypotheses ni.1989). Le cas general de fonctions hypothese quelconques est traite dans le chapitre 17. A cause du biais ou erreur d'approximation. Le risque em^ pirique est inferieur au risque reel puisque hSm est selectionnee pour minimiser le premier et non le second. le risque reel associe a l'hypothese ^ courante selectionnee hSm diminue et tend vers le risque optimal. que nous supposerons veri e ici. 2. L'apprenant etait alors vu comme cherchant a apprendre parfaitement le concept cible e du (( ma^tre )) qui lui etait par nature accessible. . et en choisit une parmi les restantes. ou l'echantillon d'apprentissage n'est pas bruite. c'est-a-dire de fonctions binaires a ou encore indicatrices sur l'espace X des exemples. 8.3.11 { Pertinence du principe ERM. les premiers pas en theorie de l'apprenabilite ont ete inities par Valiant (1984). on trouve une hypothese dans H dont le risque empirique est nul. Dans le contexte des sciences cognitives privilegie en Occident dans les annees quatre-vingt. Cela devient generalement impossible lorsque la taille m de l'echantillon cro^t. c'est-a-dire que l'apprenant pouvait apprendre parfaitement la fonction cible 8. Cette hypothese repond donc (( 1 )) sur tous les exemples positifs et (( 0 )) sur tous les exemples negatifs.27 Octobre 2009 à 09:30 Fig. 2. C'est ce que nous avons appele une hypothese coherente avec l'echantillon d'apprentissage. Pour des raisons pedagogiques. Il etait de plus suppose que la fonction cible f appartenait a l'espace des hypotheses H.com) .

Nous supposons une fonction cible f xee. que jHj(1 . la probabilite que l'une d'entre elles (( survive )) apres l'observation de S est bornee par : jHj(1 . Attention !! M^me si ce que nous allons dire dans cette section peut se generaliser a d'autres fonctions de perte.15) m 1 ln jHj ^ pour que l'erreur commise en choisissant l'hypothese hS minimisant le risque empirique soit bornee par " avec une probabilite > 1 .1 Le cas ou jHj est ni Ce document est la propriété exclusive de nona nina (ninasbalka@gmail. D'abord que la cardinalite de H. La e proximite de l'hypothese choisie avec la fonction cible depend donc de cet echantillon. suivant la distribution DX de m exemples.3. la probabilite de (( survie )) de herr vaut donc (1 . Nous cherchons alors a borner l'erreur commise lorsque. on choisit une hypothese coherente avec les donnees d'apprentissage. Nous supposons ici que la fonction de perte l compte le nombre d'erreurs de classi cation 9.12). ainsi que la distribution DX des exemples dans X . On sait. Apres l'observation d'un echantillon i. Il est deja apparent que le choix d'un ensemble H trop riche peut conduire a de mauvaises inductions.54 Premiere Partie : Les Fondements de l'Apprentissage Rien ne garantit que l'hypothese ainsi obtenue soit exactement la fonction cible : plusieurs hypotheses peuvent en e et ^tre de risque empirique nul sur l'echantillon d'apprentissage. On retiendra de cette demonstration trois idees : 1. le risque reel est egal a la probabilite qu'un exemple tombe dans la zone d'erreur entre la fonction cible f et la fonction hypothese erronee herr : herr f (le symbole denote la di erence symetrique entre deux ensembles. avec 0 " 1.1) : ( l(ui h(xi )) = 0 si ui = h(xi ) (2. et ne peut donc se transposer sans precautions a d'autres fonctions de perte.2. 2."m . Nous commencons par une analyse d'un cas simple dans lequel l'espace des fonctions cibles est ni.27 Octobre 2009 à 09:30 " .13) 1 si ui 6= h(xi ) Dans ce cas. il su t donc d'avoir un echantillon de taille m telle que : (2.d. par developpement limite. 9. en accord avec le principe ERM. En considerant maintenant l'ensemble H des hypotheses possibles. donc en un certain sens sa richesse. ". C'est pourquoi on a appele les travaux theoriques portant sur ce type d'apprentissage analyse PAC Ang88] pour apprentissage Probablement Approximativement Correct. (voir l'annexe 18. Voulant evaluer le principe ERM. ")m < jHje. nous cherchons quelle est la probabilite qu'une hypothese de risque empirique nul sur l'echantillon d'apprentissage soit en fait de risque reel superieur ou egal a ". Voir gure 2. ")m (on fait ici une sommation car on a a aire a une union d'evenements disjoints). RReel (herr ) = PDX (herr f ) (2. a un e et direct sur la borne d'erreur.i.com) .14) Posons par hypothese que l'ecart entre f et herr est superieur a une constante : "PDX (herr f ) > " La probabilite qu'apres l'observation d'un exemple on ne s'apercoive pas que herr est erronee est de 1 . . e le detail des demonstrations depend de cette hypothese. En reprenant l'inequation 2. ")m .11.

tout " et tout entier positif m. si l'ecart entre le risque empirique et le risque reel de n'importe ^ quelle hypothese h est borne par ".com) . RReel (hSm )j ") < 2 e. Nous verrons qu'une generalisation de ce raisonnement fait appel de m^me a un argument de convergence uniforme. REmp (h)j " < 2 jHj e. ce qui correspond au type de convergence associee au theoreme central limite. ^ Nous voulons borner l'erreur commise par l'apprenant lorsqu'il choisit l'hypothese hS 2 H. Hoe63a].1 Soit H un ensemble ni de fonctions indicatrices (de nies de X vers f0. Il faut retenir qu'en premiere approximation. donne la vitesse avec laquelle la (( queue )) de la distribution binomiale approche zero. Remarque Le cas ou la fonction cible f 62 H.13 montre pourquoi. s'appliquant en particulier a l'hypothese pour laquelle la convergence est la plus mauvaise. Elle s'applique a la convergence du risque empirique sur le risque reel pour une hypothese h: ^ P (jRReel (h? ) . 3. Finalement. dependant ? . La gure 2.17) 10.1g). tout " et tout entier positif m. P max jRReel (h) . alors l'ecart entre le risque reel associe a hS et le risque reel optimal ? est borne par 2". Cette observation est tres importante e car elle indique que l'analyse est de facto une analyse dans le pire cas.Chapitre 2 Premiere approche theorique de l'induction X herr Zone d'erreur 55 f Ce document est la propriété exclusive de nona nina (ninasbalka@gmail. Une generalisation de cette idee a ete utilisee dans le cas d'espaces de fonctions indicatrices de cardinalite in nie avec la notion de "-reseau ("-net) Hau92]. l'idee directrice de la demonstration consiste a borner la probabilite qu'une zone d'erreur de poids > " ne soit pas atteinte par un exemple de l'echantillon d'apprentissage 10 . . au lieu de l'hypothese optimale h la di erence entre le risque empirique et le risque reel de n'importe quelle hypothese est bornee. Alors : .16) pour toute distribution DX . En e et. Pour une hypothese donnee h 2 H.2"2 m h2H pour toute distribution DX . le raisonnement utilise dans la demonstration implique l'ensemble des fonctions hypothese de H.12 { La zone d'erreur dans le cas de l'apprentissage d'un concept ou fonction binaire de nie sur X . une forme particuliere de la loi des grands nombres. Pour cela. Cela se traduit par un theoreme: associe a h Theoreme 2. (2. 2.2"2 m (2. p la convergence de la frequence d'erreur sur la probabilite d'erreur est en 1= m.27 Octobre 2009 à 09:30 Fig. l'inegalite de Hoe ding Hoe56. 2. Ensuite. il su t de montrer que de l'echantillon d'apprentissage S .

" < REmp (h) < RReel (h) + " 1 ln 2jHj 1=2 2m ^ REmp (hS ) + " ^ REmp (h? ) + " Puisque par application du principe ERM : hS = ArgMin REmp (h) < (RReel (h? ) + ") + " = RReel (h? ) + 2 " h2H . 2. d'ou : ^ RReel (hS ) 8h 2 H : RReel (h) . En e et. l'erreur commise en choisissant l'hypothese hS de risque empirique minimal au lieu de l'hypothese optimale.18) ^ pour borner par " avec une probabilite > 1 . Nous avons la a nouveau un exemple d'un argument de convergence uniforme : il montre que le risque empirique converge vers le risque reel lorsque m tend vers 1.2"2 m h2H "2 et cela ne vaut pas plus que si : " Alors.27 Octobre 2009 à 09:30 hS ^ h* H Fig. Dans ce cas.com) . Cela resulte du fait que la probabilite d'une union d'evenements independants est inferieure ou egale a la somme de leurs probabilites. ce qui est le but recherche et assure la pertinence du principe ERM. le theoreme 2.1 a rme que : P (Max jRReel (h) . uniformement pour toutes les hypotheses de H.13 { Si chaque hypothese h 2 H a un risque empirique proche de son risque reel (a moins de "). Demonstration. il su t d'avoir un echantillon d'apprentissage Sm de taille : m 2 ln 2jHj (2. alors minimiser le risque empirique (en application du principe inductif ERM) minimisera approximativement aussi le risque reel (a au plus 2"). avec une probabilite 1 . Demonstration.56 Premiere Partie : Les Fondements de l'Apprentissage Risque réel 2ε ε Risque empirique Ce document est la propriété exclusive de nona nina (ninasbalka@gmail. REmp (h)j ") < 2 jHj e.

Chapitre 2 Premiere approche theorique de l'induction
2 ^ Donc, avec probabilite 1; : RReel (hS ) RReel (h? )+ m ln 2jHj 1=2 2 soit, en posant " = m ln 2jHj 1=2 :

57

m

"2 ln

2

2 jHj

(2.19)

Ce document est la propriété exclusive de nona nina (ninasbalka@gmail.com) - 27 Octobre 2009 à 09:30

On remarquera que cette borne inferieure sur l'echantillon d'apprentissage est bien moins bonne que la borne obtenue en (2.15) lorsque la fonction cible f est supposee appartenir a l'ensemble des fonctions hypotheses H : il y a maintenant un facteur "2 au denominateur au lieu d'un facteur ". Pourquoi? Une justi cation intuitive peut ^tre avancee. Dans le cas ou la fonction cible f 2 H, cela signi e que e la distribution des exemples sur X f0 1g, et la partition induite sur X , peuvent ^tre (( representees )) e par une fonction de H. Il s'agit donc d'un sous-ensemble des distributions possibles sur X f0 1g. De ^ ce fait, la variance sur les hypotheses hS qui minimisent le risque empirique en fonction de l'echantillon d'apprentissage S est reduite. Or moins de donnees sont necessaires pour approcher une variable aleatoire dont la variance est moindre. Nous aurons l'occasion de revenir sur cette di erence entre le cas parfaitement apprenable (erreur d'estimation nulle) et le cas apprenable par approximation. Retenons qu'il est remarquablement plus facile de chercher une bonne hypothese dans le cas apprenable. Il est tentant dans ces conditions de faire bon usage de cette remarque fondamentale.

Sans avoir rendu compte de l'analyse beaucoup plus complete de Vapnik (decrite dans le chapitre 17), nous pouvons retenir a ce stade que le principe inductif de minimisation du risque empirique ne peut ^tre applique sans precaution. Pour que la mesure du risque empirique soit e ^ correlee avec le risque reel, il faut que l'espace d'hypotheses H dans lequel on choisit h ait de bonnes proprietes. De maniere informelle, il faut que cet espace ne soit pas trop (( riche )) ou trop (( souple )), c'est-a-dire qu'on ne puisse pas y trouver des hypothses s'accordant a n'importe quel jeu de donnees. On retrouve naturellement une idee deja rencontree avec le compromis biais-variance. Cela signi e que le principe ERM doit ^tre modi e pour que la richesse de H soit e egalement prise en compte lorsque l'on recherche la meilleure hypothese. Toutes les techniques de contr^le de l'espace d'hypotheses visent a regler ce compromis. Nous les examinerons plus o loin.

2.4 Analyse dans un cas moyen : l'analyse bayesienne
Il est evidemment d'un inter^t essentiel pour l'etude du probleme de l'induction de savoir s'il e existe une maniere optimale d'utiliser l'information disponible dans l'echantillon d'apprentissage. Si tel etait le cas, cela fournirait une borne inferieure pour le risque reel qui ne pourrait ^tre e battue en moyenne par aucun algorithme d'apprentissage. La question deviendrait alors de savoir a combien de cet optimum un principe inductif peut s'approcher et s'il existe un algorithme d'apprentissage qui puisse e ectivement atteindre cette borne. Ces questions font l'objet de cette section. La regle de decision bayesienne y est en e et de nie comme etant la regle de decision optimale au sens ou elle minimise le risque reel en utilisant l'information disponible de maniere optimale. On peut objecter que, dans le cas de la classi cation par exemple, tout ce que l'echantillon d'apprentissage apporte comme information est que la fonction cible gure dans l'ensemble des fonctions coherentes avec les exemples d'apprentissage. Comment des lors depasser le principe ERM et speci er un apprenant optimal? Il est en e et necessaire de se donner des informations supplementaires sur la probabilite a priori des fonctions cible. Il sera alors possible de de nir une regle de decision minimisant l'esperance de risque. C'est ce que nous allons voir maintenant.

58

Premiere Partie : Les Fondements de l'Apprentissage

2.4.1 Nature de l'analyse bayesienne

Ce document est la propriété exclusive de nona nina (ninasbalka@gmail.com) - 27 Octobre 2009 à 09:30

L'analyse de l'induction dans le pire cas etudie les conditions sous lesquelles il existe de bonnes garanties, quanti ables, pour que quelle que soit la dependance cible dans la nature, quelle que soit la distribution des evenements mesurables, toute hypothese qui colle bien aux donnees d'apprentissage (en minimisant le risque empirique) soit e ectivement proche (au sens du risque reel) de la dependance cible. Il est clair que cette formulation du probleme de l'induction fait bien place a la question centrale du rapport entre ce qui a ete observe et le futur. L'analyse bayesienne se pose le probleme de l'induction dans des termes di erents. D'un certain c^te, il s'agit d'une question beaucoup plus pratique : etant donne que l'on m'a fourni un o echantillon de donnees, comment cela doit-il modi er mes croyances anterieures sur le monde ? Cette formulation introduit immediatement deux aspects : D'une part, quelle forme prend la connaissance ou ensemble de croyances sur le monde? D'autre part, quelle regle normative doit presider a la revision de la connaissance en presence de nouvelles donnees? Le reverend Thomas Bayes (1702-1761) a repondu a ces deux questions. Il propose d'une part que la connaissance sur le monde soit traduite par un ensemble d'hypotheses ( ni ou non), chacune d'entre elles etant a ectee d'une probabilite re etant le degre de croyance de l'apprenant dans l'hypothese en question. La connaissance sur le monde est ainsi exprimee sous la forme d'une distribution de probabilites sur un espace d'hypotheses. D'autre part, il donne une regle de revision permettant de modi er une distribution a priori, en une distribution a posteriori tenant compte des donnees d'apprentissage. En gros, cette regle dit que la probabilite a posteriori d'une hypothese est egale a sa probabilite a priori multipliee par la vraisemblance des donnees etant donnee l'hypothese. Plus formellement, la celebre regle de Bayes de revision des probabilites s'ecrit : ) m( (2.20) pH(hjS ) = pH (hP P(X )Sjh) X S ou nous denotons par pH la densite de probabilite de nie sur l'espace des hypotheses h 2 H, m par PX la mesure de probabilite des evenements sur X et par PX la mesure de probabilite d'un ensemble d'apprentissage S = ((x1 u1 ) (x2 u2 ) ::: (xm um )). Avec ces notations, pH (h) et pH (hjS ) denotent respectivement la densite de probabilite a priori de l'hypothese h 2 H et sa densite de probabilite a posteriori apres prise en compte des donnees S . PX (Sjh) est la probabilite conditionnelle de l'evenement S si l'on suppose vrai l'etat du monde correspondant a h. PX (S ) est la probabilite a priori de l'evenement S . On pourrait ainsi avoir :

PH (oiseau = canardjcouleur-aile = noir) = PH (oiseau = canard) pX (la couleur de l'aile est sombrejoiseau = canard) pX (la couleur de l'aile est sombre)
L'importance pratique de la regle de Bayes tient au fait qu'elle permet de reexprimer la probabilite a posteriori di cile a calculer, en termes de probabilites a priori et conditionnelles plus faciles a obtenir. Nous y reviendrons. On peut noter que la regle de Bayes est a la fois normative, dictant ce qui doit ^tre veri e e pour que l'induction, c'est-a-dire la revision des connaissances, soit correcte, et prescriptive, donnant une procedure a suivre pour ce faire. Cela n'est cependant pas su sant pour speci er quelle decision il faut prendre en presence de donnees d'apprentissage. C'est l'objet de la theorie bayesienne de la decision.

Chapitre 2 Premiere approche theorique de l'induction

59

2.4.2 Le risque bayesien et la decision optimale

Ce document est la propriété exclusive de nona nina (ninasbalka@gmail.com) - 27 Octobre 2009 à 09:30

Comme dans le cas du principe inductif ERM, le but de l'agent est de prendre une decision (par exemple : faire un diagnostic, reconna^tre un projet a soutenir, decider si le signal du sonar correspond a une mine entre deux eaux ou a un banc de poissons, etc.) minimisant l'esperance de risque. Nous de nissons une fonction de decision S : X ! H, ou H est ici vu comme un ensemble de decisions a prendre, cet ensemble n'etant pas forcement isomorphe a l'ensemble des etats possibles du monde. Par exemple, une decision peut ^tre une decision de rejet, c'est-a-dire de e ne pas prendre de decision parce que l'incertitude est trop forte et ne permet pas de se decider avec su sament de garantie pour une hypothese sur le monde plut^t qu'une autre. o Avant toute observation sur le monde, et en prenant seulement en compte les connaissances a priori, l'esperance de risque associee a une decision h peut s'ecrire :

R(h) =

X

f 2F

l(hjf ) pF (f )

(2.21)

ou pF (f ) denote la probabilite a priori que le monde soit dans l'etat f , tandis que l(hjf ) est le co^t ou perte encouru lorsque la decision h est prise alors que l'etat du monde est f . u On supposera ici tous les co^ts positifs ou nuls : l(hjf ) 0 8h 2 H 8f 2 F . En general, le u co^t d'une decision correcte est pris comme nul et celui d'une decision de rejet comme constant : u l(rejetjf ) = r 8f 2 F . Si tout co^t de decision incorrecte est equivalent, on aura alors la u fonction de co^t suivante : u

8 >0 < l(hjf ) = > 1 :r

si h = f (decision correcte) si h 6= f (decision incorrecte) si h = rejet (doute trop important)

(2.22)

Dans de nombreuses applications cependant, le co^t de decision incorrect depend a la fois de la u decision h et de l'etat du monde f et n'est pas de surcro^t symetrique. Par exemple, le co^t de ne u pas diagnostiquer a tort une tumeur est souvent bien plus eleve que de faire un faux diagnostic positif. Dans le cas de l'equation 2.21, la decision optimale h? a prendre est evidemment celle correspondant au risque minimal.
On appelle regle de decision bayesienne la regle de choix de l'hypothese minimisant l'esperance de risque.

De nition 2.2 (Regle de decision bayesienne)

h? = ArgMin R(h) = ArgMin l(hjf ) pF (f )
h2H h2H

(2.23)

En tenant compte du co^t de la decision de rejet, cette regle de decision devient : u

h? = ArgMinh2H l(hjf ) pF (f ) si minh2H R(h) < r rejet sinon

(

(2.24)

Evidemment, elle ne presente guere d'inter^t en l'absence de mesures ou nouvelles donnees e dont l'agent peut disposer sur le monde (tant que je n'ai pas un texte sous les yeux et des formes a interpreter comme etant des lettres, je dois faire le pari que j'ai a aire a des 'E', puisque c'est

60

Premiere Partie : Les Fondements de l'Apprentissage

la lettre la plus probable en francais). Lorsque que de nouvelles donnees S sont disponibles, il faut utiliser la formule de Bayes de revision des probabilites pour obtenir la regle bayesienne de decision optimale. L'esperance de risque attachee a l'hypothese h etant donnee l'observation S est :

R(hjS ) =
ou bien :

Z

f 2F

l(hjf ) pF (f jS )

(2.25)

R(hjS ) =
Ce document est la propriété exclusive de nona nina (ninasbalka@gmail.com) - 27 Octobre 2009 à 09:30

X
f 2F

l(hjf ) PF (f jS )

dans le cas d'un nombre ni de decisions f possibles, et la regle de decision bayesienne de risque minimal stipule de choisir l'hypothese h qui minimise ce risque :

h? =

ArgMin R(hjS ) = ArgMin
h2H

Z

= ArgMin
h2H

Z

h2H

f 2F

l(hjf )

f 2F pF (f ) pm (Sjf ) X pm (S )

l(hjf )pF (f jS )

(2.26)

X

Comme pX (S ) est un terme independant de l'hypothese consideree, il n'intervient que comme un facteur de normalisation et n'in uence pas la decision. On obtient alors :
La regle de decision bayesienne minimisant l'esperance de risque est :

De nition 2.3 (Regle de decision bayesienne de risque minimal)
h? =
ArgMin
h2H

Z

f 2F

l(hjf ) pF (f ) pm(Sjf ) X

(2.27)

Le risque associe a l'hypothese optimale h? est appele risque de Bayes. Il represente le risque minimal atteignable si l'on conna^t la distribution de probabilite a priori sur les etats du monde F ainsi que les probabilites conditionnelles pX (Sjf ).

De nition 2.4 (Risque de Bayes)

En tenant compte de la possibilite de rejet, la regle de decision devient :

h? =

(

ArgMinh2H f 2F l(hjf ) pF (f ) pm (Sjf ) si minh2H R(h) < r X rejet sinon

R

(2.28)

A n d'illustrer l'analyse bayesienne, nous etudions deux cas simples dans la suite, qui correspondent aussi a des regles de decision tres classiques.

2.4.3 Cas particuliers de la decision bayesienne

2.4.3.1 Cas de co^t de classi cation incorrecte uniforme : la regle d'erreur miniu male
Lorsque le domaine est insu samment connu ou bien qu'il se pr^te a cette hypothese, on e suppose que les co^ts de classi cation incorrecte sont tous equivalents. Par exemple, dans le cas u

Chapitre 2 Premiere approche theorique de l'induction
de la reconnaissance de caracteres, on pourrait supposer que le co^t de prendre une lettre pour u une autre est le m^me, quelles ques soient les lettres en question. On a alors la fonction de co^t : e u

61

l(hjf ) = h? = ArgMin
h2H h2H
Ce document est la propriété exclusive de nona nina (ninasbalka@gmail.com) - 27 Octobre 2009 à 09:30

(

0 1

si h = hf (decision correcte) si h 6= f (decision incorrecte)

(2.29)

Dans ce cas, la regle de decision bayesienne devient :

X

= ArgMin l(hjhf ) pF (h) pX (xjh) + = ArgMin
h2H h2H

f 2H

l(hjhf ) pF (f ) pX (xjf )

X
h6=hf

l(hjhf ) pF (f ) pX (xjf )

X
hf 6=h

pF (f ) pX (xjf )

( car l(hjh) = 0 et l(hjhf ) = 1)

= ArgMin f1 ; pF (f ) pX (xjf )]g = ArgMax pF (f ) pX (xjf )
h2F

Lorsque les co^ts de mauvaise classi cation sont egaux, la regle de decision bayesienne de risque u minimal devient la regle de Maximum A Posteriori : (MAP). On cherche en e et l'hypothese h la plus probable etant donnee l'observation x, c'est-a-dire a posteriori. Cette regle s'appelle aussi la regle d'erreur minimale car elle minimise le nombre d'erreurs de classi cation.

De nition 2.5 (Regle de Maximum a posteriori (MAP))
h? = ArgMax pF (f ) pX (xjf ) h2F

(2.30)

De nition 2.6 (Le classi cateur bayesien na f ((( naive bayesian classi er )))) Si l'on suppose que les attributs de description fa1 ::: ad g de l'espace d'entree X sont independants les uns des autres, alors on peut decomposer pX (xjf ) en p(a1 = v1x jf ) : : : p(ad = vdx jf ) soit Qd p(a = v jf ). Le classi eur utilisant la regle du Maximum a posteriori base sur ces hyix i=1 i
potheses est appele classi eur bayesien na f.

Il faut noter que les attributs de description sont rarement independants les uns des autres (par exemple le poids et la taille). Pourtant le classi eur bayesien na f donne souvent des resultats proches de ceux obtenus par les meilleures methodes connues. Domingos et Pazzani, par exemple, dans DP97] etudient pourquoi.
Si de plus toutes les hypotheses ont la m^me probabilite a priori, alors la regle de Maximum e A Posteriori devient la regle du Maximum de Vraisemblance (Maximum Likelihood ou ML en anglais).

De nition 2.7 (Regle du maximum de vraisemblance)

h? = ArgMax pX (xjh)
h2H

(2.31)

62

Premiere Partie : Les Fondements de l'Apprentissage

X
ω2 ω1

Fig. 2.14 { Frontiere de decision dans l'espace des formes X .
Ce document est la propriété exclusive de nona nina (ninasbalka@gmail.com) - 27 Octobre 2009 à 09:30

Cette regle revient a selectionner l'hypothese h pour laquelle l'observation x est la plus probable, c'est-a-dire l'etat du monde qui est le plus a m^me d'avoir produit l'evenement x. Cela e traduit l'idee simple que l'observation x n'est pas totalement fortuite et etait m^me fortement e probable etant donne l'etat du monde h.

2.4.3.2 Cas de deux classes : la discrimination

Nous supposons maintenant que la t^che d'apprentissage consiste a discriminer les formes a observees x en deux classes : H = F = f!1 !2 g. Etant donnee l'observation x, les esperances de risque associees a chaque decision sont respectivement (en notant l(!i j!j ) = lij ) : R(!1) = l11 p(!1 jx) + l12 p(!2 jx) R(!2 ) = l21 p(!1 jx) + l22 p(!2 jx) La regle de decision de Bayes stipule de choisir l'hypothese d'esperance de risque minimal. Par exemple, il faut decider d'attribuer la forme x a la classe !1 si et seulement si : (l21 ; l11 ) p(!1 jx) (l12 ; l22 ) p(!2 jx) (2.32) soit encore en utilisant la formule de Bayes de revision des probabilites : (l21 ; l11 ) p(xj!1 ) p(!1 ) (l12 ; l22 ) p(xj!2 ) p(!2 ) d'ou, en passant par le logarithme du rapport : p(x ! ) 0 (2.33) d(x) = log p(xjj!1) + log (l21 ; l11 ) p(!1 ) (l12 ; l22 ) p(!2 ) 2 La regle de decision bayesienne se traduit ainsi par une fonction de decision d (ou fonction de discrimination) decrivant une frontiere ou surface de decision dans l'espace X , avec d'un c^te o les formes a attribuer a la classe !1 et de l'autre les formes a attribuer a la classe f2 (Voir la gure 2.14). Cette remarque est importante car elle suggere d'apprendre directement cette fonction de decision, et la frontiere correspondante, plut^t que d'apprendre les probabilites impliquees dans o la regle bayesienne de la decision (e.g. la regle (2.30)) qui sont generalement beaucoup plus di ciles a estimer. C'est la la base de toutes les methodes de classi cation par determination de surfaces de decision, dont par exemple une grande partie des methodes connexionnistes. On peut noter egalement que dans le cas particulier de la discrimination entre deux classes de distribution normale de moyennes 1 et 2 avec des matrices de covariance egales 1 = 2 = , la fonction de decision d(x) est une fonction lineaire : ;l ( d(x) = (x ; 2( 1 ) )> ;1 ( 1 ; 2 ) + ln (l21 ; l11 ) p(f1 ) (2.34) (l12 22 ) p f2 ) 1+ 2

Chapitre 2 Premiere approche theorique de l'induction

63

2.4.4 Panorama des methodes inductives dans le cadre bayesien
La theorie de la decision bayesienne fournit une prescription sur l'hypothese optimale au sens d'un certain risque de ni pour un echantillon d'apprentissage donne (a la di erence du cadre statistique de Vapnik qui veut se preparer a faire face a tout echantillon possible). Dans ce cadre, le calcul des probabilites a posteriori joue un r^le central comme le montrent les equations (2.30) o et (2.31) respectivement associees aux regles de decision par Maximum a posteriori (minimisant l'esperance de co^t) et de Maximum de Vraisemblance (minimisant la probabilite d'erreur). Il u s'agit donc de calculer la distribution pF (f ) sur les etats du monde { ce qui dans le cas de la classi cation se traduit par le calcul des probabilites de chaque classe {, et des distributions de probabilite d'appartenance conditionnelle pX (xjf ). On peut dire qu'une fois que l'on a de ni ces regles de decision, tout le reste de la theorie de l'inference bayesienne est dedie aux methodes d'estimation de ces probabilites a partir de donnees d'apprentissage. Trois familles de methodes ont ete etudiees pour resoudre ce probleme. Les methodes parametriques dans lesquelles on suppose a priori que les densites de probabilites recherchees ont une certaine forme fonctionnelle. Par exemple, on peut decider qu'il y a de bonnes raisons pour que les densites soient des gaussiennes dont il faut alors identi er la moyenne et la matrice de covariance. L'avantage de ces techniques est qu'elles permettent, gr^ce a cette connaissance a priori, d'obtenir des estimations precises avec peu a de donnees d'apprentissage. L'inconvenient est que la forme fonctionnelle choisie a priori peut se reveler inadaptee pour representer la vraie densite. Les methodes semi-parametriques cherchent a rel^cher les contraintes des methodes paa rametriques en s'autorisant une classe generale de formes fonctionnelles pour les densites. L'idee est cependant de pouvoir contr^ler cette plus grande exibilite en reglant o des parametres fonctionnels de maniere systematique en fonction des donnees et de la taille de l'echantillon d'apprentissage. On peut ainsi decider de s'interesser a des densites representees par un certain nombre de gaussiennes (melanges de distributions), ou bien choisir de representer ces densites par des reseaux de neurones dont on contr^le les o parametres comme le nombre de couches ou le nombre de neurones. Finalement, les methodes nonparametriques ne font plus aucune hypothese sur la forme des distributions recherchees, et permettent a celles-ci d'^tre entierement determinees par les e donnees. Ces methodes travaillent directement dans l'espace X des formes par de nition de voisinages ou par interpolation. Si on obtient ainsi une exibilite totale, c'est au prix d'un nombre de parametres de description qui augmente comme le nombre d'observations et peut rapidement devenir ingerable. Il faut donc prevoir des methodes de contr^le a o posteriori. Les techniques par noyaux ou par plus proches voisins sont parmi les plus representatives de cette famille de methodes. Nous detaillons davantage chacune de ces approches au chapitre 17 dans la section 17.2.3 et dans les chapitres concernes, en particulier le chapitre 14.

Ce document est la propriété exclusive de nona nina (ninasbalka@gmail.com) - 27 Octobre 2009 à 09:30

2.4.5 Et si l'espace des hypotheses ne contient pas la fonction cible?
L'approche bayesienne est souvent decrite comme une approche dans laquelle l'espace des fonctions hypothese H, parfois realise par une famille de fonctions parametriques, contient la fonction cible. Ce n'est evidemment pas necessairement le cas. Que peut-on dire alors si l'on force l'apprentissage dans H, une famille parametree de fonctions? On suppose toujours que l'echantillon de donnees S est issu d'un tirage i.i.d. (independant et identiquement distribue) suivant la densite inconnue p(x), et que l'on cherche a rendre compte

64

Premiere Partie : Les Fondements de l'Apprentissage

des donnees par le modele ph (x). L'estimation par maximum de vraisemblance fournit alors l'hypothese h? 2 H maximisant la fonction de vraisemblance (log-likelihood function) :

Lm (h) =

m X i=1

log ph(xi )

(2.35)

Ce document est la propriété exclusive de nona nina (ninasbalka@gmail.com) - 27 Octobre 2009 à 09:30

Une application de la loi des grands Rnombres montre que Lm (h)=m tend, quand m tend vers l'in ni, vers l'esperance de log ph (xi ) ( X p log ph dx), avec probabilite 1 (convergence presque s^re). u Pour de nombreuses familles de fonctions, cette expression a un maximum unique h? dont la densite associee ph? peut ^tre di erente de la vraie valeur p puisque nous avons suppose que e p n'appartient pas necessairement a H. Il est heureusement possible de dire qu'en un sens, la densite ph? est la plus (( proche )) de la vraie valeur p, dans la mesure ou elle minimise la distance de Kullback-Leibler (encore appelee divergence de Kullback-Leibler) : Z dKL (p ph ) = p(x) log pp((x)) dx (2.36) hx X Cette mesure n'est pas symetrique et n'est donc pas une distance au sens mathematique. Il s'agit plut^t d'une dissemblance (( dirigee )) de la vraie densite a la densite estimee, pour laquelle o ph? est la valeur la (( moins fausse )) possible. Si la vraie densite appartient a l'espace H, alors p(x) = ph? (x) et dKL(p ph? ) = 0.

2.4.6 En resume : la procedure inductive bayesienne

Pour resumer, l'approche inductive bayesienne standard sur un echantillon de donnees est la suivante : 1. De nir l'espace des hypotheses (on parle aussi dans ce cadre de (( modeles ))) dans lequel on suppose que se trouve la fonction cible. 2. Utiliser la connaissance disponible sur le domaine pour assigner des probabilites a priori aux di erentes hypotheses possibles et des densites de probabilite sur les parametres des familles de modeles s'il y a lieu. 3. Utiliser le theoreme de Bayes pour calculer les probabilites (ou les densites de probabilite) a posteriori etant donne l'echantillon d'apprentissage. A n de comparer les di erents modeles, il est necessaire de conditionner tous les parametres intervenant dans les modeles. Ces probabilites conditionnees sont les probabilites des modeles etant donne l'echantillon d'apprentissage, elles fournissent les probabilites relatives des modeles, sans tenir compte de la complexite de chaque modele. 4. Choisir un algorithme de recherche a n d'explorer e cacement l'espace des modeles possibles pour trouver le modele de probabilite a posteriori maximale (localement). 5. Stopper la recherche lorsque le modele le plus probable est trouve, ou lorsqu'il n'est plus rentable de continuer la recherche. Generalement, le critere d'arr^t implique un compromis e entre l'optimalite du modele trouve et la complexite de la recherche. Il faut le plus souvent avoir recours a des heuristiques pour accelerer la recherche au risque de manquer le modele optimal.

2.5 Discussion : Quels types d'analyses et de principes inductifs?
L'induction supervisee consiste a utiliser un echantillon de donnees pour extrapoler soit la reponse a une nouvelle question (prediction), soit une regle generale de decision (identi cation).

Chapitre 2 Premiere approche theorique de l'induction
Dans cette optique deux questions fondamentales se posent : quel principe inductif faut-il adopter et quelles garanties existe-t-il sur les resultats? Parmi les grands principes inductifs immediatement envisageables, nous avons etudie pour le moment le principe ERM dictant de choisir l'hypothese dont l'adequation avec les donnees d'apprentissage est la meilleure (au sens du risque empirique) et le principe bayesien stipulant de choisir l'hypothese minimisant l'esperance de risque, qui peut aussi, dans le cas de co^ts u uniformes, ^tre l'hypothese la plus probable etant donne l'echantillon d'apprentissage. e Il se trouve que ces deux principes inductifs ne conduisent pas a la m^me analyse. Pour e mesurer la pertinence du principe ERM, c'est-a-dire la correlation entre le risque empirique, sur la base duquel est choisie la meilleure hypothese, et le risque reel, veritable objectif, il faut utiliser un theoreme de convergence uniforme faisant intervenir la pire hypothese possible dans l'espace H. On obtient alors une analyse dans le pire cas. Cette analyse presente deux aspects positifs. D'une part, elle fournit des garanties extr^mes applicables dans la pire des e situations possibles (pire fonction cible, pire choix de la meilleure hypothese selon ERM, pire echantillon d'apprentissage). D'autre part, elle indique que pour etablir un lien entre risque empirique et risque reel, il faut tenir compte de la richesse de l'espace des hypotheses. Cela conduit naturellement a envisager des principes inductifs plus puissants que le principe ERM, ce sera l'objet de la suite de ce chapitre. La contrepartie de cette analyse dans le pire cas est qu'elle fournit des bornes de di erence entre risque empirique et risque reel souvent eloignees de ce qui est observe. On aimerait des analyses plus nes tenant compte de cas typiques ou bien pouvant prendre en compte la distribution des donnees d'apprentissage. Les approches actuelles sur la classi cation a large marge par exemple sont un pas dans cette direction (voir le chapitre 9). Le point de vue bayesien est quant a lui indissociable d'une analyse en cas moyen : cette foisci l'hypothese a retenir est celle qui minimise l'esperance d'erreur en fonction de la probabilite a priori des fonctions cible. L'avantage est que la decision resultante est optimale. En revanche, cette analyse presuppose d'une part que l'on sache identi er l'espace dans lequel se trouve la fonction cible, et que, d'autre part, on soit capable de determiner une distribution de probabilite a priori sur cet espace. Si cela est possible, alors le cadre bayesien fournit un moyen interessant d'expression de la connaissance a priori sur le probleme. Lorsque l'espace des fonctions hypothese est mal choisi, alors l'hypothese prescrite par la decision bayesienne est la plus proche de la fonction cible au sens de la distance de Kullback-Leibler. Notons avant de passer a des principes inductifs plus ns qu'il existe d'autres types d'analyses. Par exemple, une autre analyse en cas moyen est celle de la physique statistique qui etudie les comportements les plus probables quand on peut voir le probleme d'apprentissage comme mettant en jeu un grand nombre d'elements. D'autres analyses etudient des mesures de performances di erentes, par exemple le nombre d'erreurs commises en cours d'apprentissage. Nous renvoyons le lecteur interesse au chapitre 17 pour plus de details sur ces approfondissements theoriques.

65

Ce document est la propriété exclusive de nona nina (ninasbalka@gmail.com) - 27 Octobre 2009 à 09:30

2.6 Les grands principes inductifs avec regulation des hypotheses
L'examen du compromis biais-variance (section 2.2.1) et l'analyse du principe de minimisation du risque empirique par Vapnik et les theoriciens de l'apprentissage PAC ont clairement montre que l'esperance de risque (le risque reel) depend a la fois du risque empirique mesure sur l'echantillon d'apprentissage et de la (( capacite )) de l'espace des fonctions hypothese. Plus celleci est grande, plus il y a de chance de trouver une hypothese proche de la fonction cible (erreur d'approximation faible), mais plus aussi l'hypothese minimisant le risque empirique depend de

66

Premiere Partie : Les Fondements de l'Apprentissage

l'echantillon d'apprentissage particulier fourni (erreur d'estimation forte), ce qui interdit d'extrapoler avec certitude la performance mesuree par le risque empirique au risque reel. En d'autres termes, l'induction supervisee doit toujours faire face au risque de (( surapprentissage )) (over- tting). Si l'espace des hypotheses H est trop riche, il y a de fortes chances que l'hypothese retenue, dont le risque empirique est faible, presente un risque reel eleve. Cela est d^ au fait que plusieurs hypotheses peuvent avoir un risque empirique faible sur un echantillon u d'apprentissage, tout en ayant des risques reels tres di erents. Il n'est donc pas possible, sur la base du seul risque empirique mesure, de distinguer les bonnes hypotheses des mauvaises. Il faut donc restreindre autant que possible la richesse de l'espace des hypotheses, tout en cherchant a preserver une capacite d'approximation su sante.
Ce document est la propriété exclusive de nona nina (ninasbalka@gmail.com) - 27 Octobre 2009 à 09:30

2.6.1 L'idee generale : le reglage de la classe d'hypotheses

Puisque l'on ne peut mesurer que le risque empirique, l'idee est donc d'essayer d'evaluer le risque reel encouru en corrigeant le risque empirique, necessairement optimiste, par un terme de penalisation correspondant a une mesure de la capacite de l'espace d'hypotheses H utilise. C'est la l'essence de toutes les approches de l'induction revisant le principe de minimisation du risque empirique (l'adaptation aux donnees) par un terme de regularisation (dependant de la classe d'hypotheses). Cette idee fondamentale se retrouve au c ur de tout un ensemble de methodes comme la theorie de la regularisation, le principe de longueur de description minimale (Minimum Description Length Principle : MDLP), le critere d'information d'Akaike (AIC), et d'autres methodes basees sur des mesures de complexite (par exemple telles que discutees par Bar91, BC91]). Le probleme ainsi de ni est connu, au moins empiriquement, depuis longtemps, et de nombreuses techniques ont ete developpees pour y faire face. On peut les ranger en trois categories principales: les methodes de selection de modeles, les techniques de regularisation, et les methodes de moyennage. Dans les methodes de selection de modeles, la demarche consiste a considerer un espace d'hypotheses H et a le decomposer en une collection discrete de sous-espaces embo^tes H1 H2 : : : Hd : : : , puis, etant donne un echantillon d'apprentissage, a essayer d'identi er le sous-espace optimal dans lequel choisir l'hypothese nale. Plusieurs methodes ont ete proposees dans ce cadre, que l'on peut regrouper en deux types : 1. Les methodes de penalisation de la complexite, parmi lesquelles gurent le principe de minimisation du risque structurel (SRM : Structural Risk Minimization) de Vapnik Vap95], le principe de Longueur de Description Minimale (MDLp : Minimum Description Length principle) de Rissanen Ris78] et diverses methodes ou criteres statistiques de selection FG94]. 2. Les methodes de validation par apprentissages multiples : validation croisee et bootstrapping. Les methodes de regularisation fonctionnent dans le m^me esprit que les methodes de e selection de modeles, mis a part qu'elles n'imposent pas une decomposition discrete sur la classe d'hypotheses. A la place, un critere de penalisation est associe a chaque hypothese, qui, soit mesure la complexite de leur forme parametrique, soit mesure des proprietes globales de (( regularite )), liees par exemple a la derivabilite des fonctions hypothese ou a leur dynamique (par exemple des fonctions de haute frequence, c'est-a-dire changeant de valeur rapidement, seront davantage penalisees que des fonctions de basse frequence). Les methodes de moyennage ne selectionnent pas une hypothese unique dans l'espace H des hypotheses, mais choisissent une combinaison ponderee d'hypotheses pour former une

Chapitre 2 Premiere approche theorique de l'induction
fonction de prediction composee. Une telle combinaison ponderee peut avoir comme e et de (( lisser )) les hypotheses erratiques (comme dans les methodes de moyennage bayesien et le bagging), ou bien d'augmenter le pouvoir de representation de la classe d'hypotheses si celle-ci n'est pas convexe (comme dans le boosting). Toutes ces methodes ont generalement conduit a des ameliorations notables de performances par rapport a des methodes (( na ves )). Cependant, elles demandent d'^tre utilisees avec soin. e D'une part, en e et, elles correspondent parfois a une augmentation de la richesse de l'espace d'hypotheses, donc a des risques accrus de surapprentissage. D'autre part, elles requierent souvent de l'expertise pour ^tre appliquees, en particulier parce qu'il faut regler des parametres e supplementaires. Certains travaux recents essaient pour ces raisons de determiner automatiquement la complexite appropriee des hypotheses candidates pour s'adapter aux donnees d'apprentissage.

67

Ce document est la propriété exclusive de nona nina (ninasbalka@gmail.com) - 27 Octobre 2009 à 09:30

2.6.2 La selection de modeles
Nous allons de nir plus formellement le probleme de la selection de modeles qui est l'objectif de toutes ces methodes. Soit une sequence ench^ssee d'espaces ou classes d'hypotheses (ou modeles) H1 H2 a : : : Hd : : : ou les espaces Hd sont de capacite croissante. La fonction cible f peut ou non ^tre inclue dans l'une de ces classes. Soit h? l'hypothese optimale dans la classe d'hypotheses e d Hd, et R(d) = RReel(h? ) le risque reel associe. Nous noterons que la sequence R(d)1 d 1 est d decroissante au sens large puisque les classes d'hypotheses Hd sont embo^tees, et donc que leur capacite d'approximation de la fonction cible f ne peut que s'ameliorer. A l'aide de ces notations, le probleme de la selection de modeles peut se de nir comme suit.
Le probleme de selection de modele consiste a choisir, sur la base d'un echantillon d'apprentissage S de longueur m, une classe d'hypotheses Hd et une hypothese hd 2 Hd telles que le risque reel associe RReel (hd ) soit minimal.

De nition 2.8 (Le probleme de la selection de modele)

La conjecture sous-jacente est que le risque reel associe aux hypotheses retenues hd pour chaque classe Hd presente un minimum global pour une valeur non triviale de d (c'est-a-dire di erente de zero et de m) correspondant a l'espace d'hypotheses Hd (( ideal )). (Voir gure 2.15). Il s'agit donc d'une part de trouver l'espace d'hypotheses Hd ideal, et d'autre part de selectionner la meilleure hypothese hd a l'interieur de Hd . La de nition ne se prononce pas sur ce dernier probleme. Il est generalement resolu en utilisant le principe ERM dictant de rechercher l'hypothese de risque empirique minimal. Pour la selection de Hd , on utilise une estimation du risque reel optimal dans chaque Hd en selectionnant la meilleure hypothese selon le risque empirique (methode ERM) et en corrigeant le risque empirique associe par le terme de penalisation lie aux caracteristiques de l'espace Hd . Le probleme de selection de modele revient donc a resoudre une equation du type :
Estim d? = ArgMin f hd 2 Hd : RReel e(hd ) g

= ArgMin f hd 2 Hd : REmp(hd ) + terme-de-penalisation g
d

d

(2.37)

L'idee generale pour implementer ces methodes de penalisation est d'avoir un algorithme d'apprentissage retournant une hypothese hd candidate pour chaque classe d'hypotheses Hd (par

68

Premiere Partie : Les Fondements de l'Apprentissage

exemple en suivant le principe ERM), puis d'avoir un algorithme de selection de modele choisissant le meilleur espace d'hypotheses associe (suivant l'equation 2.37). L'hypothese nale est alors l'hypothese candidate dans cet espace. Notons que le choix du meilleur espace d'hypotheses depend de la taille m de l'echantillon de donnees. Plus celle-ci est grande, plus il est possible, si necessaire, de choisir sans risque (c'est-a-dire avec une variance ou un intervalle de con ance faible) un espace d'hypotheses riche permettant d'approcher au mieux la fonction cible f .
Risque Optimum
Ce document est la propriété exclusive de nona nina (ninasbalka@gmail.com) - 27 Octobre 2009 à 09:30

Risque réel

Intervalle de confiance

Risque empirique

H
H1 H2 H3 H4

Fig. 2.15 { La borne sur le risque reel resulte de la somme du risque empirique et d'un in-

tervalle de con ance dependant de la capacite de l'espace d'hypotheses associe. En supposant que l'on dispose d'une sequence ench^ssee d'espaces d'hypotheses indices a par d et de capacite croissante, le risque empirique optimal accessible diminue avec les d croissants (le biais), tandis que l'intervalle de con ance (correspondant a la variance) diminue. La borne minimale sur le risque reel est atteinte pour un espace d'hypotheses approprie Hd .

2.7 Discussion et perspectives
Ce chapitre a introduit l'analyse des facteurs entrant en jeu dans l'induction, et l'etude de divers principes inductifs raisonnables. A l'examen, ceux-ci transforment un probleme d'apprentissage en un probleme d'optimisation en fournissant un critere que doit optimiser l'hypothese ideale. La plupart des methodes d'apprentissage peuvent alors ^tre vues comme des manieres de e speci er l'espace des hypotheses a considerer ainsi que la technique d'exploration de cet espace en vue d'y trouver la meilleure hypothese. Cette vision de l'apprentissage est d'une grande force. Elle permet de concevoir des methodes d'apprentissage, de les comparer entre elles, et m^me de e construire de nouveaux principes inductifs, comme ceux qui contr^lent automatiquement l'eso pace d'hypotheses. Il est facile de se laisser seduire et de se mettre a raisonner dans les termes de cette approche. Pourtant, en y re echissant, il s'agit la d'un cadre surprenant pour aborder l'apprentissage. D'une part, il y a une Nature indi erente qui distille des messages, les donnees, de maniere aleatoire, excluant par la les situations d'apprentissage organisees ou du moins bienveillantes. D'autre part, il y a un apprenant solitaire, completement passif, qui attend les messages, et, en

A la re exion. en particulier la minimisation du risque empirique. il aurait sans doute inter^t a consacrer ses ressources aux regions de l'espace e dans lesquelles la fonction cible presente une grande dynamique (de fortes variations) et moins la ou les choses se passent tranquillement. si in uente sur les travaux recents. la theorie bayesienne de la decision qui se traduit souvent par un principe de maximum de vraisemblance. Par ailleurs.com) . ce qui correspond a un vaste champ d'applications.8 Notes historiques et bibliographiques Dire que l'apprentissage inductif est un probleme d'optimisation qui conjugue un principe ou critere inductif a satisfaire au mieux et une methode de recherche dans un espace d'hypothese est presque devenu un dogme. l'apprenant cherche a ^tre performant en moyenne (il e optimise une esperance de risque). avec une evolution de l'apprenant. puisqu'elle ne concerne que le choix de l'espace d'hypotheses. Pourtant. et pas du tout des criteres d'intelligibilite ou de fecondite des connaissances produites. 69 Ce document est la propriété exclusive de nona nina (ninasbalka@gmail. ne fait rien avant de les avoir tous collectes. Le chapitre 17 se terminera. De m^me sont exclus les apprentissages dans e des environnements non stationnaires. Il s'agit de l'analyse de Vapnik. En revanche il ne s'appuie pas sur la distribution des exemples comme le principe ERM ou l'analyse bayesienne. Ils concernent en particulier : { Une generalisation de l'analyse du principe ERM a des espaces d'hypotheses et a des fonctions de perte quelconques. { Une description du principe inductif par compression d'informations non decrit dans le present chapitre. de maniere appropriee en discutant la valeur relative des methodes inductives. Pour autant. . on est loin d'un cadre d'analyse rendant compte de toute la diversite des situations d'apprentissage. Cela reviendrait a avoir un espace d'hypotheses a geometrie variable : riche dans les regions de forte dynamique et pauvre ailleurs. ce qui semble naturel a la re exion. Cette approche est interessante parce qu'elle introduit de nouveaux criteres de performance sur l'apprentissage et permet d'envisager des apprenants ayant une certaine initiative dans le choix des exemples fournis. et le principe de compression maximal de l'information. On evacue ainsi les apprentissages continus. Ce principe tres original prend en compte la quantite d'informations dans les donnes et les hypotheses. le r^le des connaissances a priori. Le chapitre 17 fourni des developpements de cette theorie utiles pour comprendre les recherches actuelles sur l'apprentissage. ne suscite pas non plus de surprise. Finalement. devaient ^tre examines pour voir e s'ils conduisaient bien a la meilleure induction possible. Ce chapitre a presente les grandes lignes de l'analyse theorique de l'induction qui permettent d'aborder la suite de l'ouvrage. mais il ne cherche pas vraiment a identi er le concept cible. les criteres de performances ne prennent en compte que l'esperance d'erreur ou de risque. collaboratifs. De plus.27 Octobre 2009 à 09:30 2. un comble pour une science qui devrait avant tout ^tre e une science de la dynamique. Car dans ce cas. donc. est ici reduit o a une expression tres pauvre. Faire ressortir qu'il existe essentiellement trois types de principes inductifs : la minimisation du risque empirique (ERM). et terminera cet ouvrage.Chapitre 2 Premiere approche theorique de l'induction general. il a fallu beaucoup de temps pour que cette vision de l'apprentissage s'impose. ce cadre tres epure se revele d'une grande e cacite dans l'analyse de donnees. comme pour qu'il soit admis que ces principes. { Une introduction a l'analyse de l'apprentissage (( en-ligne )) (on-line learning) dans lequel l'apprenant doit reagir apres chaque nouvel exemple. Peut-on dire qu'il y en a de meilleures que d'autres? D'ou provient le pouvoir inductif? Nous retrouverons la certaines des interrogations recurrentes des philosophes de la connaissance. si important dans les apprentissages naturels.

Rip96.27 Octobre 2009 à 09:30 . l'un des quatre auteurs. Elle conduit a la notion d'erreur bayesienne La theorie bayesienne de l'apprentissage s'est developpee presque naturellement durant le optimale. Cependant. appele apprentissage agnostique. nous reportons le lecteur aux ouvrages CM98. a n de s'a ranchir de la contrainte que le concept cible doive appartenir a l'espace d'hypotheses. Ils prouverent ainsi que la convergence des esperances de risque est equivalente a la convergence uniforme des frequences vers des probabilites sur un domaine ni d'evenements. et un theoricien eminent et inventif.70 Premiere Partie : Les Fondements de l'Apprentissage XXe siecle et en particulier depuis les annees 1960. L'analyse montra que la convergence du risque empirique vers le risque reel fait intervenir une fonction de croissance de l'espace d'hypotheses. c'est vraiment l'analyse de Vapnik qui a fourni un cadre conceptuel complet permettant de comprendre au moins heuristiquement le compromis entre risque empirique et capacite de l'espace d'hypotheses. Vapnik et Chervonenkis. a fait prendre conscience a la communaute de l'apprentissage arti ciel de l'importance cruciale de la de nition et de la caracterisation de l'espace d'hypotheses. mais elle requiert une connaissance du modele statistique sous-jacent. etudiaient depuis les annees 1960 le probleme general de la convergence des moyennes empiriques vers leur esperance. c'est-a-dire d'apprentissage par c ur sans generalisation. et. sous l'in uence du papier de Mitchell ( Mit82]). DHS01. ils avaient admis. en URSS. de Sauer (1972) et de Shela (1972). sous l'in uence de Kolmogorov. Comme cette fonction est tres di cile a calculer. Selon l'expression de Manfred Warmuth. d'une part.com) . Ce cadre incluait aussi un critere de complexite calculatoire sur l'apprentissage. un cadre generalise a ete propose. il est pratique de la caracteriser par un nombre : la dimension de Vapnik-Chervonenkis. Web99]. Depuis longtemps les praticiens savaient en e et qu'il leur fallait contr^ler la complexite de leur modele d'apprentissage pour ne pas tomber o victime de surapprentissage. Il a d'abord fallu que l'idee qu'il etait interessant detudier directement la convergence du risque empirique se fasse jour. Les premiers travaux introduisant cette mesure sont ceux de Vapnik et Chervonenkis en 1971. on pouvait n'examiner que les hypotheses de risque empirique nul. C'est ce qui est appele le theoreme cle de la theorie statistique de l'apprentissage. L'introduction de la theorie de Vapnik et Chervonenkis s'est faite gr^ce a un a papier exceptionnel du (( four germans gang )) 11 BEHW89] qui a eu un grand impact dans la communaute de la theorie de l'apprentissage (COLT : Computational Learning Theory). Cela simpli ait considerablement les choses car. qu'il fallait que l'espace d'hypotheses soit contraint par un biais. le nombre d'hypotheses restait ni m^me e s'il pouvait cro^tre exponentiellement avec le nombre d'attributs et. pendant ce temps. cet aspect du modele PAC qui a permis de demontrer de nombreux theoremes de non apprenabilite (en les ramenant a des problemes de cryptographie) est pratiquement tombe en desuetude. 11. Ce document est la propriété exclusive de nona nina (ninasbalka@gmail. imposant que la complexite reste polynomiale en un certain nombre de parametres. Pour toutes ces questions. Hay99. Vap95. Les premieres bornes sur le risque reel en fonction du risque empirique furent prouvees pour la premiere fois par Vapnik et Chervonenkis en 1974. cela a debouche sur les cadres PAC (Probablement Approximativement Correct) et VC (Vapnik-Chervonenkis). Nous recommandons a ce sujet la lecture des ouvrages de reference Bis95. On n'en parle plus car il a ete generalise par l'approche de Vapnik. largement popularisee par son livre de 1995 ( Vap95]). Depuis 1982. d'autre part. L'analyse de Vapnik. Dans le cas des algorithmes realisant l'ERM. Cependant. Par ailleurs. En e et. independamment. Il faut cependant noter l'in uence des papiers sur le compromis biais-variance ( GBD92]). L'analyse de la pertinence du principe ERM a ete plus longue a ^tre percue comme necessaire e et la demarche a ete plus accidentee. Le cadre PAC a ete introduit par le papier tres in uent de Valiant en 1984 Val84a] dans lequel il etudiait ce qui se revelerait un cas particulier de la convergence du risque empirique ou l'espace d'hypotheses est celui de formules logiques et est suppose contenir le concept cible.

ce qui revient souvent a prendre l'hypothese dont la vraisemblance est maximale etant donnes les exemples nalement le principe de compression d'information qui prescrit de choisir l'hypothese permettant de transmettre l'information contenue dans les exemples d'apprentissage de la maniere la plus economique. D'autres ouvrages sont plus techniques mais sont essentiels pour ceux qui veulent aller plus loin dans cette etude : AB92. AB96. Il existe trois grands principes inductifs de base : le principe de minimisation du risque empirique qui dicte de choisir l'hypothese qui minimise le risque sur l'echantillon d'apprentissage le principe bayesien qui stipule de choisir l'hypothese minimisant l'esperance de risque. Il faut un espace d'hypotheses su samment riche pour pouvoir approcher la fonction cible d'assez pres. le principe ERM se pr^te naturellement a une analyse e dans le pire cas. tandis que le principe bayesien. et un apprenant cherchant a approcher cette fonction cible par une fonction hypothese de maniere a minimiser l'esperance de risque appelee risque reel. L'une des consequences les plus remarquables de ces analyses est qu'elles soulignent l'importance cruciale de l'espace d'hypotheses considere dans la con ance que l'on peut accorder aux inductions realisees. Vid97]. 71 Resume Ce chapitre a montre que l'induction peut-^tre formalisee par un jeu entre une e Nature produisant des exemples etiquetes selon une fonction cible. mais il ne faut pas qu'il le soit trop sous peine de conduire a des hypotheses apparemment bonnes sur les donnees d'apprentissage. Pour ce faire. prenant en compte la distribution a priori des fonctions cible. Un ouvrage tres interessant sur des points de vue multiples de la theorie de l'apprentissage est Wol95]. et un algorithme de recherche e ectif dans l'espace d'hypotheses. o Ce document est la propriété exclusive de nona nina (ninasbalka@gmail. Ce chapitre s'est penche sur l'analyse des principes inductifs. La mise en evidence de ce compromis a amene a reconsiderer les principes inductifs pour en faire des principes inductifs avec contr^le et ajustement automatique de l'espace d'hypotheses. l'apprenant utilise un principe inductif lui dictant quelle hypothese il doit choisir etant donnes les exemples d'apprentissage. En particulier.com) . conduit a une analyse en moyenne.Chapitre 2 Premiere approche theorique de l'induction KV94]. mais mauvaises en realite.27 Octobre 2009 à 09:30 . DGL96. Les deux premiers ont ete decrits et analyses plus en detail dans ce chapitre.

Ce document est la propriété exclusive de nona nina (ninasbalka@gmail.com) .27 Octobre 2009 à 09:30 72 Premiere Partie : Les Fondements de l'Apprentissage .

en n en examinant les methodes d'evaluation et de validation des resultats obtenus a l'issue de l'apprentissage. Le probleme du test et de la comparaison empirique des algorithmes est egalement discute. Ce chapitre se cl^t en dressant une typologie des methodes adaptees a chaque classe o de problemes. Pour qu'une methode d'apprentissage soit e ective. . a partir des exemples. Ce chapitre a pour objectif de fournir les bases permettant la realisation d'une methode d'apprentissage en partant du probleme du choix de la representation des entrees et de celle des hypotheses.com) . Le choix d'un principe inductif permet d'evaluer. puis en dressant un panorama des techniques de recherche et d'optimisation utilisables dans le contexte de l'apprentissage.Chapitre 3 Ce document est la propriété exclusive de nona nina (ninasbalka@gmail. l'apprentissage se joue entre un espace de description des objets d'entree et un espace d'hypotheses. la qualite des hypotheses et de prescrire l'hypothese theorique optimale. il faut speci er un algorithme de recherche dans l'espace des hypotheses qui tentera d'identi er une hypothese optimale ou du moins de s'en approcher.27 Octobre 2009 à 09:30 L'environnement methodologique de l'apprentissage D'un point de vue conceptuel.

Oie : oiseau palmipede massif au long cou et au bec large. Dans la hierarchie de Linne. comment ecrire un programme qui saurait apprendre a distinguer un cygne d'une oie? La reponse est qu'il faudra ^tre plus modeste. ordre des anseriformes. c'est-a-dire soigneusement delimiter un cadre e operationnel par la de nition de biais d'apprentissage. un cygne chanteur (Cygnus Cygnus L. ( krrr ) . a l'allure de canard. mais dont certaines especes sont des echassiers a bec crochu.. le cygne. Ces de nitions circulaires masquent les donnees et les concepts sous des niveaux d'abstraction tellement di erents qu'en pratique elles sont inoperantes. (n'est pas une entree dans ce dictionnaire. Canard : oiseau palmipede de la famille des anatides. genre Anatidae) nous indiquera.. Cygne : oiseau palmipede anseriforme au long cou souple. Longueur : 90 cm.com) . Il su t de noter sa couleur et son rang. et a quoi peut bien servir de conna^tre le mot designant le cri du canard pour caracteriser cet animal? Alors. Les observations aussi sont limitees a la taille et a la couleur. 1 Ainsi la liste (152 cm.. Anseriforme : oiseau.. elle-m^me au e dessous de l'ordre. Essayons donc avec notre dictionnaire usuel. ne vole pas. migrateur. Les anseriformes forment un ordre. Anhimide .74 listes ont accumule des connaissances sur cette question et les ont largement vulgarisees. (( couac )). famille des anhimides. qui peuvent prendre respectivement leur valeurs dans les domaines f ~ } |g 1. E st-il facile de de nir un cygne ou une oie? On pourrait penser que oui. Par exemple la notion de migrateur est importante dans ces de nitions et elle est supposee connue.) et la liste (110 cm. Prenons maintenant sur un oiseau l'ensemble des attributs suivants : la taille le fait qu'il vole ou non la couleur de son bec son chant son genre. la variete des contextes (des biais d'apprentissage) est egalement importante : il faut au lecteur de grandes connaissances a priori. cette variable est au dessus de l'espece et au dessous de la famille. aux ailes armees de deux eperons. Les anatides forment une famille de l'ordre des anseriformes. tel que le kamichi et les anatides. Anatide : oiseau palmipede au corps massif et au bec aplati.. bec noir. Le canard cancane. De plus. a moins que l'on soit dans un marais de Patagonie face a un echassier aux ailes armees.. Une autre question : est-il facile de de nir une carte a jouer? Mais oui. On ne cherche pas a de nir la nature du cygne ou de l'oie de maniere universelle : on n'a pour ambition que d'apprendre a les distinguer sous des conditions xees de maniere stricte. generalement palmipede. tout cela n'est pas tres utile pour identi er un oiseau. Kamichi : oiseau echassier des marais et des prairies humides de Patagonie. Rappelons l'exemple de l'avant-propos : l'univers est reduit a un lac sur lequel on impose que seulement deux especes d'oiseaux puissent nager. mais n'est ( ) o pas assez complete pour que l'on sache de quelle espece il s'agit. genre Aptedonytes) se rapporte plut^t a un manchot.27 Octobre 2009 à 09:30 . et tres bien organisees. l'oie. bon voilier et migrateur a l'etat sauvage. bec jaune. edition 2000. l'hiver dans nos regions. tel que le canard. Les natura- Ce document est la propriété exclusive de nona nina (ninasbalka@gmail. Voici par exemple ce qui se trouve dans le Petit Larousse. vole. genre Chauna. alors que ce n'est pas une evidence a l'observation d'un oiseau.) Bon.

4 une illustration du fait presente au chapitre precedent : si le critere choisi est la minimisation du risque empirique (ERM ). ou tres elabores. qui est comme on le sait une des questions centrales de l'intelligence arti cielle. evidemment plus interessantes. nous verrons au paragraphe 3. qui a pour objet de mettre les algorithmes dans des conditions les meilleures possibles et celui de la selection des attributs qui traite de la reduction de l'espace de representation des objets. Cette de nition est parfaite. En particulier. la complexite de la classe d'hypotheses choisie est un parametre important a ma^triser pour eviter le sur-apprentissage. Ces concepts ont ete extraits d'une multitude de descripteurs souvent numeriques. M^me en supe posant l'etape precedente parfaitement realisee. sans prejuger de la mesure de qualite employee. Cette question est plus aisee a resoudre pour des donnees (( arti cielles )) comme les cartes a jouer que pour des donnees naturelles. . les connaissances sur les individus doivent ^tre symbolisees si l'on veut en tirer pro t pour e en extraire une de nition operatoire. aucun oiseau ne porte le nom de son espece sur son plumage. 75 Ce document est la propriété exclusive de nona nina (ninasbalka@gmail. Mais les aspects methodologiques generaux de l'apprentissage ne se limitent pas a ces deux problemes. comment estimer la qualite veritable de cette hypothese? Cette question sera traitee en quatrieme partie de ce chapitre.4. comme la taille. il se pose la question suivante : Etant donne l'ensemble des hypotheses et un echantillon d'apprentissage. En revanche. Il y a en pratique deux problemes qui se posent d'entree : Comment representer les objets? Comment representer les hypotheses faites par le programme d'apprentissage? Ils seront traites dans les deux premieres parties de ce chapitre. C'est que les noms donnes aux formes de la nature sont symboliques : ils sont une abstraction qui regroupe des individus selon des contrastes avec d'autres individus. Le dernier probleme general est celui de l'evaluation de l'hypothese trouvee. ou un peu plus abstraits comme la couleur. comment trouver la meilleure hypothese? Nous avons vu au chapitre 2 que la notion de qualite d'une hypothese pouvait ^tre abordee de e diverses manieres. Deux autres aspects seront abordes dans ce chapitre : celui du pretraitement des donnees d'apprentissage.com) .Chapitre 3 L'environnement methodologique de l'apprentissage et fA R D V 10 9 8 7 6 5 4 3 2g. puisque les cartes a jouer sont des objets dont le sens est par nature completement decrit par ces deux caracteristiques. Nous etudierons dans la troisieme partie par quelles techniques d'optimisation on peut rechercher la meilleure.27 Octobre 2009 à 09:30 Le plan de ce chapitre Ce chapitre est centre sur la nature de la representation des connaissances pour l'apprentissage et sur la facon d'utiliser ces representations. Autrement e dit. comme le fait d'^tre migrateur ou non. Une fois choisies la maniere de representer les objets et celle de formuler les hypotheses. Cette introduction n'a pour but que de rappeller que l'apprentissage arti ciel doit evidemment se poser le probleme de la symbolisation ou de la representation des connaissances.

Par consequent chaque objet (chaque oiseau) est represente par deux valeurs numeriques. ne serait-ce que dans le choix des attributs de description ou la maniere de faire face a des donnees imparfaites. donc l'utilisation de X = IRd comme espace de representation. d'un exemple La fonction cible (celle que l'on cherche a apprendre) L'ensemble des classes Le nombre de classes Une classe de C La surface separatrice entre les classes !i et !j L'espace des hypotheses d'apprentissage Une hypothese produite par un apprenant La perte (distance) entre la fonction cible et une hypothese Le risque empirique d'une hypothese Le risque reel d'une hypothese 3. probabilistes. Dans l'exemple en t^te de ce chapitre. un oiseau est represente di eremment : par cinq attributs de natures e diverses. etc. Par ailleurs. les oies et les cygnes sont representes par deux chi res : leur taille et leur niveau de gris. Dans l'exemple d'introduction de ce livre. C'est dans cet espace que s'e ectue la description des objets.76 Premiere Partie : Les Fondements de l'Apprentissage Notations utiles pour le chapitre P (X = V RAI ) ou P (X ) La probabilite que l'evenement X soit V RAI X U S T V Ce document est la propriété exclusive de nona nina (ninasbalka@gmail. ou par un point du plan. Suivant le type de ces donnees. 3. ou sortie desiree. geometriques.1. Le premier exemple est tres frequent : la description d'un objet par d valeurs numeriques. permet en e et d'utiliser des outils analytiques. certaines representations sont plus ou moins adaptees. .1 L'espace des donnees d'apprentissage L'apprentissage s'appuie sur des donnees (des objets) qu'il faut representer.com) .27 Octobre 2009 à 09:30 zi = (xi ui ) xi ui C f :X !U ij m C !i h2H l(f h) REmp(h) RReel (h) H L'espace de representation des objets (des formes) L'espace de supervision (des sorties desirees) L'echantillon d'apprentissage (ensemble ou sequence d'exemples) L'echantillon de test L'echantillon de validation La taille d'un echantillon d'apprentissage (le nombre d'exemples) Un exemple (element d'un echantillon d'apprentissage) La description d'un objet dans un espace de representation La supervision. ou encore par un vecteur de IR2 . toute description des donnees suppose deja un pretraitement.1 La representation des objets de l'apprentissage Les connaissances sur les donnees elles-m^mes sont symbolisees gr^ce a un espace de repree a sentation des donnees note X .

mais les notions de continuite et de densite de probabilite sont non de nies.Chapitre 3 L'environnement methodologique de l'apprentissage Il y a un autre cas courant : celui ou les donnees sont representees par un vecteur binaire. comme mauvaise traduction de feature. Ceci correspond au cas ou l'on decrit les objets a l'aide d'une serie de tests et ou chaque objet est V RAI ou FAUX vis-a-vis de chaque test. . Cette representation a des interpretations mathematiques 2. 3. les donnees peuvent ^tre representees e par une matrice binaire (m d). instances ou objets 2 .com) . parfois des centaines ou des milliers. Les proprietes de cet espace sont formalisees par la logique booleenne ou logique des propositions. les cas binaires et numeriques etant les plus naturels et les plus simples. Le terme (( donnees )) est vague. En reconnaissance des formes. 77 De nition 3. Ce document est la propriété exclusive de nona nina (ninasbalka@gmail. 3. X = fx1 : : : xi : : : xdg = f0 1gd = IBd Dans le cas ou les d attributs de X sont tous binaires. en particulier en apprentissage. Les elements de X peuvent souvent ^tre detailles comme un ensemble de d attributs ou e descripteurs 3 : x = fx1 : : : xi : : : xdg Nous emploierons aussi la notion de distance sur l'ensemble des valeurs que peut prendre un attribut.1 La nature des attributs Nous nous interessons dans la suite de cet ouvrage aux attributs des types suivants : Binaire L'objet x est decrit par d attributs xi dont chacun vaut 1 ou 0.1. autrement dit V RAI ou FAUX . Nous serons par la suite aussi rigoureux que possible dans l'utilisation de ces deux termes. Nous allons maintenant passer en revue les types d'attributs auxquels nous aurons a aire par la suite.2 (Distance) L'inegalite triangulaire n'est pas toujours facile a de nir dans les applications pratiques.27 Octobre 2009 à 09:30 Un exemple z i = (xi ui ) est un objet associe a sa supervision. Si l'on veut traiter des problemes complexes. Le terme (( instance )) est un anglicisme imprecis (souvent un objet. le terme (( parametre )) est parfois employe.1.1 (Espace de representation) L'espace de representation est note X et ses elements sont appeles donnees. mais fait le lien avec l'apprentissage pour la fouille de donnees. Rappelons la de nition de ce terme : Une distance sur un espace E E est une application de E E dans IR+ si et seulement si elle veri e les proprietes : (x y) = 0 () x = y 8 x y 2 (x y) = (y x) (symetrie) 8x y z 2 (x y) (x z ) + (z y) (inegalite triangulaire) De nition 3. La structure algebrique de ces espace est forte. Une application de E E dans IR+ qui veri e au plus les deux premiers axiomes est parfois appelee dissemblance. il faut naturellement un grand nombre de descripteurs binaires. parfois un exemple). Par abus de langage. le mot distance est souvent employe indi eremment pour ces deux concepts.

en astrophysique. A+ A. De m^me. La question est de savoir si elle est utile au probleme ou non. la couleur est caracterisee par une longueur d'onde dans un certain intervalle : c'est un attribut numerique totalement ordonne. comme medaille 2 for argent bronzeg. Par exemple. Par exemple. Un attribut est ordinal quand il appartient a un ensemble ordonne. . e En revanche. une relation d'ordre semble di cile a de nir (le bleu sprint est-il superieur ou inferieur a l'orange calypso ?). B + B .). En revanche. Par exemple. informatique (bases de donnees. les couleurs sont rangees dans un ordre decroissant : e le l'emporte sur le ~ qui l'emporte sur le } qui l'emporte en n sur le |. B +) ni sur le couple (A+. A. topologique (notion de distance). du point de vue de cette relation d'ordre. voir chapitre 15). la propriete de l'inegalite triangulaire n'est pas veri ee.g Du point de vue de la compatibilite pour la transfusion. Nominal arborescent Il existe parfois une hierarchie naturelle. Dans certains cas. e 4. une distance ou une dissemblance peut se de nir sur l'ensemble des valeurs que peut prendre un attribut nominal. on ne peut rien dire sur le couple (A+. mais on sait par exemple que le son /a/ est plus proche du son /in/ que du son /k/. Par exemple. les groupes sanguins et facteurs rhesus sont au nombre de huit : fO+ O. Nominal totalement ordonne Il est en realite souvent possible de trouver une relation d'ordre sur un attribut nominal.5). un attribut de ce type appartient a un ensemble ni et non ordonne 4 . sur les valeurs que peuvent prendre un attribut nominal. pour quelques especes d'animaux : vole a des plumes pond des ux oie 1 1 1 ornithorynque 0 0 1 rhinolophe 1 0 0 cygne 1 1 1 Nominal (ou categoriel) Par de nition. donne en gure 3. La confusion entre les termes (( nominal )) et (( ordinal )) est frequente. si on s'interesse a l'attribut couleur dans un catalogue de voitures. donc un intervalle de IR. une piece au jeu d'echecs peut ^tre de six formes e e di erentes. mais pas un ordre total. algebrique (construction d'un treillis de Galois : chapitre 4. O+ est (( superieur )) a A+. paragraphe 4. Un autre exemple est celui de la couleur. puisque du sang O+ peut ^tre tranfuse aux trois autres groupes et pas l'inverse. mais sur lequel on ne peut pas de nir une distance.1. mais. Un attribut nominal totalement ordonne est assimilable a un intervalle de IR ou de IN et peut donc ^tre muni d'une distance. chacune peut s'emparer de chaque autre : elles n'ont pas d'ordre naturel de ce point de vue. Nous l'utiliserons au chapitre 4.com) . etc. De m^me.27 Octobre 2009 à 09:30 diverses : logique. l'ensemble des sons (ou phonemes) de la langue francaise est un ensemble nominal : il n'est pas ordonne. grosso modo. AB + AB . Dans cet exemple. B + et AB +.78 Premiere Partie : Les Fondements de l'Apprentissage Ce document est la propriété exclusive de nona nina (ninasbalka@gmail. dans certains jeux de cartes. Par exemple la (( couleur )) f ~ } |g d'une carte a jouer est un attribut nominal dans la plupart des cas : d'une part elle ne peut prendre que quatre valeurs et d'autre part il n'y a pas d'ordre sur les couleurs.

Mais le cas le plus general est celui ou l'espace de representation X = fx1 : : : xi : : : xd g est mixte. 3. en particulier quand l'ensemble des elements qui composent la sequence (l'alphabet) est lui-m^me muni d'une distance. X est homogene : ses d attributs sont tous de m^me nature. bec 5. parfois des abreviations comme :-) ou .27 Octobre 2009 à 09:30 Jaune Vert Bleu Fig. les signes de ponctuation. Sequenciel nominal Un texte francais est une sequence composee a partir d'un ensemble (un alphabet) d'une centaine de caracteres : les cinquante-deux lettres minuscules et majuscules. )) et la sequence (( Tout commenca dans l'eau. Beaucoup e de methodes d'apprentissage ne peuvent s'appliquer que sur des donnees decrites dans un espace de representation homogene. Dans ce cas precis.1. quelques lettres accentuees. On peut ainsi produire des sequences de plusieurs centaines de chi res representant l'evolution d'un cours sur une annee. Evidemment. l'intervalle (le blanc). l'ordre de ces elements nominaux est essentiel : la sequence (( Le commandant Cousteau. e On sait munir l'ensemble des valeurs que peut prendre un tel attribut d'une distance. d valant typiquement entre 10 et 20. les accents ou cedilles non plus et les caracteres minuscules et majuscules ne sont pas distingues. les espaces ne sont pas comptes. (( couac )). )) sont di erentes. generalee ment dans ce cas binaires ou numeriques. vole. autrement dit compose d'attributs de natures di erentes. comme la parole : chaque centieme de seconde est caracterise apres analyse spectrale par un element de IRd .2 Representations homogenes et representations mixtes L'espace de representation X est souvent compose de d attributs de la m^me nature.1 { Une description arborescente possible pour l'attribut Couleur. Il existe aussi des espaces de representation composes de plusieurs attributs sequenciels nominaux : par exemple dans les problemes d'apprentissage de traducteurs. . une valeur numerique est donnee. ou l'on doit disposer de couples de phrases. bien que composees exactement des m^mes lettres 5 . Dans les cas precedents. e Sequenciel numerique La cote boursiere de tel ou tel titre est un exemple d'attribut sequenciel numerique : a chaque instant de temps signi catif.Chapitre 3 L'environnement methodologique de l'apprentissage Couleur 79 Couleur-chaude Couleur-froide Rouge Ce document est la propriété exclusive de nona nina (ninasbalka@gmail. C'est le cas de la description d'un oiseau donnee ci-dessus pour un cygne chanteur : (152 cm. Le cas de vecteurs d'attributs arrivant en sequence est typique des problemes de traitement du signal. 3.com) .1. etc.

80
jaune, genre

Premiere Partie : Les Fondements de l'Apprentissage

Anatidae). Le premier attribut est numerique, le second est binaire, le troisieme sequenciel et le dernier hierarchique. De m^me le diagnostic sur un patient entrant dans un h^pital porte sur une representation e o non homogene de son etat. Il pourra ^tre decrit par exemple par les attributs suivants : e

Ce document est la propriété exclusive de nona nina (ninasbalka@gmail.com) - 27 Octobre 2009 à 09:30

Vaccine contre la diphterie? Et si oui, il y a combien de temps? Temperature? Groupe sanguin? Description du type d'a ection cutanee? Region et type de douleur?

:::
Peu de methodes d'apprentissage sont capables d'extraire un concept obtenu par un apprentissage coordonne sur des attributs de natures diverses. La plupart du temps, un concept appris a partir d'exemples mixtes est une combinaison booleenne de proprietes binaires extraites des attributs.

3.1.2 Le pretraitement des donnees
On e ectue souvent un pretraitement (un nettoyage, pour reprendre les termes de l'ECD donnes dans l'avant-propos) des donnees avant de les utiliser dans l'algorithme d'apprentissage. Les di erents problemes a considerer incluent :
Le choix des attributs de description. Nous avons vu lors du chapitre 1 a propos de la reconnaissance de caracteres comment di erents choix sont possibles et peuvent avoir une in uence considerable sur la di culte d'apprendre. Le traitement du bruit. Les donnees disponibles sont rarement decrites parfaitement. Souvent les defauts des instruments de mesure arti ciels ou humains provoquent des erreurs. Plus grave, il arrive aussi dans le cas de l'apprentissage supervise que les reponses de l'oracle elles-m^mes soient erronees. On quali e ces types d'erreurs de bruit de descripe tion et de bruit de classi cation. Finalement, il est frequent que les donnees ne soient pas decrites completement, et qu'il y ait des valeurs manquantes a certains attributs. C'est le cas general pour les donnees medicales : seul un certain nombre d'examens cliniques sont pratiques sur chaque patient en fonction de sa pathologie, des contraintes de circonstance, etc. Ces valeurs manquantes posent souvent des problemes di ciles a resoudre (voir par exemple le cas de l'apprentissage d'arbres de decision au chapitre 11). Les donnees imprecises. Les donnees peuvent faire l'objet de descriptions vagues : par exemple : (( cet oiseau est gris )). Il faut savoir representer de tels attributs, qui apportent une certaine information. Il faut ensuite savoir les utiliser, en particulier pour les mettre en rapport avec les connaissances sur le monde et les hypotheses.

Examinons tour a tour plus precisement ces problemes.

Chapitre 3 L'environnement methodologique de l'apprentissage
x1 x2 x3 x2 x1 x2 x3 g1(x1, x2, ..., xd)

81

(a)
xd xd xd

(b)
gn(x1, x2, ..., xd)

Ce document est la propriété exclusive de nona nina (ninasbalka@gmail.com) - 27 Octobre 2009 à 09:30

Fig. 3.2 { En (a) la selection d'attributs retient les attributs les plus pertinents parmi les d

attributs de l'espace d'entrees. En (b), l'extraction d'attributs transforme les attributs de l'espace d'entree, ici par une fonction de combinaison g, pour en construire de nouveaux en nombre restreint.

3.1.2.1 Le choix des attributs de description des donnees
Generalement le choix des attributs vise a diminuer le nombre des descripteurs a n de faciliter l'apprentissage sans nuire a la qualite du resultat 6 . On distingue deux grandes approches : La selection d'attributs consiste a eliminer les attributs les moins pertinents pour l'apprentissage. Le but est de diminuer la dimensionnalite du probleme qui est a la fois une source d'imprecision et un handicap calculatoire. Si on possede une description des donnees par un ensemble de D attributs, le probleme est de chercher un sous-ensemble de d attributs qui preserve au mieux les informations necessaires a l'algorithme d'apprentissage. L'extraction d'attributs reduit la dimensionnalite de l'espace d'entree en appliquant des transformations, lineaires ou non, aux attributs initiaux. Ces deux approches sont fondees sur l'optimisation d'un certain critere J que nous ne precisons pas pour le moment. Dans le cas de la selection d'attributs, ce critere s'applique a tous les sous-ensembles d'attributs possibles parmi les D attributs initiaux, et l'on cherche le sous-ensemble Xd de dimension d D optimisant J :

J (Xd) = X 2X J (X ) Max d
Dans le cas de l'extraction d'attributs, le critere traduit la qualite des transformations possibles des D attributs initiaux, et l'on cherche la transformation maximisant ce critere :

J ( ) = Max J ( (X )) 2
ou est l'ensemble des transformations potentielles. Le critere J est generalement base sur une mesure de distance ou de similarite entre distributions, qui a leur tour requierent une mesure de distance ou de similarite entre objets. Pour plus de details sur ces mesures, nous renvoyons le lecteur a Web99] chapitre 8.
6. Notons cependant que l'on peut imaginer au contraire de construire de nouveaux attributs qui viendront s'ajouter aux attributs initiaux. C'est ce qui est mis en jeu dans les techniques a base de fonctions noyaux, et en particulier dans la technique des separateurs a vastes marges (SVM). Nous renvoyons le lecteur au chapitre 9 pour plus de details.

82

Premiere Partie : Les Fondements de l'Apprentissage

Ce document est la propriété exclusive de nona nina (ninasbalka@gmail.com) - 27 Octobre 2009 à 09:30

Si l'on possede une description des donnees par un ensemble de D attributs, le probleme de la selection d'attributs consiste a chercher un sous-ensemble de d attributs qui preserve au mieux les informations necessaires a l'algorithme d'apprentissage. Cette technique sera de nouveau evoquee un peu plus loin au paragraphe 3.1.2.3 a l'occasion de la distinction entre lter methods et wrapper methods. Au fond, on est a peu pres dans la m^me situation que celle du reglage des parametres e d'un algorithme (voir le paragraphe 3.4.4) : si l'on considere l'algorithme d'apprentissage comme parametre par le sous-espace de representation choisi, la question est de trouver le meilleur compromis entre la complexite, mesuree ici par la valeur de d, et l'e cacite, qui est la performance de l'algorithme dans l'espace de dimension reduite de D a d. Il y a deux di cultes au probleme de la selection d'attributs : La premiere est qu'en general on recherche une methode independante de tout algorithme, ceci pour ne pas faire dependre la representation des connaissances des choix operationnels qui suivront. Ce n'est pas toujours le cas : on peut parfois ^tre xe sur le choix d'un e algorithme et essayer de simpli er les donnees sans nuire a ses performances. Mais en principe on doit trouver une facon generique de mesurer la qualite d'un sous-ensemble d'attributs par un critere J . Ce n'est pas un probleme evident. Dans le probleme de classi cation, diverses mesures absolues de separabilite des classes ont ainsi ete de nies par de nombreux auteurs ( Web99]). D! La seconde di culte est qu'il y a d! (D;d)! sous-ensembles d'attributs de dimension donnee d et au total 2D . Il est hors de question de mesurer sur chacun un critere de separabilite ou la mesure de performance d'un algorithme particulier. On pourrait penser que la structure particuliere de cet espace (l'ensemble des sous-ensembles d'un ensemble ni) permet d'utiliser des methodes approximatives e caces, mais il faut ^tre prudent a ce sujet, comme le e montre l'exemple qui suit.

3.1.2.2 La selection d'attributs

Un exemple

Considerons le probleme d'apprentissage de regle de classi cation sur un ensemble de cinq points en dimension D = 3 donne a la gure 3.3. Il est facile de voir que les deux classes (representees par les symboles et ) sont bien separees, au moins sur cet ensemble d'apprentissage. De nissons un critere J , independant de tout algorithme, pour caracteriser cette propriete. Admettons que si deux points de classes di erentes sont tres proches, une petite region autour d'eux va ^tre (( neutralisee )), c'est-a-dire que tous les points d'apprentissage qui y sont e situes seront ignores. Le nombre de points restants est alors la valeur de J . Puisque la separation est parfaite en dimension 3, le critere vaut donc J = 5 au depart. Si on choisit d = 2, les gures 3.4 montrent les projections des donnees dans les trois sousespaces possibles et la valeur correspondante de ce critere (les points (( neutralises )) sont entoures d'un cercle hachure). On constate que le meilleur sous-espace est (y z ), avec une valeur J = 5 pour le critere. Les sous-espaces (x y) et (x z ) ont la valeur J = 3. Pour d = 1, les gures 3.5 montrent que le meilleur axe est x et que les deux plus mauvais sont y et z . Par consequent, l'algorithme glouton qui consiste a choisir la coordonnee la plus e cace seule, puis le couple le plus e cace comprenant cette coordonnee, serait en echec sur cet exemple, puisque le couple de coordonnees le plus e cace est constitue des deux coordonnees les moins e caces. Un grand nombre de techniques, qui relevent de variantes adaptees de l'optimisation combinatoire, ont ete proposees pour selectionner e cacement les attributs, y compris pour xer la valeur de d comme le meilleur compromis Web99].

Chapitre 3 L'environnement methodologique de l'apprentissage

83

y x z
Ce document est la propriété exclusive de nona nina (ninasbalka@gmail.com) - 27 Octobre 2009 à 09:30

Fig. 3.3 { A trois dimensions, le critere vaut 5.

y x

z y

z x

Fig. 3.4 { A deux dimensions, le meilleur sous-espace est (y z ), avec une valeur 5 pour le

critere. (x y) et (x z ) lui donnent la valeur 3.

x
critere. Les axes y et z ont la valeur 1.

y

z

Fig. 3.5 { A une dimension, le meilleur sous-espace est l'axe x, avec une valeur 2 pour le

Si les methodes classiques de selection d'attributs sont aisees a trouver dans la litterature portant sur la reconnaissance des formes ou sur la fouille de donnees (data mining), il est une technique issue de l'apprentissage arti ciel interessante et peu connue qui s'applique dans le cas supervise, en particulier quand les donnees sont decrites par de nombreux attributs dont la plupart ne sont pas pertinents. Il s'agit de la methode winnow 7 dite aussi de gradient exponentiel. Pour plus de details sur les methodes de gradient, on peut se reporter au chapitre 9. Une autre technique peu decrite fait appel a la theorie des ensembles approximatifs (rough sets) developpee par Pawlak en 1985 Paw85] et Mod93]. L'idee est de decrire d'abord les donnees par un ensemble d'attributs binaires, puis de voir combien d'entre eux peuvent ^tre retires sans e nuire a la discernabilite des donnees. La methode recente des (( couvertures de Markov )) (Markov blankets) ( KS96]) generalise cette approche a des variables discretes. Pour chaque variable, on cherche l'ensemble (la (( couverture ))) des variables dont la connaissance rend inutile celle de la variable en question.
7.
( Vannage ) , comme par exemple dans l'expression to winnow away the cha from the grain, ( separer la balle ( ) ( du grain )).

84

Premiere Partie : Les Fondements de l'Apprentissage

3.1.2.3 L'extraction d'attributs
L'extraction d'attributs transforme l'espace d'entree en remplacant les attributs d'entree par un ensemble plus petit correspondant si possible aux regularites sous-jacentes. On distingue souvent les approches par transformations lineaires de l'espace d'entree de celles par transformations non lineaires. Parmi les premieres, les plus usuelles sont : L'analyse en composantes principales, dont le but est d'identi er un petit ensemble de variables decrivant les donnees en minimisant la perte d'information. Cette derniere est mesuree par la variation dans l'echantillon de donnees, a travers une matrice de covariance ou de correlation. Cette methode ne prend pas en compte la classe des exemples : c'est une technique non supervisee. La methode d'analyse en composantes principales communes prend au contraire en compte la classe des exemples et s'appuie sur une mesure du maximum de vraisemblance ou de l'ecart aux moindres carres. Les methodes d'extraction d'attributs par transformations non lineaires sont moins employees. Parmi elles gurent : La methode des cartes auto-organisatrices de Kohonen, qui utilise une sorte de reseau connexionniste dans une approche non supervisee. Des methodes issues des recherches sur les separateurs a vastes marges (SVM). Nous renvoyons le lecteur interesse a SBE99], au chapitre 20 8 . L'analyse en composantes independantes (Independent Component Analysis, ICA), qui est une technique recente connaissant un grand developpement. Elle s'applique dans le cas ou l'on suppose que les donnees proviennent de plusieurs sources independantes, combinees par une matrice de melange. Tandis que l'analyse en composantes principales impose seulement une independance des donnees jusqu'a l'ordre deux (mais une orthogonalite des variables), l'analyse en composantes independantes suppose une independance statistique des sources, sans contrainte d'orthogonalite. (Voir HKO01], ou bien le chapitre 10 de Hay99] pour une introduction). Le chapitre 6 de CM98] est interessant a consulter a ce sujet, de m^me que les chapitres 8 et e 10 de Hay99]. Il n'est pas evident que le choix des attributs de description doive se faire prealablement a l'apprentissage. Cela suppose que le critere de choix est a priori correct, independamment de l'algorithme l'apprentissage. C'est pourquoi certaines methodes utilisent le processus d'apprentissage lui-m^me pour le choix des attributs. On peut ainsi imaginer une procedure d'apprentissage e (par exemple une induction d'arbre de decision) qui selectionne les attributs les plus informatifs, puis utilise ceux-ci dans le cadre d'une autre methode d'apprentissage. On peut aussi utiliser une procedure de selection brutale en explorant systematiquement les sous-ensembles d'attributs possibles pour determiner celui qui permet d'obtenir les meilleurs resultats. Cette derniere procedure est evidemment en general tres co^teuse. Il faut donc distinguer les methodes de choix u a priori de celles qui e ectuent ce choix en utilisant l'algorithme d'apprentissage. Les premieres s'appellent les methodes de ltrage ( lter methods), les secondes methodes d'enveloppage (wrapper methods), ce dernier mot pour souligner que l'apprentissage est inclus dans le processus de choix.
8. L'analyse en composante principale par fonctions noyaux.

Ce document est la propriété exclusive de nona nina (ninasbalka@gmail.com) - 27 Octobre 2009 à 09:30

Chapitre 3 L'environnement methodologique de l'apprentissage 3.1.2.4 Le traitement du bruit dans les donnees
Les bases de donnees dans lesquelles on essaie de decouvrir des regularites sous-jacentes a l'aide de techniques d'apprentissage arti ciel sont rarement parfaites, c'est-a-dire completement et parfaitement decrites. Non seulement les donnees peuvent comporter des erreurs de description ou d'etiquetage, ^tre imprecises, mais elles sont souvent inhomogenes, resultant de e plusieurs sources rassemblees dans des contextes di erents. Le plus souvent aussi, elles n'ont pas ete constituees dans le but d'^tre analysees par une machine 9 . Il arrive aussi que des valeurs ne e fournissent que des informations sur des contingences externes au probleme etudie. Une banque a ainsi eu la surprise de decouvrir recemment que plus de 75 % de ses clients etaient nes le 11 novembre 1911. Il etait en e et plus rapide (et sans importance apparente) pour les operateurs remplissant les ches de taper (( 111111 )). Il faut egalement tenir compte de conventions implicites, telles que signaler une date manquante par (( 9999 )), ou un poids manquant par la valeur ( ;1 kg ) . Sans precautions, il est facile d'obtenir des resultats errones et, ce qui est pire, sans ( ) que personne ne s'en apercoive. Le traitement du bruit dans les donnees n'est pas un probleme facile a resoudre, simplement parce qu'il n'est pas facile de distinguer ce qui est le resultat d'une erreur ou d'une variation non signi cative d'une observation authentique. Les methodes usuelles reposent sur des tests statistiques du niveau de pertinence. Des outils de visualisation des donnees peuvent ^tre precieux e dans la detection d'anomalies. Cependant rien ne remplace l'avis eclaire d'un expert et la ma^trise des phenomenes a la source des donnees. Il faut aussi noter que le bruit n'est pas toujours une mauvaise chose pour l'apprentissage. Au contraire, il peut arriver que l'on introduise volontairement du bruit dans les donnees a n de faciliter l'apprentissage de vraies generalisations au lieu de d'apprendre par c ur les donnees sans en induire les regularites. L'introduction de bruit agit alors comme un facteur de regularisation (voir le chapitre 17 section 17.2.2).

85

Ce document est la propriété exclusive de nona nina (ninasbalka@gmail.com) - 27 Octobre 2009 à 09:30

3.1.2.5 La discretisation de donnees continues
Certains algorithmes d'apprentissage, particulierement les algorithmes symboliques, sont incapables de traiter directement des attributs a valeur continue. Il est necessaire de les transformer en attributs a valeur discrete. Une autre raison pour discretiser un attribut a valeur continue provient de ce que la distribution des valeurs peut ne pas ^tre uniforme ou gaussienne, alors e que la plupart des algorithmes en font la supposition (parfois implicite et meconnue de l'utilisateur). Il faut alors discretiser en intervalles de distributions correspondants a des distributions uniformes ou gaussiennes. Les methodes de discretisation sont nombreuses (par segmentation, par mesures d'entropie, etc.) et souvent dediees a un contexte d'utilisation particulier. Nous renvoyons le lecteur aux publications sur le sujet, particulierement dans le domaine de la fouille de donnees (Data Mining) : HK01, WF99].

3.1.2.6 La description des donnees imprecises
L'une des methodes les plus utilisees pour decrire des donnees imprecises est la logique oue. Nous renvoyons a BM94] pour plus de details.
9. Il arrive parfois que les valeurs manquantes soient de fait plus informatives que les autres dans la mesure ou elles revelent l'interpretation du praticien (par exemple en medecine les champs manquants su sent souvent a determiner le diagnostic).

86

Premiere Partie : Les Fondements de l'Apprentissage

3.2 L'espace des hypotheses d'apprentissage
Le chapitre 1 a souligne l'utilite de de nir un espace d'hypotheses a n de ne pas avoir a representer les concepts decrivant les donnees par des descriptions en extension, c'est-a-dire par des listes d'exemples. L'espace H des hypotheses, de ni par le langage des hypotheses LH , permet le recours a une description en intension, compacte et permettant d'etablir naturellement des liens avec les autres connaissances disponibles. Le premier probleme est de savoir representer les connaissances, donc de trouver un langage approprie au contexte et a la t^che. Le second est a de savoir comment mettre en relation des hypotheses et des donnees. C'est ce que l'on appelle souvent le probleme de l'appariement (matching).
Ce document est la propriété exclusive de nona nina (ninasbalka@gmail.com) - 27 Octobre 2009 à 09:30

3.2.1 Le probleme general de la representation des connaissances

Les representations des connaissances en intelligence arti cielle ne se font pas en langage naturel, pour des raisons evidentes. On cherche plut^t des representations a la fois expressives o et concises, permettant d'exprimer tout ce que l'on desire de maniere succincte, non ambigue, independante du contexte et e cace, c'est-a-dire se pr^tant naturellement aux raisonnements e desires. Plusieurs types de representations ont ete developpes pour repondre a ces exigences. Il est interessant de les comparer du point de vue de l'apprentissage. 1. Quels types de regularites ou de connaissances veut-on representer? Des categories ou classes ou concepts. Des probabilites d'appartenance a une categorie. Des ontologies, c'est-a-dire des classes organisees hierarchiquement. Des regles d'association, des re exes. Des dependances causales. Des descriptions relationnelles. Des evolutions temporelles. 2. Quelles sont les caracteristiques des entrees disponibles? Entrees perceptives brutes ou deja pretraitees. Entrees discretes ou continues. Entrees bruitees ou non. Entrees correspondant a des phenomenes deterministes ou non. Entrees a ectees d'incertitude. Entrees a ectees d'imprecision. Entrees (( plates )), telles que des vecteurs d'attributs, ou structurees par des relations et une organisation, comme des graphes. 3. Quel degre de transparence ou d'interpretabilite souhaite-t-on dans les hypotheses produites par le systeme? Ce dernier aspect est tres important. Si l'on cherche seulement un systeme performant sur une t^che donnee, sans qu'il y ait necessite d'interaction avec un (( expert )), une a representation opaque est acceptable. C'est par exemple le cas d'un systeme de reconnaissance de caracteres ou d'identi cation de locuteurs sur la base d'un signal sonore. En revanche certaines applications exigent que l'utilisateur puisse examiner la connaissance produite par le systeme. C'est le cas d'un systeme de diagnostic medical et plus encore d'un systeme charge de faire des recommandations therapeutiques. Mais cela peut

:::

Chapitre 3 L'environnement methodologique de l'apprentissage
aussi ^tre utile lorsque l'expert peut aider le systeme a apprendre en lui transmettant e des connaissances a priori. Encore faut-il qu'il soit alors possible de les traduire pour la machine. C'est generalement impossible avec une representation (( opaque )) telle que la representation utilisee dans les reseaux connexionnistes qui consiste en une matrice de nombres correspondant aux poids des connexions du reseau. C'est en revanche plus facile si la representation utilise un formalisme logique. Nous presentons maintenant les di erents espaces d'hypotheses H que nous allons rencontrer par la suite. Ces espaces de representation seront decrits avec plus de precision au fur et a mesure des chapitres a venir. Pour le moment, il est seulement question de faire un tour d'horizon des representations utilisees en apprentissage arti ciel. Il est d'ailleurs interessant de noter que toutes les techniques de representation des connaissances utilisees en intelligence arti cielle ne sont pas citees ici : certaines d'entre elles ne se pr^tent pas (encore?) a l'apprentissage. e La table de la page suivante presente d'abord les qualites des di erentes representations des hypotheses en fonction des criteres cites ci-dessus.

87

Ce document est la propriété exclusive de nona nina (ninasbalka@gmail.com) - 27 Octobre 2009 à 09:30

Concept Classes multiples Ontologies Regression Evolutions temporelles Apprentissage non supervise Donnees continues Connaissances relationnelles Degre de certitude Degre d'imprecision Transparence, intelligibilite

p p

p -

p

L'apprentissage d'une regle de classi cation est l'un des themes de l'apprentissage arti ciel le plus traite. Il y a plusieurs raisons a cela : d'abord, on sait l'aborder du point de vue des theories de l'apprentissage, la plupart du temps dans le cas de deux classes (mais on peut assez facilement generaliser a un nombre quelconque). Ensuite, un grand nombre de methodes et d'algorithmes existent, en particulier dans le cas ou l'espace de representation est numerique. On est alors dans

3.2.2.1 De nition

3.2.2 La classi cation

sepa Dis ratr trib ices utio n Fon ctio s de p r n Arb s etat obabili te res !a de d ctio s e n Hie rarc cision h Res ies de eau con xb aye cepts Cha si ^ne s de ens Ma Gra rkov mm aire s Sys tem es d e re gles

Fon cti

ons

p p
p

p p p
p p p

p - p p p p p p - p p - p - p p p

p

p p p p

p p p

p

p -

p

p p

p p p p

p

p p p

p
p

p

p
p

88

Premiere Partie : Les Fondements de l'Apprentissage

le domaine classique de la reconnaissance statistique des formes (statistical pattern recognition). En n, apprendre a classer est un probleme central de l'intelligence, naturelle comme arti cielle. Intuitivement, une regle de classi cation est un acte cognitif ou une procedure permettant d'a ecter a un objet la famille a laquelle il appartient, autrement dit de le reconna^tre. C'est ainsi qu'un enfant apprend a classer les animaux domestiques en (( chiens )) ou (( chats )), les plats en (( sale )) ou (( sucre )), etc. Par analogie, les ordinateurs de bureau qui reconnaissent l'ecriture manuscrite ont appris (gr^ce a un programme d'apprentissage automatique) des regles pour disa tinguer les signes traces d'autres programmes savent classer des sons, des signaux biomedicaux, etc. Toutes les procedures qui simulent des fonctions perceptives doivent evidemment posseder des capacites de generalisation, c'est-a-dire ^tre munies de la faculte d'induction, sans quoi elles e ne seraient capables de reconna^tre que les exemples qui ont servi a les entra^ner.
Ce document est la propriété exclusive de nona nina (ninasbalka@gmail.com) - 27 Octobre 2009 à 09:30

Un exemple est un couple (x u), ou x 2 X est la description ou la representation de l'objet et u 2 U represente la supervision de x. Dans un probleme de classi cation, u s'appelle la classe de x et appartient a un ensemble C = f!1 : : : !C g. C designe le nombre de classes possibles pour un objet.

3.2.2.2 Classe, concept De nition 3.1 (exemple)

C doit ^tre ni et en pratique petit pour que l'on puisse reellement parler de classi cation. Des e exemples de classes sont : les sons du langage, l'alphabet, les especes des oiseaux, un diagnostic medical, la presence ou l'absence d'une propriete pour un objet (par exemple qu'une carte a jouer soit un (( honneur ))), etc. Dans le cas ou C = 2, il est usuel de considerer que l'on fait l'apprentissage d'un concept, c'est-a-dire du partage de l'espace de representation en deux parties, l'une ou le concept est veri e, l'autre ou il est invalide. Dans ce cas, on note 10 en general C = fV RAI FAUX g et on appelle contre-exemples les donnees classees FAUX (on garde le mot d'exemples pour les autres). Il est a noter que le cas C = 1 est presque equivalent au precedent, puisqu'il s'agit d'apprendre aussi un concept, mais a partir seulement d'exemples en pratique, cependant, les algorithmes seront di erents. Par exemple, un enfant apprend sa langue maternelle avec un (( algorithme )) de generalisation ou le r^le des contre-exemples est faible. En revanche, il classe les matieres d'enseignement o en celles qu'il aime et celles qu'il n'aime pas a partir d'une base d'apprentissage composee d'exemples des deux cas.

3.2.2.3 Les fonctions separatrices entre classes
des classes en celui des fonctions separatrices.

Au lieu d'essayer d'approcher directement la fonction de classi cation cible f : X ! f!1 : : : !C g par une regle de classi cation, il est souvent plus facile de transformer l'espace
Une fonction separatrice, ou fonction de decision ij : H ! IR entre la classe !i et la classe !j est telle que ij (x) 0 pour tous les objets x que la fonction cible a ecte a la classe !i et ij (x) 0 pour tous les objets qu'elle a ecte 11 a la classe !j . 10. Parfois C = f+ ;g, ou C = f1 0g.

De nition 3.2 (fonction separatrice)

Chapitre 3 L'environnement methodologique de l'apprentissage
L'espace de l'apprentissage devient alors un ensemble d'hypotheses consitue de fonctions separatrices. Ces fonctions peuvent ^tre de natures extr^mement variees : par exemple des hye e perplans (voir le chapitre 9), ou calculees a partir de reseaux connexionnistes multicouche (voir le chapitre 10) ou de densites de probabilite (voir le chapitre 14), etc. Dans la de nition ci-dessus, on ne considere que le signe de la fonction de decision pour decider de la region d'appartenance de l'entree x (voir gure 3.6 (a)). On parle souvent dans ce cas de fonctions separatrices a seuil. Dans le cas ou il y a plus de deux classes, on peut combiner plusieurs fonctions de decision permettant ainsi une division de X en plusieurs regions (voir gure 3.6 (b)). On y reviendra au chapitre 9.
Ce document est la propriété exclusive de nona nina (ninasbalka@gmail.com) - 27 Octobre 2009 à 09:30

89

+

-

(a)

(b)

Fig. 3.6 { Classi cation par fonctions separatrices. En (a) la fonction separatrice determine

deux classes suivant le signe de la sortie de la fonction. En (b), une classi cation pour plus de deux classes est obtenue par la combinaison de plusieurs fonctions separatrices.

Si en plus de son signe, on considere aussi la valeur de la sortie de la fonction de decision, il devient possible d'interpreter cette derniere comme une mesure de con ance dans la decision, selon l'idee naturelle que plus la forme d'entree est (( eloignee )) de la frontiere, plus son appartenance a la classe designee est peu susceptible d'^tre remise en cause. Nous verrons que cette e observation de bon sens est a l'origine d'un renouveau tres fort pour l'utilisation de ces fonctions de decisions (voir les separateurs a vastes marges dans le chapitre 9). En dehors de leur simplicite conceptuelle et pratique evidente, les fonctions separatrices permettent de mettre en uvre naturellement un appariemment partiel entre entree et hypothese. En e et, les fonctions separatrices peuvent se concevoir comme une sorte de produit scalaire de ni sur X H. Ainsi, dans le cas du perceptron, deja rencontre au cours du chapitre 2, la fonction de decision est de nie par :

wT x

(

0 =) <0

x 2 !1 !2

(

(3.1)

en considerant le vecteur de description des observations augmente xT = (1 x1 x2 : : : xd ) et le vecteur poids w augmente du seuil w0 : wT = (w0 w1 w2 : : : wd ). Cette faculte d'appariemment partiel dans lequel c'est l'(( alignement )) entre l'entree et l'hypothese qui decide de la classe de l'entree est une propriete tres interessante qui n'est pas
11. L'a ectation pour ij (x) = 0 se fait en general arbitrairement.

90

Premiere Partie : Les Fondements de l'Apprentissage

aussi facile a mettre en uvre dans les formalismes logiques par exemple. C'est une des raisons de la popularite des fonctions de decision.

3.2.3 La regression

Ce document est la propriété exclusive de nona nina (ninasbalka@gmail.com) - 27 Octobre 2009 à 09:30

La regression concerne le cas ou H est un ensemble de fonctions h a valeurs reelles. Une generalisation, la regression multidimensionnelle, est l'apprentissage d'une hypothese h : X ! IRn . On cherche donc a apprendre une fonction a partir d'un ensemble de points et des valeurs que prend cette fonction sur ces points. Il n'y a pas de contre-exemples dans un tel probleme d'apprentissage 12 . Il sera en particulier question de regression quand nous verrons l'apprentissage par renforcement, au chapitre 16.

3.2.4 Les distributions de probabilites

Au lieu de delimiter des frontieres de decision sur l'espace X , on peut y de nir des distributions de probabilites. Chacune de ces distributions est associee a une classe et determine la probablite qu'un objet x 2 X appartienne a la classe (voir gure 3.7). Pour qu'il soit aise de manipuler ces distributions et que l'on puisse contr^ler leur pouvoir de generalisation (cf. o chapitre 2), elles sont generalement prises au sein de familles parametrees de distributions, par exemple des fonctions gaussiennes. Nous y reviendrons au chapitre 14.

1 0.75 0.5 0.25 0 0 -5 0 5 -5

5

Fig. 3.7 { Deux distributions de probabilite correspondant a deux classes d'objets.

Lorsque les exemples s'expriment comme des vecteurs d'attributs valeurs, et particulierement quand ces attributs sont a valeurs discretes, il est commode de decrire les concepts par des arbres de decision comme celui de la gure 3.8. Un arbre de decision prend la description d'un exemple en entree et lui associe une classe. Chaque n ud de l'arbre correspond a une question portant sur un attribut 13. De la sorte, en suivant une sequence de n uds et de branches depuis la racine de l'arbre jusqu'a une feuille, on ra ne progressivement la description des exemples concernes jusqu'a
12. On peut aussi voir la regression comme un probleme de classi cation generalise, dans lequel le nombre C de classes serait in ni. 13. Ces attributs peuvent aussi ^tre numeriques, comme on le verra au chapitre 11. Dans ce cas, on les compare a e un seuil et chaque branche est associee a une valeur ou a un intervalle de valeurs possibles pour cet attribut.

3.2.5 Les arbres de decision

Chapitre 3 L'environnement methodologique de l'apprentissage
obtenir une description correspondant, si tout va bien, aux objets d'une classe. Chaque branche correspond a une conjonction de conditions sur les attributs decrivant les exemples.
Type d'application

91

Intelligence artificielle

Numérique

Ce document est la propriété exclusive de nona nina (ninasbalka@gmail.com) - 27 Octobre 2009 à 09:30

Type de langage

Langage objet

Fonctionnel

Logique

Oui

Non

Lisp

Prolog

Langage récent

Langage récent

Oui

Non

Oui

Non

Java

Smalltalk

C

Fortran

Fig. 3.8 { Un exemple d'arbre de decision. Chaque n ud rectangulaire correspond a une ques-

tion. Chaque eche correspond a une reponse possible. Ici toutes les questions sont binaires, mais ce n'est pas necessairement le cas.

= intelligence artificielle & type de langage = logique >>

Par exemple, dans la gure 3.8, une interpretation est la suivante : << Type d'application ! Prolog) L'ensemble des branches correspond ainsi a un ensemble de regles d'association decrivant les classes. Le langage de ni par les arbres de decision est equivalent a la logique des propositions, chacun des tests etant une variable booleenne. Toute fonction booleenne peut ^tre exprimee par e un arbre de decision. En revanche, un arbre de decision ne peut pas exprimer un concept relationnel comme : 9 x m^me-couleur(x y) & envergure(x e1) & envergure(y e2) & plus-petit(e1 e2) e dont la signi cation est : (( les oiseaux x de m^me couleur qu'un oiseau donne y mais d'envergure e inferieure )) : ce type de concept appartient a la logique des predicats (voir le chapitre 5). Par ailleurs, si certaines fonctions s'expriment de maniere economique a l'aide d'arbres de decision, d'autres ne sont pas adaptees a cette representation. Par exemple la fonction parite qui retourne 1 si et seulement sur un vecteur booleen si un nombre pair d'attributs valent 1 s'exprime par un arbre tres complexe. Nous approfondirons cette maniere de representer les concepts au chapitre 11.

3.2.6 Les hierarchies de concepts

Les arbres de decision introduisent l'idee de hierarchie sur les attributs, mais pas sur les concepts. Les attributs places plus pres de la racine sont en quelque sorte plus importants que

3. 3. La gure 3. Les liens entre n uds s sont diriges. Lorsque les dependances et les independances entre les variables aleatoires sont explicitees dans un graphe. De nombreux types de representations de concepts peuvent donner lieu a des organisations hierarchiques. ( diagrammes d'in uence ) (in uence diagrams). p(ZO) = 0.com) . Il peut ^tre souhaitable d'exprimer explicitement une hierarchie dans le langage des concepts.0 SA p(SA | FN) = 0.7 p(FN) = 0.ZO) = 0.7 Les reseaux bayesiens et les modeles graphiques De nombreux types de dependances peuvent ^tre representes a l'aide de structures probabie listes.9 p(CP | FN. tandis que SA ne depend. L'ideal est que l'apprenant lui-m^me construise la hierarchie et soit pr^t a la modi er si de e e nouvelles informations en indique l'utilite. Le chapitre 15 fournit des precisions a ce sujet.2. ou ontologies pour peu que l'on explicite les liens de hierarchie.27 Octobre 2009 à 09:30 les attributs plus eloignes.92 Premiere Partie : Les Fondements de l'Apprentissage Ce document est la propriété exclusive de nona nina (ninasbalka@gmail.¬ZO) = 0.05 p(CP | ¬FN.95 p(SA | ¬FN) = 0. on parle de champs de Markov aleatoires (random Markov elds). on souligne cette transparence en parlant de modeles graphiques (on trouve aussi les termes de (( reseaux de croyance )) (belief networks).9 montre un exemple d'un tel reseau.ZO) = 0.0 p(CP | ¬FN.¬ZO) = 0. Les variables sont associees aux n uds du reseau et les liens manquants entre les n uds indiquent une certaine independance entre ces n uds (les de nitions precises seront donnees dans le chapitre 12). Il peut egalement ^tre interessant e de disposer de relations d'heritage entre un concept et ses sous-concepts.95 ZO FN p(CP | FN. La base des calculs e ectues dans ces struc( ) tures est la formule de revision des probabilites de Bayes et pour cette raison ils sont egalement appeles reseaux bayesiens. . On les rencontre generalement en apprentissage non supervise. (( reseaux causaux )) (causal networks). Lorsque les liens sont symetriques ou non diriges. Il existe peu de systemes d'apprentissage aptes a de telles constructions. CP pouvant decouler de o FN et/ou de ZO. selon ce reseau. e C'est le cas par exemple pour les taxonomies de la classi cation biologique : le concept de rapace est situe en dessous du concept oiseau et plus haut que faucon. Les variables FN et ZO sont a ectees de leur probabilite a priori. Cependant de telles organisations sont alors souvent arti cielles. pour indiquer des dependances causales ou temporelles. tandis que les variables SA et CP sont associees a des matrices de probabilites conditionnelles indiquant leur dependance sur les variables FN et ZO.9 { Un exemple de reseau bayesien. que de FN.1 CP Fig. Ici les deux variables FN et ZO jouent le r^le de variables causales. quand c'est au systeme de decouvrir des classes dans l'environnement.

les cha^nes de Markov ne sont qu'un cas particulier de modeles graphiques tels qu'ils viennent d'^tre decrits. ou d'autres types de dependances lineaires. Elles representent en e et les dependances temporelles e dans une sequence de variables S0 : : : St : : : Lorsque chaque variable ne depend que de la variable precedente dans la sequence. comme par exemple une cha^ne d'ADN. comment leurs valeurs devraient ^tre estimees ou revisees a e la lumiere des sequences de symboles observees? (Question relative a l'apprentissage). Le systeme evolue aleatoirement d'un etat a l'autre suivant les probabilites de transition en emettant des symboles de l'alphabet. un modele de Markov cache (d'ordre un) est un modele generatif de sequences de ni par un ensemble d'etats.27 Octobre 2009 à 09:30 P (St jS0 : : : St. Une generalisation des cha^nes de Markov s'appelle les modeles de Markov caches (Hidden Markov Models ou Hmm). on dit que l'on a une cha^ne de Markov : Ce document est la propriété exclusive de nona nina (ninasbalka@gmail. C'est ce que fait une grammaire formelle : un compilateur de langage de programmation est un programme qui repond a la question : (( est-ce que le programme que l'on vient de me soumettre est correct du point de vue de ma syntaxe ? )).2. comme par exemple des cours boursiers ou un signal acoustique. souvent appele un alphabet dans ce cas. un compilateur du langage C repond V RAI a la sequence : #include <stdio. de nature spatiale.h> #include <math. qui sont internes au modele. une matrice de probabilites de transitions entre etats et une matrice de probabilite d'emissions de chaque symbole de l'alphabet a partir de chaque etat. Par exemple. 3. et non les transitions entre etats. 93 3.2. Finalement. Le chapitre 13 est consacre aux methodes d'apprentissage adaptees a ce formalisme des modeles de Markov caches.9 Les grammaires Quand on a a aire a des sequences d'elements d'un ensemble nominal.h> int N double x.1 ) Intuitivement. Le formalisme des cha^nes de Markov est particulierement adapte pour la representation de sequences. en supposant que les parametres de transition et d'emission ne soient pas parfaitement connus. Seuls les symboles emis sont observables. Trois types de questions au moins peuvent se poser lorsque l'on represente une sequence par un modele de Markov : quelle est la probabilite d'observation de telle sequence etant donne tel modele? (Question relative a la vraisemblance).8 Les cha^nes de Markov et les modeles de Markov caches A strictement parler. ou du moins que celui-ci possede su samment d'informations pour qu'il ne soit pas utile de considerer le passe.Chapitre 3 L'environnement methodologique de l'apprentissage L'apprentissage peut alors consister a trouver une structure de dependances entre variables (le graphe) ou a estimer les probabilites conditionnelles de nissant ces dependances. qu'elles soient de nature temporelle.1 ) = P (St jSt. " %f %f\n".res main() {N=0 while (N<21){fprintf(stdout. La sequence d'etats est donc une sequence de variables cachees ou latentes expliquant les observations. Quelle est la sequence d'etats la plus probable dans le modele de Markov sachant que telle sequence de symboles a ete observee? (Question relative au decodage). cela peut ^tre interprete comme le fait que le futur ne depend que de l'etat e present. le concept a apprendre doit separer l'espace de toutes les sequences possibles en deux.n) N = N+1 }} . Le chapitre 12 traite en particulier de l'apprentissage de reseaux bayesiens.com) . Formellement. un alphabet discret de symboles.

Mesurons sa valeur sur les objets suivants : vole a des plumes pond des ux oiseau classe valeur de h V RAI V RAI VRAI VRAI moineau VRAI FAUX V RAI VRAI VRAI autruche FAUX Le premier objet est represente correctement par le concept. un attribut continu peut ^tre transforme en attribut binaire par comparaison a un seuil. sous la forme particuliere d'arbres de decision. decrits par des attributs binaires : On peut par exemple induire le concept ci dessous : V RAI FAUX V RAI V RAI vole a des plumes pond des ux V RAI FAUX FAUX V RAI V RAI V RAI FAUX V RAI V RAI FAUX FAUX V RAI oiseau classe oie ornithorynque rhinolophe cygne h = (vole) ^ (a des plumes) ) (oiseau)] Ce concept est ecrit dans le langage de la logique des propositions. ou logique booleenne ou encore logique d'ordre 0. une grammaire du francais repondrait exactement le contraire. e . Par exemple.com) . ou dont la representation naturelle peut facilement ^tre transformee en vecteurs binaires 14. Il est V RAI pour tous les exemples.27 Octobre 2009 à 09:30 La logique des propositions Si on dispose de l'ensemble des exemples et contre-exemples suivants. Il en sera egalement question au chapitre sur l'espace des versions (chapitre 4). La representation par attribut-valeur La logique des propositions peut s'etendre en remplacant les valeurs binaires des attributs par des valeurs nominales ou hierarchiques. Le chapitre 11 traitera en partie e de l'apprentissage de ce type d'hypotheses. la generalisation realisee ne serait donc ici pas parfaite. Premiere Partie : Les Fondements de l'Apprentissage Naturellement. mais pas le second. A supposer que l'on veuille apprendre le concept (( oiseau )).10 Les formalismes logiques Ce document est la propriété exclusive de nona nina (ninasbalka@gmail.94 Il repond FAUX a celle-ci : Je sais programmer en C. Les exemples se representent alors de la maniere suivante : couleur forme nombre de pieds classe rouge hexagonale 3 tabouret jaune carree 4 tabouret vert ronde 4 table jaune ovale 6 table 14. Ce langage de representation des hypotheses est comme on le voit particulierement adapte aux exemples representes par des vecteurs binaires.2. Les modeles grammaticaux que l'on sait apprendre ne sont pas en realite aussi complexes. 3. On verra au chapitre 7 comment on peut par inference grammaticale generaliser des ensembles de sequences. en particulier sous la forme d'automates nis.

comme : 8x Homme(x) = V RAI () Femme(x) = FAUX 8x Homme(x) = FAUX () Femme(x) = V RAI A partir de ces exemples et de cette theorie du domaine. Les concepts sont partiellement ordonnes dans une base de connaissances organisee en taxonomie par une relation de subsomption. dont la signi cation formelle sera donnee au chapitre 5. mais sur des couples (attribut valeur). L'apprentissage de tels concepts s'appelle la programmation logique inductive. voir la gure 3. comme frouge vert jaune bleug. un programme de generalisation en logique du premier ordre peut apprendre le concept : 8x 8y (P ere(y) = x) ^ (Femme(x) = V RAI ) ) (Fille(x) = y) La di erence avec l'apprentissage en logique des propositions est importante : cette formule est gouvernee par des quanti cateurs 8 (quelque soit) et 9 (il existe) qui sont hors du langage booleen.27 Octobre 2009 à 09:30 L'inter^t des langages par attribut-valeur est celui des langages types par rapport aux e langages non types : ils permettent un contr^le plus facile des inferences. chaude] ^ ( forme = carree] _ forme = hexagonale]) Ce document est la propriété exclusive de nona nina (ninasbalka@gmail. les principaux mecanismes d'inference deductive sont la classi cation de concept. La relation Fille(1 2) = V RAI s'interprete comme : l'individu 2 est une lle de l'individu 1. Les logiques de description Les logiques de description forment une famille de formalisme de representation des connaissances dediee principalement a la gestion automatique de la de nition de concepts (ensemble d'individus) et de raisonnement sur ces concepts. le programme d'apprentissage dispose de connaissances a priori.com) .Chapitre 3 L'environnement methodologique de l'apprentissage Le langage attribut-valeur dans lequel on represente le concept appris est semblable a celui de la logique des propositions : on y utilise aussi des conjonctions et des disjonctions. eventuellement partiellement ordonne. qui consiste a inserer automatiquement un concept de ni a la place la plus speci que dans la taxonomie. . o La logique des predicats Supposons que nous disposions des donnees ci-dessous. Chaque attribut nominal ou hierarchique (par exemple couleur. Les autres relations ont une signi cation naturelle. citons ici le systeme Classic BPS94]. Un concept tabouret appris dans le langage attribut-valeur pourrait ^tre par exemple : e 95 couleur = couleur . La generalisation realisee est par consequent beaucoup plus radicale et profonde (elle est aussi plus di cile a faire). et la (( reconnaissance d'instances )) qui consiste a trouver pour un individu donne tous les concepts dont il est instance. De nombreux systemes de representation ont ete de nis dans ce cadre. chaude = frouge jauneg. avec couleur . Bases sur des calculs de subsomption. Pour le moment.1) prend sa valeur dans un ensemble de de nition ni. Nom(1) = Eve M ere(1) = Marie P ere(1) = Max Homme(1) = FAUX Nom(2) = Max M ere(2) = Adele P ere(2) = Max Homme(2) = V RAI Fille(1 2) = V RAI D'autre part. Il sera developpe au chapitre 5. nous pouvons en rester a l'interpretation suivante : le numero 1 ou 2 represente un individu.

il faut distinguer les espaces discrets des espaces continus. sans avoir l'ambition de l'exhaustivite (le lecteur pourra se reporter par exemple a PS82] et CGH96]). Etant donnee la de nition d'un voisinage dans l'espace des solutions. Cette fonction est en general reelle positive. A condition de disposer d'une evaluation de chaque hypothese par une fonction de co^t. Dans les espaces discrets. Les espaces continus sont lies a des representations numeriques des hypotheses (par exemple des reseaux connexionnistes).3. On distingue les methodes d'exploration directes. On rencontre les premiers principalement dans les problemes d'apprentissage impliquant des representations symboliques des hypotheses (par exemple des grammaires). des methodes indirectes dans lesquelles l'exploration est guidee par des proprietes de la fonction de co^t (comme les derivees par exemple). Cette notion de voisinage est par consequent centrale.96 Premiere Partie : Les Fondements de l'Apprentissage 3. apprendre revient essentiellement a chercher la meilleure hypothese dans H. Il est possible de les enumerer et d'explorer exhaustivement le voisinage d'une hypothese. Les methodes d'optimisation dependent du type de u solution cherchee. Il s'agit de trouver des valeurs a ces variables telles e que la fonction co^t soit minimale. operant par iterations et dont le resultat. L'ensemble des techniques developpees pour resoudre les problemes d'optimisation est tres vaste. 3. les elements du voisinage sont generalement de nis par des operateurs di erentiels et les directions de recherche sont choisies a partir du calcul de derivees de la fonction de co^t au voisinage du point courant. par exemple le u risque empirique si on se place dans le principe d'apprentissage ERM . Cette section vise a jalonner le panorama des methodes relevant des problemes speci ques qui peuvent se poser en apprentissage. les elements du voisinage sont de nis par des operateurs de modi cation syntaxique. Cependant. trouver une solution optimale est u en general irrealisable. Dans les espaces continus. depend du point initial. L'optimisation consiste donc en principe a identi er une solution optimale vis-a-vis de la fonction de co^t.3.3. Ce sont en general les problemes dits de (( satisfaction de contraintes )). Ce document est la propriété exclusive de nona nina (ninasbalka@gmail. de nie pour chaque hypothese h. dans un ensemble de solutions. dans lesquelles l'exploration se fait par evaluation e ective des solutions du voisinage.com) . de la fonction de co^t a optimiser. puisqu'elle o re la possibilite d'explorer rationnellement l'espace des hypotheses. un optimum local. u Il existe egalement des problemes d'optimisation dans lesquels les solutions ne sont de nies que pour des domaines de validite des di erentes variables en jeu. Les variables sont dans ce . on peut donc considerer l'apprentissage comme un probleme d'opu timisation : il s'agit de trouver l'element de H pour lequel la fonction de co^t prend la valeur u maximale.27 Octobre 2009 à 09:30 3.1 Caracterisation de l'espace de recherche L'une des methodes d'optimisation les plus generales consiste a utiliser un algorithme de recherche locale. En ce qui concerne ces derniers.1 L'optimisation d'une fonction numerique de co^t u On dispose d'une fonction dite de co^t c(h).2. des contraintes eventuelles a satisfaire et u des proprietes de l'espace a explorer. l'idee est d'ameliorer au fur et a mesure une solution provisoire en la remplacant par une solution meilleure et situee dans son voisinage.2 Caracterisation des fonctions de co^t u 3. Une hypothese u depend elle-m^me d'un ensemble de variables. et l'on doit se contenter d'approches locales.3 La recherche dans l'espace des hypotheses Une fois choisi l'espace H des hypotheses.

Nous emploierons un peu plus loin la notation REmp (ht S H). ce sont en particulier les techniques de la programmation lineaire qui peuvent s'appliquer.. { Si c(h) n'est pas lineaire en fonction des variables.3 Les methodes d'optimisation minimiser le risque empirique (principe ERM ). On obtient 15. Les contraintes peuvent ^tre lineaires ou non. Plusieurs techniques sont applicables.27 Octobre 2009 à 09:30 3.1 L'optimisation par gradient dans un espace continu On se place ici dans le cas ou l'espace des hypotheses H est continu et ou on cherche a 3. H est toujours assimilable a IRd . dans ce cas il n'y a qu'un seul optimum de la fonction. Toutes les methodes d'optimisation locales par gradient rentrent notamment dans cette categorie. ou encore de trouver une sequence d'etats de probabilite maximale dans une cha^ne de Markov. En pratique.3. ou parcourue en e un temps minimal.3. 2. Le cas des contraintes lineaires sera aborde a e l'occasion de l'apprentissage de separateurs a vastes marges (SVM) au chapitre 9 mettant en jeu la methode des multiplicateurs de Lagrange. algo . Le probleme est de trouver le minimum de la fonction de co^t c(h) de nie sur l'ensemble complet des solutions H. Le risque empirique de l'hypothese courante peut alors se noter 16 REmp (wt ). 3. En e et. mais pour l'instant celle-ci est su sante. L'optimisation avec contraintes. Notons w le vecteur de IRd caracterisant une hypothese a l'etape t. En toute rigueur. mais est a valeur reelle et derivable par rapport a ces variables. 16. comme les algorithmes par separation et evaluation (branch and bound) et particulierement l'algorithme A ( Nil98]). Par exemple. qui est evidemment l'optimum global. On peut le supposer derivable 15 par rapport aux parametres qui caracterisent l'hypothese. Pour approcher l'hypothese cherchee. L'optimisation sans contrainte.2 L'optimisation d'une fonctionnelle Il peut s'agir aussi de chercher une fonction dont une certaine propriete est optimale. l'un des algorithmes d'apprentissage les plus simples consiste a ajuster le vecteur w par une procedure de descente de gradient a n d'optimiser la mesure de performance de REmp(wt ) sur S . cela supposerait un nombre in ni d'exemples.com) .3. Deux grandes familles de techniques se rencontrent : 1.. On se contente d'une approximation naturelle. alors les methodes de la programmation non lineaire peuvent s'utiliser. u { Si c(h) est lineaire a valeur reelle et derivable par rapport aux variables. 97 Ce document est la propriété exclusive de nona nina (ninasbalka@gmail. celle qui minimise le risque empirique. Il s'agit de trouver l'optimum d'une fonction objectif sous certaines contraintes portant sur les variables de decision.Chapitre 3 L'environnement methodologique de l'apprentissage cas les parametres de l'hypothese a apprendre : par exemple les poids d'un reseau connexionniste. { Il est interessant de distinguer le cas particulier ou la fonction c(h) est convexe par rapport aux variables qui de nissent h. on peut envisager les methodes de recherche dans les graphes developpees en intelligence arti cielle. Si l'espace est discret.3. le probleme peut ^tre de trouver une trajectoire de longueur minimale. On ne risque donc pas de s'egarer dans un optimum local. Ces contraintes qui de nissent le domaine de validite des variables peuvent prendre la forme d'egalites (hypersurfaces dans le domaine de de nition des variables) ou d'inegalites (regions admissibles). On peut aussi esperer pouvoir appliquer les techniques de la programmation dynamique.2.

Cette (( erreur )) de convergence vers un minimum local se rencontre tres souvent en pratique. @u f (u) avec reel positif. A partir du point note wt . Dans l'espace IR. calcule avec la m^me valeur de . A cet endroit.2) f (u) wt+1 vt vt+2 ulocal wt vt+1 ut t+1 u+2 t u u Fig. quoique toujours positif. on retranche a wt une quantite proportionnelle a la valeur au point wt de la derivee du risque empirique par rapport a w. Cette equation exprime l'algorithme suivant : pour choisir la prochaine valeur wt+1 . La fonction a optimiser est notee f et l'unique valeur cherchee est notee u . mais converge par valeurs alternativement superieures et inferieures a la valeur nale. en prenant @ ut+1 = ut . On assiste de la sorte a la convergence de la suite vers la valeur minimale u cherchee. 3. avec une valeur superieure pour . { La valeur atteinte n'est pas le minimum u . Par consequent. obtiendra ut+1 ut . la suite va diverger. @REmp (w) @ w wt (3. le gradient est plus petit.com) . wt obeissant a l'equation de recurrence : = wt . on au point indique. Le point suivant ut+2 .27 Octobre 2009 à 09:30 ou est un reel positif que l'on appelle le pas d'apprentissage et @REmp (w) jwt est la derivee @w partielle du critere REmp (w) par rapport au parametre w a l'etape wt . mais il y a deux di erences avec le cas precedent : { La suite n'est plus strictement croissante ou decroissante. Construisons maintenant une autre suite a partir du point vt .10.10 { Une illustration de la methode de descente de gradient. mais une ulocal . Cette suite converge aussi. On y voit trois cas caracteristiques : @ Si ut se trouve dans la partie droite du graphe. le gradient @u f (u)jut est positif et grand. en prenant encore plus grand.98 Premiere Partie : Les Fondements de l'Apprentissage alors une sequence de vecteurs w0 w1 wt+1 Ce document est la propriété exclusive de nona nina (ninasbalka@gmail. e sera donc plus proche de ut+1 que ut+1 l'etait de ut . l'illustration de la methode et de ses faiblesses est donnee sur la gure 3.

on se trouve sur une certaine hypothese h. La di culte de ces problemes est qu'ils sont souvent NP -di ciles. on verra dans le chapitre 7. Si elle est la meilleure dans son voisinage. en de nissant une notion de voisinage. certaines approximations des ameliorations de la methode du gradient peuvent ^tre appliquees approximativement dans les espaces discrets. La gure 3. sur l'inference grammaticale. c'est-a-dire d'associer a chaque solution un ensemble de solutions voisines. si l'hypothese de depart est formalisee comme le no ud d'un graphe. L'idee est de de nir un voisinage. nous rappelons brievement les bases de quelques methodes dans la suite. Leur objet est de trouver une solution optimale (locale ou de preference globale) dans un ensemble ni mais souvent extr^mement vaste de solutions potentielles sur lequel est de nie une fonction e de co^t. ^tre transformee en un certain e nombre d'autres hypotheses qui lui sont proches de ce point de vue. L'optimisation se deroule alors selon le principe suivant : en cours de recherche. la signi cation de cette structure est la suivante : chaque hypothese peut. Les methodes de recuit simule.11 represente cette situation : 17. classiques en recherche operationnelle et en intelligence arti cielle (en particulier toutes les techniques d'exploration de graphes. Mais on ne sait pas le demontrer. Autrement dit. par des modi cations syntaxiques simples.com) . Diverses methodes empiriques permettent d'eviter les minima locaux : la methodes des directions tabou en est une. Mais il est possible d'en conserver le principe. .3.2 Les methodes locales pour les problemes d'optimisation combinatoire Les problemes d'optimisation combinatoire font partie des mathematiques discretes. Sans entrer dans les details. nous formalisons un peu plus cette approche discrete de l'optimisation par gradient dans le cas ou l'espace que l'on explore peut ^tre mis sous la forme d'un e graphe. 99 Ce document est la propriété exclusive de nona nina (ninasbalka@gmail. puis d'ameliorer la solution courante en la remplacant de maniere iterative par (generalement) une meilleure solution dans son voisinage. on choisira celle dans le voisinage qui fait gagner le plus sur le critere a optimiser (en general l'erreur empirique).27 Octobre 2009 à 09:30 Les methodes de gradient dans un espace discret Dans les espaces d'hypotheses discontinus. comme A? ). Sans rentrer dans une de nition formelle. u Par exemple. C'est pourquoi ont ete developpes des algorithmes sousoptimaux fondes sur l'utilisation de meta-heuristiques de recherche 18 . les methodes tabou et les methodes d'optimisation par algorithmes genetiques sont ainsi devenues centrales dans la panoplie du parfait praticien de l'optimisation. Les arcs peuvent d'ailleurs ^tre values pour exprimer le e co^t de la transformation correspondante. Les methodes locales explorent l'espace localement. e L'espace des hypotheses comme un graphe Il est frequent que l'on puisse de nir une structure de graphe sur l'ensemble des hypotheses. Sinon. ce qui signi e en u pratique qu'il est admis 17 qu'il n'existe pas d'algorithme capable de les resoudre en temps polynomial en fonction de leur taille. elle est reliee par des arcs a un certain nombre d'autres n uds de ce graphe. 18. ont connu recemment des developpements spectaculaires gr^ce au concept d'exploration stochastique de a l'espace. Dans le paragraphe suivant.3.Chapitre 3 L'environnement methodologique de l'apprentissage 3. Par opposition a la notion d'heuristique qui est seulement une fonction d'estimation de la proximite au but. qu'une hypothese est un automate ni et que toutes les autres hypotheses proches sont obtenues par une operation qui consiste a fusionner deux etats de cet automate. D'autre part. le principe de la descente de gradient doit ^tre e adapte pour la simple raison que la notion de derivabilite n'existe plus. Une meta-heuristique est donc une strategie d'exploration de l'espace des solutions. Les methodes de recherche locale. elle sera consideree comme localement optimale.

On la conna^t sous le nom d'escalade (hill climbing).27 Octobre 2009 à 09:30 a 2 b b 3 a b 1.100 Premiere Partie : Les Fondements de l'Apprentissage l'hypothese courante est un n ud du graphe (represente comme le rectangle le plus haut dans la gure) dans lequel est dessine l'automate correspondant a trois etats. a defaut de la meilleure. il est hors de question de les mettre entierement en memoire : on procede donc par exploration locale en utilisant des heuristiques pour essayer de trouver une solution aussi bonne que possible. Il est relie a trois n uds (trois rectangles en dessous) par des arcs (des eches en gras) correspondant aux trois fusions possibles de deux etats de l'automate du dessus. Le recuit simule L'idee de recuit simule introduite independamment par Kirkpatrick. Gelatt et Vecchi KGV83] . les arcs sont values par une valeur strictement positive.2 a 1. 1 a Ce document est la propriété exclusive de nona nina (ninasbalka@gmail. Comme les graphes dans lesquels on travaille sont en general e tres grands.3 a b 1 b a b a a b a 3 a b 2 2.3 a b Fig. 3. La longueur d'un chemin est la somme des longueurs des arcs qui le composent. Dans la version donnee dans l'algorithme 3.com) .11 { Une toute petite partie d'un espace d'hypotheses strucure en graphe Dans cette organisation en graphe. Presentons-en une qui est fondee sur une approximation sommaire de la technique du gradient.1. la recherche de la meilleure hypothese peut ^tre vue e comme la construction d'un chemin entre une ou plusieurs hypotheses de depart et celle sur laquelle on decide de s'arr^ter. Les techniques employees sont longuement decrites dans nombre de livres d'algorithmique et d'intelligence arti cielle.

la solution selectionnee est celle qui degrade le moins la perfomance. ECHEC). Glo89b]. tries par valeur croissante du risque empirique 101 L L0 TEST FAUX tant que le test d'arr^t TEST n'est pas V RAI faire e Ce document est la propriété exclusive de nona nina (ninasbalka@gmail.com) . On cherche dans les deux cas une con guration d'energie minimale. Dans la vaste litterature publiee sur ce sujet. Cette technique peut permettre d'echapper aux minima locaux. Enlever n de L Mettre dans L tous les n uds que l'on peut atteindre par un arc a partir de n Calculer le risque empirique des hypotheses correspondantes et ranger les n uds dans L en preservant l'ordre croissant si le risque empirique du premier n ud de L est superieur a celui de n et ce premier n ud n'est pas dans L0 alors n est l'hypothese trouvee et par Cerny Cer85]. soit des informations representatives de ces mouvements.351-360 comprenant d'excellentes illustrations du processus et qui aident grandement a sa comprehension. une liste circulaire appelee liste tabou stocke e soit l'ensemble des s derniers mouvements e ectues (s est la longueur de la liste tabou). Il s'agit en fait d'une variante stochastique de la technique de gradient dans laquelle au lieu de modi er systematiquement la solution courante en une solution du voisinage meilleure. le recuit est une (( operation thermique destinee a ameliorer les qualites mecaniques d'un metal. La liste tabou interdit un certain nombre de mouvements. nous ne pouvons que recommander la lecture de DHS01] pp. La methode de recuit simule est une traduction algorithmique de cette analogie. en fonction d'un parametre de (( temperature )). et donc conduire a la solution optimale. Il est ainsi possible d'echapper aux optima locaux. Plus precisement. Une analogie avec un probleme d'optimisation combinatoire est alors envisageable : aux di erents etats du systeme physique correspondent di erentes solutions du probleme et a l'energie d'un etat correspond la performance d'une solution. si du metal en fusion est refroidi su samment lentement. D'apres le Petit Robert. ou des informations representatives de ces solutions.27 Octobre 2009 à 09:30 Soit n le premier n ud dans L (si L est vide.1 L'escalade (hill-climbing) Soit L0 une liste de n uds de depart. Glo89a. sous certaines conditions portant sur l'evolution de la temperature. s'inspire de la metallurgie 19 . on accepte de temps en temps. n si n tant que TEST V RAI Les methodes tabou Les methodes tabou ont ete introduites par Glover Glo86. d'un alliage )). il se solidi e dans une structure d'energie minimale qui ameliore ses caracteristiques. A n d'eviter un retour aux m^mes solutions. . L'algorithme de base examine la totalite du voisinage et choisit la solution qui ameliore le plus la mesure de performance. soit encore les s dernieres solutions rencontrees. de selectionner une solution de performance moindre.Chapitre 3 L'environnement methodologique de l'apprentissage Algorithme 3. soit parce qu'ils sont tabou soit parce qu'ils conduisent a des solu19. Lorsqu'il n'y en a pas.

DHS01] introduit nombre de methodes d'optimisation au fur et a mesure des algorithmes d'apprentissage presentes. en particulier dans l'approche bayesienne (voir le chapitre 17) et dans l'apprentissage de reseaux bayesiens (voir le chapitre 12). bien que deja longue. A chaque (( generation )). en favorisant les descendants des meilleurs individus de la generation courante.com) . Nous renvoyons le lecteur aux livres de reference pour approfondir ces techniques. Par exemple. Plus generalement. est tres loin d'^tre exhaustive et laisse donc de c^te e o nombre de techniques d'optimisation interessantes. Cette section. Un phenomene classique. Le critere d'aspiration le plus courant est le suivant : un mouvement est e ectue malgre son caractere tabou s'il permet d'obtenir une solution meilleure que toutes celles obtenues jusque-la. ces algorithmes travaillent sur une population de solutions provisoires. il est quelquefois possible de lui associer un processus stochastique dont l'une des caracteristiques s'identi e a une valeur numerique recherchee. Dans de nombreux cas. Contrairement aux methodes classiques. est intrinsequement optimiste. Cet algorithme nous retourne une hypothese.3. non seulement la performance en apprentissage. Il s'agit la de la methode de l'(( aiguille de Bu on )).27 Octobre 2009 à 09:30 3. par statistique e ectuee sur les resultats. une nouvelle population est calculee a partir de la precedente gr^ce a des (( operateurs genetiques )) tels que la mutation et a le croisement. par exemple le gradient conjugue pour n'en citer qu'une.4 . Un exemple classique est l'approximation numerique du nombre irrationnel 1= par des jets repetes d'une aiguille sur un reseau de droites equidistantes (de la longueur de l'aiguille). Comment evaluer la performance de cette hypothese? Su t-il par exemple de faire con ance au principe ERM et de se fonder sur la performance mesuree sur l'echantillon d'apprentissage? Surtout pas. Ces algorithmes introduits en particulier par Holland Hol75] s'inspirent des processus de la theorie de l'evolution.102 Premiere Partie : Les Fondements de l'Apprentissage tions tabou.3 Les methodes de Monte Carlo Lorsqu'un probleme de calcul numerique est di cile a resoudre par les methodes conventionnelles. Elles donnent aussi des informations sur les solutions de systemes di erentiels. ce que nous avons appele risque empirique dans le chapitre 2. Comme il arrive cependant que certains mouvements tabou vaillent parfois la peine d'^tre executes. Une realisation repetee du processus peut permettre de degager. du moins sans precautions. apres plusieurs iterations. 3. il existe des criteres d'aspiration permettant d'e ectuer un mouvement tabou e s'il est juge interessant. Dans le cadre de l'apprentissage arti ciel. Une telle demarche est generalement appelee methode de Monte Carlo. deja presente au chapitre 1 est schematise sur la gure 3. Les algorithmes par evolution simulee Ce document est la propriété exclusive de nona nina (ninasbalka@gmail. la population converge vers les regions les plus interessantes de l'espace de recherche et le meilleur individu obtenu correspond a une solution quasi optimale. ces methodes peuvent s'appliquer a l'evaluation d'integrales multidimensionnelles.4 L'evaluation de l'apprentissage Nous disposons d'un ensemble d'exemples et d'un algorithme d'apprentissage dont nous pouvons regler certains parametres. on les utilise par exemple pour estimer des densites de probabilites.3. En e et. une approximation des grandeurs voulues. Le chapitre 8 est consacre a ce type d'approche et a des extensions a l'apprentissage symbolique. mais en outre son comportement n'est pas forcement un bon indicateur de la vraie performance (le risque reel).

1 L'evaluation a priori : criteres theoriques Une solution consiste a appliquer les resultats theoriques decrits dans le chapitre 2 qui fournissent des bornes en probabilite sur le risque reel en fonction du risque empirique. Il n'y a alors plus de correlation entre le risque empirique et le risque reel. Un developpement theorique et un exemple pratique sont donnes au paragraphe 3. C'est pourquoi. Ce phenomene est appelee surapprentissage (over. Tandis que le risque empirique conti- nue de diminuer au fur et a mesure de la prise en compte d'information. l'estimation de la performance en apprentissage s'opere generalement par des mesures empiriques. Ces bornes prennent la forme generale : RReel (h) = REmp(h) + (dV C (H) m) ou est une fonction de la dimension de Vapnik-Chervonenkis de l'espace d'hypothese H et m est la taille de l'echantillon d'apprentissage S .12 { Illustration du phenomene de surapprentissage. se met a augmenter apres un certain stade.com) . les hypotheses qu'il faut faire en pratique pour calculer (dV C (H) m) impliquent souvent de telles marges que les bornes obtenues de cette maniere sont trop l^ches et ne permettent pas d'estimer precisement a la performance reelle. Comment doit-on alors proceder? 3. Le risque empirique ne peut donc a lui seul servir de base a l'estimation de la performance de l'apprentissage realise. le risque reel qui diminuait egalement dans un premier temps. 3.4. d'abord decroissant. Si on peut obtenir ainsi en theorie des bornes asymptotiquement serrees.Chapitre 3 L'environnement methodologique de l'apprentissage dans lequel le risque empirique diminue au fur et a mesure que le systeme prend en compte davantage d'information (soit par un accroissement du nombre d'exemples presentes. .tting).4. sauf cas particuliers favorables.27 Octobre 2009 à 09:30 Sur-apprentissage Risque empirique Prise en compte croissante d'information Fig. soit par une repetition des exemples d'apprentissage) tandis que le risque reel.4. Perfomance 103 Ce document est la propriété exclusive de nona nina (ninasbalka@gmail. commence a reaugmenter apres un certain stade.

on ne conna^t ni son risque empirique REmp(hS H ) ni son risque reel RReel (hS H ). on a : REmp(halgo S H ) REmp(hS H ) et la plupart du temps 20 : h2H halgo S H RReel (halgo S H ) RReel (hS H ) 20.4. Son risque empirique REmp (halgo S H ) se mesure sur l'echantillon d'apprentissage. il s'agit d'un probleme d'optimisation. Cette recherche est pertinente : on a vu ci-dessus que dans la plupart des cas.4.1). Mais en realite. Comme on n'est jamais s^r que l'algorithme choisi trouve cette u regle.27 Octobre 2009 à 09:30 h2H Son risque reel RReel (hH ) peut se noter plus simplement RReel (H). 3. L'hypothese faite par la methode ERM est qu'on peut remplacer sa recherche par celle de la regle hS H . il su t de se souvenir qu'en general le risque empirique de l'hypothese trouve par l'algorithme n'est pas minimal.5. 2. Mais cette qu^te est illusoire: on ne peut pas en realite savoir si on en est proche e ou pas. Cette regle est theoriquement celle que tout algorithme d'apprentissage devrait chercher a approcher. Son risque reel RReel (halgo S H ) peut s'estimer par des methodes que nous verrons dans la suite de ce chapitre. Comme on l'a dit. Pour revenir au cas pratique.com) . . au sens ou il a decouvert l'hypothese la meilleure dans le cadre ERM . decrite au paragraphe suivant. On note hH la regle qui minimise RReel (h) pour h parcourant H : hH = ArgMin RReel (h) Ce document est la propriété exclusive de nona nina (ninasbalka@gmail. de S et de l'algorithme d'apprentissage. mais ce terme n'est en general pas mesurable puisque hH est inconnu.2 L'evaluation empirique a posteriori : generalites Nous admettons la plupart du temps dans ce paragraphe que l'algorithme d'optimisation employe pour l'apprentissage a parfaitement fonctionne. On note hS H la regle qui minimise le risque empirique sur l'echantillon d'apprentissage S: hS H = ArgMin REmp (h) Cette regle est celle que l'algorithme d'apprentissage cherche a trouver en utilisant S quand il fonctionne selon le principe ERM . Elle depend de H. c'est-a-dire que l'algorithme est e cace de point de vue du principe ERM . Le risque empirique de hH sur les donnees d'apprentissage peut se noter REmp (hH ). 1. on suppose pour le moment que halgo S H = hS H . C'est une simpli cation irrealiste. mais sans importance pour les developpements presentes ici. Sauf si on regle l'apprentissage avec un echantillon de validation V qui est une partie de S (voir au paragraphe 3. On note la regle trouvee par l'algorithme d'apprentissage. puisque cette regle ne depend que de H. hS H depend de H et de S .104 Premiere Partie : Les Fondements de l'Apprentissage 3.

3 (risque empirique) m 1 X l(u h(x )) REmp (h) = m i i i=1 Ce document est la propriété exclusive de nona nina (ninasbalka@gmail.4. . Mais ceci ne nous indique pas comment choisir H ni comment y selectionner h pour approcher hH . 3. Le risque reel. R(h) = Z (3. Notons merr le nombre d'exemples de l'ensemble d'apprentissage S qui sont mal classes par une certaine hypothese h choisie dans H. en vertu de l'application de loi des grands nombres par les theoremes de Vapnik (voir le chapitre 2). le risque reel d'erreur RReel (h) est la probabilite d'erreur de h. Le risque empirique (ou taux d'erreur apparent) de h se mesure alors simplement par : REmp (h) = merr m On detaille souvent les resultats ainsi : La matrice de confusion empirique Memp (i j ) d'une regle de classi cation h est une matrice C C dont l'element generique donne le nombre d'exemples de l'ensemble d'apprentissage S de la classe i qui ont ete classes dans la classe j .4. la regle de H qui minimise le risque reel. c'est-a-dire la probabilite que h classe mal un objet. le risque RReel (h) mesure la probabilite de mauvaise classi cation.3.4 La somme des termes non diagonaux divisee par la taille m de l'ensemble d'apprentissage n'est autre que le risque empirique (ou erreur apparente) de la regle de classi cation.4. on sait que quand m augmente.2 La qualite d'une hypothese Toujours dans le cas de la fonction de perte precedente. De nition 3. De nition 3.3) 3.3 Risque empirique et risque reel Soit un ensemble d'apprentissage S = f(xi ui )g de taille m et une hypothese h choisie dans Le risque empirique de h est donne par : H pour approcher la fonction cible f .27 Octobre 2009 à 09:30 ou l(ui h(xi )) est par de nition la fonction de perte qui mesure la di erence entre le resultat de l'hypothese et la valeur de la cible sur un exemple (voir le chapitre 1). Rappelons la de nition generale du chapitre 2. Quand on a choisi une certaine regle h.3. son risque apparent REmp (h) converge en probabilite vers son risque reel RReel (h). nous prenons la fonction de perte la plus simple : l(ui h(xi )) = ( 0 si ui = h(xi ) 1 si ui 6= h(xi ) Avec cette fonction de perte. ou esperance de risque.1 Le cas de la classi cation Dans le cas d'un probleme de classi cation. est de ni par : l(h(x) f (x))dx x2X D l'integrale est prise sur l'ensemble des formes x 2 X possibles (voir le chapitre 2).Chapitre 3 L'environnement methodologique de l'apprentissage 105 3.com) .

Le choix de l'espace des hypotheses que l'on explore etant laisse libre. On verra que cette mesure est directement liee au temps moyen de calcul que prend le programme correspondant pour classer une donnee inconnue. il est souvent facile de l'ordonner partiellement en fonction d'un critere. Par exemple. mais il existe d'autres methodes. On peut souvent indexer ses elements par l'ordre de la complexite algorithmique du programme qui realise la fonction de decision correspondante et parametrer le programme d'apprentissage selon cet index. 21. Autrement dit. donc d'essayer.5. il serait utile de savoir a priori comparer deux espaces H et H0 .com) .4. Ce n'est (helas) pas le cas general. comme on l'a dit. mais cela ne change pas les considerations qui vont suivre.14 montre ce qui se produit en general quand cette hypothese n'est pas respectee. par un algorithme d'apprentissage. On y reviendra au paragraphe 3. une bonne procedure de classi cation dans Hk doit ^tre capable de decrire les donnees e d'apprentissage de maniere de plus en plus precise au fur et a mesure que k augmente. e .4 La selection de modele en pratique H1 : : : Hk Hk+1 : : : H1 Nous supposons egalement que la fonction cible nit par ^tre incluse dans un de ces ensembles e de taille croissante : f 2 H1 Notons maintenant : hS Hk la regle ayant le risque reel (la probabilite d'erreur) la plus faible de Hk . Cette approche fournit une regle biaisee de maniere optimiste : REmp(hS H) RReel (hS H ) RReel(hH ) = RReel (H) La facon la plus naturelle d'estimer rigoureusement RReel (hS H ) est d'utiliser un echantillon de test T statistiquement independant de S pour faire cette mesure. de selectionner dans H la regle hS H qui minimise le taux d'erreur empirique sur l'ensemble d'apprentissage S .27 Octobre 2009 à 09:30 Nous cherchons donc a approcher hS H . d'appliquer le principe ERM . Nous allons l'examiner de nouveau ici pour en donner un exemple. que les regles hS Hk et halgo S Hk sont identiques pour tout S . Rappelons que nous faisons l'hypothese simpli catrice que l'algorithme d'apprentisage employe est ideal du point de vue ERM : il est suppose capable de decouvrir pour tout ensemble d'apprentissage la regle hS Hk dans Hk . on verra au chapitre 11 l'apprentissage de regles de classi cation representees par des arbres de decision. En revanche. Ce document est la propriété exclusive de nona nina (ninasbalka@gmail. On supposera donc que l'on peut de nir une suite d'ensembles Hk de complexite 21 croissante avec k parcourant N et en relation d'inclusion: 3. La gure 3.106 Premiere Partie : Les Fondements de l'Apprentissage Une technique naturelle est. Nous supposons aussi que la valeur k represente un critere pertinent de complexite autrement dit. Cette approche a ete evoquee sous le nom de selection de modele au chapitre 2. hS Hk la regle ayant le risque empirique (le taux d'erreur apparent) le plus faible de Hk . Ce mot peut ^tre pris dans son sens algorithmique.4. On peut ordonner l'espace H de ces arbres en caracterisant un element par le nombre k de ses noeuds. une fois choisi H. Mais on ne dispose en general d'aucune indication sur le sujet.

mais moins vite. RReel (hS Hk ) RReel (hHk ) . c'est-adire qu'il fonctionne selon le principe ERM et ne commet pas d'erreur d'approximation. n'est en general pas optimale en terme d'erreur reelle. parce que l'ensemble d'apprentissage ne peut pas parfaitement resumer les distributions de probabilite des classes. Que peut-on dire des valeurs relatives des taux apparents d'erreur et des probabilites d'erreur de hHk et de hHk pour un k donne et quand k varie? 1. dans l'approche ERM . On remarque les phenomenes suivants : (1) Le risque empirique REmp(hS Hk ) de l'hypothese trouvee par l'algorithme sur l'ensemble d'apprentissage tend vers 0. (3) Le risque reel RReel (hS Hk ) de l'hypothese trouvee par l'algorithme sur l'ensemble d'apprentissage decro^t jusqu'a k0 . On a tout d'abord : k est constant Cette inegalite traduit simplement le fait que la regle la regle hS Hk . 2. C'est le probleme de toute generalisation. puis augmente. Aucun algorithme ne peut la trouver avec certitude. Le probleme est donc de trouver la region de k0 .27 Octobre 2009 à 09:30 k0 REmp(hS Hk ) k Fig.Chapitre 3 L'environnement methodologique de l'apprentissage 107 RReel (hS Hk ) RReel (Hk ) Ce document est la propriété exclusive de nona nina (ninasbalka@gmail. elle a tendance a surestimer leurs caracteristiques au detriment d'une generalisation exacte.com) . On a aussi en general : RReel (hHk ) REmp(hS Hk ) Cette formule exprime le fait que la regle apprise etant reglee sur les donnees d'apprentissage. (2) Le risque reel RReel(S Hk ) de la meilleure hypothese de Hk tend aussi vers 0. 3.13 { Le surapprentissage : variation des risques d'erreur quand la complexite k de l'es- pace des hypotheses Hk augmente. On a suppose que l'algorithme d'apprentisage etait capable de trouver hHk . la meilleure compte tenu de l'algorithme employe et des donnees d'apprentissage. supposee trouvee par l'algorithme.

on peut faire l'apprentissage RReel (hS Hk ) . mais une regle hHk . puisque la probabilite d'erreur de la regle apprise tend a diminuer. puisque la performance reelle du classi cateur appris diminuera. l'erreur apparente de hHk diminue quand k augmente. 3.1 ) RReel(hS Hk0 ) Ce qui signi e qu'augmenter k semble avoir un e et positif.14 { La cas ou l'algorithme d'apprentisage ne trouve pas hHk .com) . . On a aussi. En general la valeur : k k0 : RReel (hHk ) RReel (hHk+1 ) : : : On rencontre donc une valeur k0 au-dela de laquelle compliquer la famille des regles ne sert plus a rien. en general jusqu'a valoir 0 pour k assez grand : dans un espace de regles assez complexe. 22. quand k augmente. 2. on suppose qu'il existe une valeur unique en realite. jusqua un certain 22 k0 : RReel(hS H1 ) RReel (hS H2 ) : : : RReel (hS Hk0 . pour tout k : RReel (Hk ) decro^t quand k augmente REmp(hS Hk ) decro^t quand k augmente En e et.27 Octobre 2009 à 09:30 k0 REmp (hHk ) k Fig. Mais au dessus de k0 . Pour simpli er. On a d'abord en general. 3. Mais cela ne change pas l'argument de fond. l'inegalite s'inverse : par c ur d'un echantillon S . il s'agit d'une region autour de cette valeur. algo k augmente 1.108 Premiere Partie : Les Fondements de l'Apprentissage RReel (hHk ) algo RReel (hHk ) REmp(hHk ) algo Ce document est la propriété exclusive de nona nina (ninasbalka@gmail. REmp(hS H ) est positive et augmente avec k.

c'est-a-dire realise en pratique un apprentissage par coeur. sur laquelle on ne possede a priori aucune information.14 illustre le m^me phenomene.4.Chapitre 3 L'environnement methodologique de l'apprentissage Ce dernier phenomene est appele le surapprentissage (Voir la gure 3.com) . Intuitivement. Dans le cas (general en pratique) ou l'algorithme d'apprentissage n'est pas optimal du point de vue ERM . qui est la meilleure pour un echantillon d'apprentissage donne et une famille de regles de classi cation ordonnee selon la complexite k.6). La courbe en pointilles est une hypothese de H4 (une courbe de degre 4) dont l'erreur apparente est nulle mais dont l'erreur relle est largement superieure a hBayes . La droite horizontale est l'hypothese de H1 qui minimise l'erreur reelle. Soient deux classes de densite uniforme. a partir de l'exemple arti ciel suivant : 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 Fig. la gure 3. l'une a l'interieur de l'ellipse centrale.27 Octobre 2009 à 09:30 109 Un exemple La gure 3. Pour l'estimer. La droite de biais est l'hypothese de H1 qui minimise l'erreur empirique. on peut utiliser un echantillon de validation V (voir le paragraphe 3.15 presente un exemple de reglage de la valeur k0 . Son erreur reelle vaut : hBayes = 5 % L'ellipse de biais est l'hypothese de H2 qui minimise l'erreur apparente. 3. Son erreur reelle est legerement superieure a hB . La valeur k0 est donc critique. l'autre entre .15 { L'ellipse centrale est la separatrice bayesienne. c'est-a-dire de selection de modele. On la conna^t car les donnees ont ete fabriquees arti ciellement. Il existe par consequent une valeur k0 de compromis. e Ce document est la propriété exclusive de nona nina (ninasbalka@gmail.16). au detriment de sa qualite de generalisation. il signi e qu'une regle de classi cation de trop grande complexite represente trop exactement l'ensemble d'apprentissage.

on a : hH2 = hHk = hBayes . L'erreur RBayes n'est donc pas nulle. le rectangle exterieur et cette ellipse. La separatrice optimale reste l'ellipse.16 { La selection de modele sur un exemple.27 Octobre 2009 à 09:30 20 10 0 RReel (hS Hk ) R(Hk ) 0 1 2 3 4 5 k Fig. La meilleure surface appartient donc a H2 . se note hH1 . celle qui minimise l'erreur reelle.110 Premiere Partie : Les Fondements de l'Apprentissage 40 30 REmp(hS Hk ) Ce document est la propriété exclusive de nona nina (ninasbalka@gmail. nous tirons les coordonnees des points d'apprentissage selon les distributions uniformes. la separatrice optimale hH1 est la droite horizontale au milieu de la gure 3. Par exemple. on a par hypothese hH2 = hBayes .com) . les 40 points que l'on voit sur la gure 3. On remarque que le bruitage fait que l'un des points se trouve a l'exterieur de l'ellipse et un point 3 a l'interieur. Soit H1 l'ensemble des droites.15. Sa valeur empirique sur les donnees d'apprentissage est aussi 2 de 5 % (deux points mal classes sur quarante : 40 = 5 %). Pour k = 1. a cause de ce bruitage. H2 celui des courbes du second degre. Dans notre exemple. On en est certain ici seulement parce que les donnees sont arti cielles et que hBayes est connue. H3 celui des courbes du troisieme degre. Pour k = 2. puisqu'on peut ramener une courbe de degre superieur a une courbe du second degre en annulant les coe cients necessaires. Nous avons xe cette erreur reelle a 5 %. La separatrice optimale est ici arti ciellement connue : c'est l'ellipse centrale. Elle est calculable puisque les densites de probabilite des deux classes sont arti cielles : c'est la droite horizontale mediane de l'ellipse. mais les points des deux classes ne sont plus forcement tous exactement de part et d'autre de la separatrice. Pour rendre le probleme un peu plus di cile. La meilleure droite. Pour k 3. etc. . Son erreur reelle est aussi calculable : elle vaut R(H1 ) = 35 %.15 constituent un ensemble d'apprentissage : ils ont ete tires independamment selon cette distribution uniforme bruitee. 3. en ajoutant un bruit gaussien.

com) .4. Dans H2 . cet algorithme trouve hS H2 .1 L'utilisation d'un echantillon de test Presentation h est de couper l'ensemble des exemples en deux ensembles independants : le premier. on peut mesurer RReel (hS H1 ). mais cette fois RReel (hS H4 ) a augmente jusqu'a environ 15 % et depasse REmp (hS H2 ). En resume : Regle Courbe Risque empirique Risque reel hS H1 hS H2 hS H4 hH1 Droite oblique Ellipse penchee Courbe de degre 4 Droite horizontale 27:5 % 2:5 % 0% 42:5 % 5% 45 % 10 % 15 % 35 % 5% hH2 = hBayes Ellipse centrale 3. note T . Ce second ensemble est appele echantillon (ou ensemble d'exemples) de test. RReel (hS H2 ) se mesure a environ 10 %. On a S = A T et A\T = La methode la plus simple pour estimer la qualite objective d'une hypothese d'apprentissage . le chi re 7 de dans cette matrice signi e que sept objets etiquetes 3 ont ete classes comme . sert a mesurer sa qualite. Celle-ci vaut 20+20 = 27:5 %.Chapitre 3 L'environnement methodologique de l'apprentissage son erreur empirique vaut suivante : 10+7 20+20 111 = 42:5 % puisque la matrice de confusion empirique est la 3 10 10 7 13 Par exemple. pour laquelle on a 1+0 RRemp(hS H2 ) = 20 + 20 = 2:5 % C'est la meilleure ellipse que l'on puisse tracer pour separer les donnees d'apprentissage : elle ne commet qu'une erreur. Un algorithme d'apprentissage de bonne qualite trouve dans H1 la droite hS H1 qui minimise 10+1 l'erreur empirique.27 Octobre 2009 à 09:30 3 19 1 10 10 3 Comme les distributions sont uniformes et la geometrie xee. On a donc k0 = 2 dans cet exemple. Dans H4 on peut trouver hS H4 telle que REmp (hS H4 ) = 0. qui vaut 45 %.5.4.5 L'estimation du risque reel d'une hypothese 3. puisque sa matrice de confusion empirique est la suivante : 3 Ce document est la propriété exclusive de nona nina (ninasbalka@gmail. Nous ne traitons pas le cas de H3 et nous passons directement a H4 . note A. est utilise pour l'apprentissage de h et le second.

96 2.27 Octobre 2009 à 09:30 Rappelons d'abord la de nition d'une matrice de confusion : La matrice de confusion M (i j ) d'une regle de classi cation h est une matrice C C dont l'element generique donne le nombre d'exemples de l'ensemble de test T de la classe i qui ont ete classes dans la classe j . Le cas de la classi cation De nition 3. la somme des termes non diagonaux est proportionnelle au e risque empirique. Si les echantillons aleatoires d'apprentissage et de test sont independants alors la precision de l'estimation ne depend que du nombre t d'exemples de l'ensemble de test et de la b valeur de RReel (h).58 . Cette estimation se note : b RReel (h) Examinons d'abord le cas particulier de l'apprentissage d'une regle de classi cation.5 Ce document est la propriété exclusive de nona nina (ninasbalka@gmail. divisee par la taille t de l'ensemble de test.67 1.28 1. est une estimation RReel (h) sur T du risque reel de h. la somme des termes non b diagonaux de M . t ) t 3 5 La fonction (x) a en particulier les valeurs suivantes : x 50 % 68 % 80 % 90 % 95 % 98 % 99 % (x) 0. Il est demontre a l'annexe 18.64 1. la mesure des erreurs commises par h sur l'ensemble de test T est une estimation du risque reel d'erreur de h. `+' Vrais positifs Faux positifs `-' Faux negatifs Vrais negatifs `+' `-' b RReel (h) = terr t L'intervalle de con ance de l'estimation b Quelle con ance peut-on accorder a l'estimation RReel (h)? Peut-on la traduire numeriquement? La reponse a ces deux questions est donnee de maniere simple par des considerations statistiques classiques.7 qu'une approximation su sante dans le cas ou t est assez b grand (au dela de la centaine) donne l'intervalle de con ance de RReel (h) a x % par la formule : 2 4 terr t (x) st err terr t (1 .com) . on a donc : On a de ni plus haut la matrice de confusion empirique : celle de l'ensemble d'apprentissage sur lui-m^me pour cette matrice.33 2. la matrice de confusion est donc de la forme : Si toutes les erreurs sont considerees comme egalement graves. mais n'est pas une estimation du risque reel. Dans le cas d'une classi cation binaire. b RReel (h) = i6=j M (i j ) t En notant terr le nombre d'objets de l'ensemble de test mal classes.00 1.112 Premiere Partie : Les Fondements de l'Apprentissage Comme nous allons le voir.

Le plus souvent chaque nouvel exemple est co^teux a obtenir et il ne peut donc ^tre question d'augmenter a volonte u e l'echantillon d'apprentissage et l'echantillon de test. disons de numero i. Notons d'emblee que si les hypotheses apprises sont tres di erentes les unes des autres (en supposant que l'on puisse mesurer cette di erence). on a RReel (h) = 0:2 et l'intervalle de con ance a bReel (h) vaut : 95 % de R " 0:2 1:96 0:2(1 . bi Mesurer le taux d'erreur empirique RReel (h) sur l'echantillon i.Chapitre 3 L'environnement methodologique de l'apprentissage 113 b Par exemple. En fait. Il est courant de prendre pour N des valeurs comprises entre 5 et 10. Elle est envisageable lorsque les donnees sont abondantes. Plus celle-ci est o grande. est limite. on peut utiliser une grande partie des exemples pour l'apprentissage tout en obtenant une mesure precise du taux d'erreur reel.27 Octobre 2009 à 09:30 ce qui signi e que la probabilite que RReel (h) soit a l'interieur de cet intervalle est superieure a 95 %. il faut avoir recours a d'autres methodes.com) . 0:2) 300 r # 0:25 0:15] Ce document est la propriété exclusive de nona nina (ninasbalka@gmail. La question se pose cependant de savoir quelle hypothese apprise on doit nalement utiliser. Il est en e et probable que chaque hypothese apprise depende de l'echantillon i utilise pour l'apprentissage et que l'on obtienne donc N hypotheses di erentes. il existe un con it entre l'inter^t e d'avoir le plus grand echantillon possible A pour apprendre. L'estimation du taux d'erreur reel par une mesure sur un echantillon de test T independant de l'echantillon d'apprentissage A. ce qui est donne a l'un est retire a l'autre. plus l'intervalle de con ance est reduit et par consequent plus le taux d'erreur empirique donne une indication du taux d'erreur reel.5. Recommencer n fois en faisant varier l'echantillon i de 1 a N . 1 autres. pour le test et apprendre sur les N . Si en revanche les donnees sont parcimonieuses. Retenir l'un de ces echantillons. il faut realiser la procedure d'apprentissage N fois. C'est pourquoi cette methode de validation est appelee hold-out method par les anglophones. le nombre d'exemples. L'erreur estimee nale est donnee par la moyenne des erreurs mesurees : 1 b RReel (h) = N N X bi i=1 RReel (h) On peut montrer que cette procedure fournit une estimation non biaisee du taux d'erreur reel. c'est-a-dire d'observations pour lesquelles un expert a fourni une etiquette. fournit une estimation non biaisee de RReel (h) avec un intervalle de con ance contr^lable. et le plus grand echantillon possible T pour tester le resultat de l'apprentissage. cet e intervalle aurait ete reduit environ de moitie : 0:225 0:175]. Malheureusement. pour t = 300 et terr = 15. ne dependant que de la taille t de l'echantillon de test. En contrepartie. dans la plupart des applications. Si on avait obtenu la m^me proportion d'erreur sur un echantillon de test de taille 1000.2 L'estimation par validation croisee L'idee de la validation croisee (N-fold cross-validation) consiste a : Diviser les donnees d'apprentissage S en N sous-echantillons de tailles egales. De cette maniere.4. c'est qu'il faut peut-^tre y voir une indication e . Comme il est necessaire que les deux echantillons soient independants l'un de l'autre. 3.

2. Ce sont egalement de bonnes references pour le probleme de l'estimation de performance en general. Cela semble en e et montrer une grande variance (en general associee a une grande dimension de Vapnik-Chervonenkis).114 Premiere Partie : Les Fondements de l'Apprentissage de l'inadequation de l'espace des hypotheses H. Une certaine combinaison lineaire de la moyenne P1 des valeurs P1 et de la moyenne P2 b des valeurs P2 obtenues donne la valeur RReel (h). on ne retient a chaque fois qu'un seul exemple pour le test. On sait que le Baron de Munchausen savait s'elever dans les airs en tirant sur ses bottes. Nous renvoyons le lecteur interesse a par exemple Rip96] pp. Cette methode presente l'avantage de la simplicite et de la rapidite cependant. Le procede est repete n fois et l'apprentissage est alors e ectue sur l'ensemble bootstrap.5. La precision sera bonne et l'estimation du taux d'erreur est connue par les N apprentissage faits precedemment. 3. mais d'utiliser des techniques necessitant plusieurs passes d'apprentissage : on perdra en temps de calcul mais on gagnera en nesse d'estimation relativement a la quantite de donnees disponibles. Il faut noter que si l'un des inter^ts de la validation par leave-one-out est de produire des e hypotheses moins variables.3 L'estimation par la methode du leave-one-out Lorsque les donnees disponibles sont tres peu nombreuses. il est possible de pousser a l'extr^me la methode de validation croisee en prenant pour N le nombre total d'exemples dise ponibles. Il existe en n une autre methode proche mais plus complexe d'estimation appelee jackknife 24 qui vise a reduire le biais du taux d'erreur en resubstitution. et donc le risque d'un apprentissage sans valeur. Ou (( couteau suisse )) : un outil multifonction bien pratique.5. elle demande une grande valeur de K (plusieurs centaines). Un autre test est fait sur l'ensemble complet des exemples.1 dans le chapitre 2). on montre en revanche que l'estimation du taux d'erreur est souvent plus variable que pour des valiations croisees avec un N plus petit. . jackknife Ces techniques di erent des precedentes en ce qu'elle utilise des tirages avec remise dans l'ensemble des exemples. Le mieux est alors de refaire un apprentissage sur l'ensemble total S . la methode bootstrap fournit une estimation remarquablement precise de RReel (h). Pour de petits echantillons.27 Octobre 2009 à 09:30 3. lorsque des donnees sont utilisees a la fois pour l'apprentissage et pour le test. Ce document est la propriété exclusive de nona nina (ninasbalka@gmail.72-73 ou a Web99]. La theorie ( HTF01]) propose la formule : b RReel (h) = 0:636 P1 + 0:368 P2 en se basant sur le fait que l'esperance de la proportion des elements non repetes dans l'ensemble de test est egale a 0:368. donnant la valeur P2 . En contrepartie. et on repete l'apprentissage N fois pour tous les autres exemples d'apprentissage. 24. donnant une premiere valeur P1 des erreurs du classi cateur. dans les cas ou le nombre total d'exemples dont on dispose est restreint.com) . 23. (Voir la section 2. L'ensemble de l'operation est repete K fois. il peut ^tre interessant de ne plus e distinguer les ensembles d'apprentissage et de test.4. Un test est fait sur les exemples non presents dans cet ensemble. c'est a dire un nombre eleve d'apprentissages de la regle de classi cation. Dans ce cas.4 Quelques variantes de la methode de validation croisee : bootstrap. La methode du m^me e nom donne des resultats tout aussi etonnants (quoique ici justi es theoriquement et pratiquement). pour le placer dans un ensemble appele boostrap 23 .4. Le procede est le suivant : on tire aleatoirement un exemple.

Cela est dangereux car il se peut que. un troisieme echantillon independant des deux autres : l'echantillon de validation 25 . faisant appel d'une maniere ou d'une autre a un echantillon de test. qui depend en partie du choix de l'algorithme le reglage de tous les parametres contr^lant le fonctionnement de l'algorithme. C'est pourquoi on prevoit. La separation des donnees supervisees en trois ensembles est aussi utile pour determiner a quel moment convergent certains algorithmes d'apprentissage. Ce document est la propriété exclusive de nona nina (ninasbalka@gmail. La technique de separation de l'ensemble d'apprentissage de celui de test peut ^tre ra nee e en mettant en uvre la selection de modele de la maniere suivante.5.6 Le reglage des algorithmes par un ensemble de validation Lorsque l'on cherche a resoudre un probleme d'apprentissage. ce qui implique souvent celui d'une fonction de co^t u le choix d'un algorithme d'apprentissage le choix de l'espace d'hypotheses. Comment doit-il proceder? Il faut se me er d'une approche qui semble naturelle.Chapitre 3 L'environnement methodologique de l'apprentissage 115 3. on cherche a se decider pour la meilleure methode. en e et. La terminologie est ici mal xee dans la communaute : certains auteurs de nissent (( echantillon de test )) et ( echantillon de validation ) a l'inverse. Il faut donc se me er et veri er que l'on utilise bien la m^me convention ( ) e que son interlocuteur.27 Octobre 2009 à 09:30 3.6. a propos des reseaux connexionnistes.5. il peut-^tre utile d'^tre plus n dans l'evaluation des performances et de prendre e e en compte non seulement un taux d'erreur. ce qui implique: le choix du principe inductif le choix d'une mesure de performance. La courbe ROC (de l'anglais Receiver Operating Characteristic) 25. Cependant. A force de vouloir minimiser ce risque. a c^te de l'echantillon d'apprentissage et o de l'echantillon de test.1 Estimation de risque : la courbe ROC Jusqu'ici nous avons essentiellement decrit des methodes d'evaluation des performances ne prenant en compte qu'un nombre : l'estimation du risque reel.4. l'ensemble de test T et l'ensemble de validation V .4.4. On divise les donnees S supervisees en trois parties : l'ensemble d'apprentissage A. voir au paragraphe 3. Cela serait cependant commettre la faute de faire dependre cette mesure du reglage de la methode alors qu'elle doit en ^tre independante. on s'eloigne d'une diminution du risque reel. On pourrait en e et croire qu'il su t de mesurer pour chaque methode la performance empirique mesuree a l'aide de l'une des techniques decrites plus haut. o Generalement l'operateur essaie plusieurs methodes sur le probleme d'apprentissage a n de determiner celle qui semble la plus appropriee a la classe de problemes concernee. En procedant de la sorte. a tant poursuivre ce but. Souvent. on s'are range pour minimiser le risque mesure sur l'echantillon de test et l'on regle la methode en fonction de cet echantillon. comme dans le cas du phenomene de surapprentissage. On y reviendra en particulier au chapitre 10.4. plut^t que de na pas detecter o une appendicite (faux negatif)). mais aussi les taux de (( faux positifs )) et de (( faux negatifs )) (disponibles a partir de la matrice de confusion.com) . le co^t de mauvaise classi cation n'est pas symetrique et l'on peut preferer avoir un u taux d'erreur un peu moins bon si cela permet de reduire le type d'erreur le plus co^teux (par u exemple il vaut mieux operer a tort de l'appendice (faux positif). dans un contexte de prise de decision. on risque d'adapter etroitement la methode d'apprentissage a cet echantillon de test.1). sur lequel on evalue la performance reelle de la methode. . dans la section 3.

Pour chaque seuil. on doit conclure que le test a 50 % de chances de conduire au bon diagnostic. etc. Dans une deuxieme etape. Probabilité de la classe Ce document est la propriété exclusive de nona nina (ninasbalka@gmail. Par exemple un operateur (de 26. a les antecedents familiaux. allant du plus severe : limitant le nombre de faux positifs au prix de nombreux exemples de la classe `+' non diagnostiques (forte proportion de faux negatifs. comme de celui de la prevalence de la classe `+'. Ces courbes ont ete utilisees pour la premiere fois lors de la deuxieme guerre mondiale quand. Nous en detaillons la construction et l'utilisation dans ce qui suit. On peut ainsi etablir des courbes ROC pour plusieurs combinaisons pour n'importe quel systeme de classi cation.com) . 3.18).19).). L'aire totale sous la courbe represente cent pour cent de chaque population (voir la gure 3. Cette probabilite est determinee a partir de la fraction de l'echantillon d'apprentissage pour laquelle la prediction est exacte. Si l'on obtient une droite. Plus la courbe s'incurve vers le haut. on a voulu quanti er leur capacite a distinguer des interferences de nature aleatoire du signal indiquant reellement la presence d'aeronefs. On peut alors etablir un graphique pour chaque classe donnant la probabilite d'appartenir a cette classe en fonction de la grandeur (voir la gure 3. plus le test est pertinent (le rapport des (( vrais positifs )) sur les ( faux positifs ) augmente). . sa pression arterielle. Chaque point de la courbe represente un seuil particulier. Le seuil optimal pour une application donnee depend de facteurs tels que les co^ts relatifs des faux positifs et u faux negatifs. Supposons que l'on caracterise les formes d'entree (par exemple les patients) par une grandeur qui peut resulter de la combinaison d'examens (par exemple prenant en compte l'^ge du patient.27 Octobre 2009 à 09:30 Classe '-' Tous de la classe '-' Classe '+' Tous de la classe '+' Critère de décision Fig. il reste a choisir le seuil pour un diagnostic `classe +' / `classe . Le choix du seuil doit fournir une proportion de vrais positifs elevee sans entra^ner une proportion inacceptable de faux positifs. La pertinence est mesuree par l'aire sous la courbe elle augmente ( ) avec sa courbure (voir la gure 3. on reporte la proportion de (( vrais positifs )) en fonction de celle des (( faux positifs )).116 Premiere Partie : Les Fondements de l'Apprentissage permet de regler ce compromis 26. on determine pour chaque seuil de la grandeur la probabilite qu'un diagnostic positif soit correct. c'est-a-dire faible proportion de vrais positifs).19).17 { Courbes correspondant aux classes `+' et `-'. La troisieme etape correspond a la construction de la courbe ROC.'. Lorsque l'on a trouve un systeme de classi cation juge su samment bon.17). aux plus laxistes : augmentant le nombre de vrais positifs au prix de nombreux faux positifs (voir la gure 3. dans l'usage des radars.

18 { Seuil decidant pour chaque classe des positifs )) et (( vrais negatifs )). On les appelle les churners (de churn : baratte) dans le jargon du metier. . Il est important dans ce cas qu'elle soit comprehensible. On utilisera alors un seuil (( laxiste )). La simplicite des hypotheses produites 27. quitte a detecter aussi quelques faux.27 Octobre 2009 à 09:30 Probabilité de la classe Classe '-' Vrais négatifs Faux positifs (50%) (50%) Critère de décision Fig. page xxi) : quels sont les abonnes susceptibles de le quitter? 27 . m^me e avec une performance objective superieure. par exemple.Chapitre 3 L'environnement methodologique de l'apprentissage Probabilité de la classe 117 Classe '+' Faux négatifs (10%) Vrais positifs (90%) Critère de décision Ce document est la propriété exclusive de nona nina (ninasbalka@gmail. On parle aussi d'attrition (voir l'avantpropos). ( ( faux telephonie ou de cha^ne cablee) cherche a detecter des problemes d'attrition (voir l'avant-propos. elle peut ^tre munie d'une semantique directement interpretable dans le lane gage de l'ingenieur ou de l'expert.4. On cherchera donc a essayer d'en detecter le maximum a n de u tenter de les retenir. mais tres co^teux. 3. il existe un certain nombre de qualites qui permettent de distinguer une hypothese parmi d'autres. L'intelligibilite des resultats d'apprentissage Dans le cas ou l'hypothese apprise est une grammaire ou un ensemble de regles logiques. Cette faculte d'intelligibilite a deja ete evoquee dans l'avant-propos de ce livre (page ix) : nous y avons fait remarquer que la discipline de l'extraction de connaissances dans les donnees faisait grand cas de cette intelligibilite et que parfois l'apprentissage d'un petit nombre de regles comprehensibles valait mieux qu'un fouillis de regles sophistiquees. ( ( faux negatifs )). 3. ( ( vrais positifs )).7 D'autres criteres d'appreciation En plus des criteres numeriques. Ces abonnes fuyants sont peu nombreux.com) .

2 0. Entities should not be multiplied unnecessarily. le rasoir d'Occam. On ne saurait ^tre trop attentif a ces questions lorsque l'on teste e ectivement e des systemes.8 0.1 0.1 0.2 0. qui a rme qu'il ne sert a rien de multiplier les (( entites )) inutiles 28. Frustra t per plura.5 0.1 0. Ce critere est relie au precedent.8 0.2 0.8 0.90) 0. Ou Essentia non sunt multiplicanda praeter necessitatem. autrement dit qu'une explication simple vaut mieux qu'une explication compliquee.6 0.9 1.8 .9 0.5 0.9 PROPORTION DE FAUX NEGATIFS PROPORTION DE VRAIS POSITIFS Faux négatifs (10%) Vrais positifs (90%) 0.7 0.4 0. classiquement traduit par : It is vain to do with more what can be done with less.3 0.2 0.7 0.4 Ligne de hasard (pertinence = 0.7 0.1 0.8 0. car la performance mesuree depend a la fois des caracteristiques des tests empiriques e ectues et des echantillons de tests utilises.3 0.19 { Une courbe ROC a gauche.1 0.0 0 0.9 0.0 1.com) .4 Classe '' Vrais négatifs Faux positifs 0.6 Premiere Partie : Les Fondements de l'Apprentissage P ROPORTION DE VRAIS NEGATIFS 0.2 P ROPORTION DE VRAIS NEGATIFS 0.20? La reponse n'est pas evidente.9 Seuil "laxiste" Probabilité de la classe 0. Lors de la comparaison entre deux algorithmes.5) 0.1 0.6 0. PROPORTION DE FAUX NEGATIFS 0. Il releve d'un argument rhetorique classique. La m^me question se pose d'ailleurs pour deux hye potheses produites par le m^me algorithme a partir de conditions initiales di erentes.5 0. Le taux de couverture Dans le cas d'apprentissage de concept.6 0.3 0. e Toute une litterature porte sur ce probleme et nous n'en esquissons que les grandes lignes dans ce qui suit.5 0.3 0. sous peine d'a rmer a peu pres n'importe quoi.8 0. sans contre-exemples.7 0.6 0.6 0.17 est meilleur qu'un autre dont la performance mesuree est de 0. quod eri potest per pauciora.4 Probabilité de la classe Critère de décision 0. C'est la proportion d'exemples positifs qui sont couverts par l'hypothese. Ce principe a ete rationnalise par certains chercheurs dans le domaine de la theorie de l'apprentissage LV97].7 0. on utilise parfois la mesure de qualite d'une hypothese appelee le taux de couverture.2 0.3 0.8 Classe '+' 0.5 La comparaison des methodes d'apprentissage On peut toujours utiliser di erents algorithmes d'apprentissage sur une m^me t^che.8 PROPORTION DE VRAIS POSITIFS Courbe ROC (pertinence = 0.27 Octobre 2009 à 09:30 0.4 0. est-ce qu'un algorithme dont la performance en taux d'erreur de classi cation binaire vaut 0. Come a ment interpreter la di erence de performance mesuree empiriquement entre deux algorithmes? Plus concretement.118 0 1.7 0.3 0.1 0 0 0.9 1.5 0.3 Ce document est la propriété exclusive de nona nina (ninasbalka@gmail.2 0.7 Probabilité de la classe Critère de décision 0. Departager deux systemes sur une seule mesure est donc problematique.0 0.0 0 P ROPORTION DE FAUX POSITIFS P ROPORTION DE FAUX POSITIFS Fig.2 Critère de décision 0.0 1.9 1. 3. Guillaume d'Occam (1288-1348).9 1.0 1.3 0.4 0.5 0.4 0.6 Seuil "sévère" Probabilité de la classe Classe '' Vrais négatifs Faux positifs 0.5 0. ou de deux hypotheses produites par le m^me e 28. 3.0 0.0 0 0 0 0. Deux seuils sur cette courbe a droite.5 Classe '+' Faux négatifs Vrais positifs (50%) (50%) Critère de décision 0.6 0.7 0.4 0.1 0.

ou essayer un reseau connexionniste (chapitre 10). selon la m^me distribution. La methode la plus simple est de diviser cet ensemble en deux parties disjointes S et T et de faire fonctionner A1 et A2 sur S (eventuellement en reglant des parametres avec une partie V de S ). Soient deux hypotheses h1 et h2 produites par le m^me algorithme d'apprentissage 29 et deux e ensembles de test T1 et T2 de taille t1 et t2 . on a donc : L'intervalle de con ance a x % de cette valeur est donne par la formule 3. il est possible de montrer qu'un estimateur de leur di erence s'ecrit comme la di erence des estimateurs : bR (h1 h2 ) = RReel (h1 ) .4 : 2 b 4 RReel (h) s terr terr 1 terr 2 terr 2 t1 (1 . Sur deux ensembles d'apprentissage di erents ou sur le m^me. en changeant dans ce cas les conditions initiales. etc.5. Comment choisir en pratique la meilleure? Supposons avoir a notre disposition deux algorithmes A1 et A2 et un ensemble de donnees supervisees. puis de comparer les performances sur T . parmi une panoplie disponible. 29.d.1 La comparaison de deux hypotheses produites par un m^me algorithme e sur deux echantillons de test di erents. e par exemple. il faut distinguer le cas ou l'on se base sur des echantillons de test identiques ou di erents. ses particularites seront e ampli ees par la comparaison.4) 3. Par exemple si on cherche un concept dans IRd . donc si les donnees d'apprentissage sont numeriques et leur supervision positive ou negative. on peut chercher une fonction separatrice sous la forme d'un hyperplan (chapitre 9). t2 ) t t 1 1 2 3 5 (3. Nous allons traiter rapidement les deux cas. La principale raison en est que o l'echantillon d'apprentissage etant le m^me pour les deux methodes.5. Deux questions se posent : Peut-on accorder une bonne con ance a cette comparaison? Peut-on faire une comparaison plus precise avec les m^mes donnees? e La reponse a la premiere question est plut^t negative. terr 2 t1 t2 (x) En notant terr 1 le nombre d'objets de l'ensemble de test T1 mal classes par l'hypothese h1 et terr 2 le nombre d'objets de l'ensemble de test T2 mal classes par l'hypothese h2 . Nous e cherchons ici a estimer la quantite : Ce document est la propriété exclusive de nona nina (ninasbalka@gmail. 119 3. . ou prendre la regle des k-ppv (chapitre 14). On suppose ici que ces deux echantillons de test sont independants : ils sont obtenus l'un et l'autre par tirage i.com) . Ce que l'on cherche est quel est le meilleur algorithme non pas sur S .i. RReel(h2 ) b b bR (h1 h2 ) = terr 1 .2 La comparaison de deux algorithmes sur des ensembles de test di erents Prenons maintenant une situation que l'on rencontre souvent dans la pratique : on dispose de donnees d'apprentissage et on cherche quel est l'algorithme a leur appliquer. mais sur la fonction cible dont les exemples de S ne sont que des tirages aleatoires. RReel (h2 ) Si nous disposons d'estimateurs de ces deux risques reels. t1 ) + t2 (1 .27 Octobre 2009 à 09:30 R (h1 h2 ) = RReel (h1 ) .Chapitre 3 L'environnement methodologique de l'apprentissage algorithme a partir de conditions initiales di erentes.

96 2.70 2. pour i = 1 Q faire Si D .75 (x +1) = (x) 1.02 2. il faut donc utiliser une technique qui brasse aleatoirement les donnees d'apprentissage et de test.33 2. i Faire tourner l'algorithme A2 sur Si .76 3.64 1. nn j + 10 01 .30 6.81 2. ) La fonction (x k) tend vers (x) quand k augmente. alors e les intervalles de con ance peuvent ^tre beaucoup plus serres dans la mesure ou l'on elimine la e variance due a la di erence entre les echantillons de test. Soient donc deux hypotheses de classi cation h1 et h2 . On les note : T1 Ti : : : TQ . Un algorithme e cace est donne ci-dessous (3.92 (x 5) 2. 1) i=1 ( i .58 k(k .2 La comparaison de deux algorithmes d'apprentissage Partitionner les donnees d'apprentissage S T en Q parties egales. Il fournit l'hypothese h2 .2).3 La comparaison de deux algorithmes sur le m^me ensemble de test e Si les ensembles tests sur lesquels sont evalues les deux algorithmes sont les m^mes.5. Ti Faire tourner l'algorithme A1 sur Si .120 Premiere Partie : Les Fondements de l'Apprentissage Pour repondre positivement a la seconde question. Soit alors la statistique z : jn01 10 z = pn . Il fournit l'hypothese h1 . mais la formule ci-dessus n'est valable 2 2 4 v u u (x k) t 1 k X 3 5 3. Il a examine cinq tests statistisques a n d'etudier e la probabilite de detecter une di erence entre deux algorithmes alors qu'il n'y en a pas.23 2.com) . Dietterich a publie en 1997 un long article ( Die97]) sur la comparaison des algorithmes d'apprentissage sur le m^me ensemble de test. mais pas par h2 n10 = Nombre d'exemples de tests mal classes par h2 .27 Octobre 2009 à 09:30 Algorithme 3.57 3.03 (x 10) 1.96 9.46 2.92 4. Notons : n00 = Nombre d'exemples de tests mal classes par h1 et h2 n01 = Nombre d'exemples de tests mal classes par h1 .36 4. mais pas par h1 n11 = Nombre d'exemples de tests correctement classes par h1 et h2 . Ce document est la propriété exclusive de nona nina (ninasbalka@gmail.04 2. comme la validation croisee.17 (x 30) 1. i Ri1 . Ri2 . est alors donne par la formule : que si la taille de chaque Ti est d'au moins trente exemples. ou Ri1 et Ri2 sont les taux d'erreur de h1 et h2 sur Ti i i i n pour P 1 Q Q i=1 i L'intervalle de con ance a x % de . qui est un estimateur de la di erence de performance entre les deux algorithmes. Donnons-en quelques valeurs : x 90 % 95 % 98 % 99 % (x 2) 2.

grammaires. il faut pouvoir l'explorer. modeles bayesiens et markoviens. en particulier en eliminant les attributs inutiles Les hypotheses d'apprentissage doivent aussi ^tre representees. Man94]. Une fois l'espace des hypotheses de ni. formules logiques. Ce document est la propriété exclusive de nona nina (ninasbalka@gmail. symboliques. discret et numerique sont des techniques de base utilisees dans beaucoup d'algorithmes d'apprentissage pour la recherche d'une bonne solution. pour savoir lequel est le plus e cace dans cette situation particuliere. mixtes.5. 121 Notes historiques et bibliographiques La theorie de l'optimisation est un domaine m^r : bien developpe et stable. Fle88. Il faut aussi savoir mesurer la qualite d'une hypothese produite par un algorithme : les techniques par ensemble de test et ensemble de validation ainsi que les methodes par validation croisee sont a la base de cette mesure. Toutes ces representations ne sont pas compatibles avec tous les types de donnees. arbres.27 Octobre 2009 à 09:30 Resume Ce chapitre a aborde la representation des connaissances pour les objets et les concepts.com) . par exemple BSS92. . e Ce test est connu sous le nom de test couple (paired test) de McNemar ou de Gillick. La fonction (x) est la m^me que celle du paragraphe 3. Les points suivants ont ete traites : Les objets d'apprentissage sont decrits par des attributs qui peuvent ^tre e numeriques.4. Lue84. on peut chercher a nettoyer les donnees. les methodes de base pour la recherche d'une hypothese d'apprentissage et les techniques de la mesure de qualite d'une hypothese. sequentielles. On peut en u trouver des exposes synthetiques dans de nombreux ouvrages. Avant toute phase d'apprentissage. Les methodes de gradient.1. Un grand e nombre de possibilites existent : classes.Chapitre 3 L'environnement methodologique de l'apprentissage L'hypothese que h1 et h2 aient le m^me taux d'erreur peut ^tre rejetee avec une probabilite e e superieure a x %) si jz j > (x). Il est aussi essentiel de savoir comparer deux algorithmes d'apprentissage sur des jeux de donnees identiques ou non. valeurs numeriques.

com) .Ce document est la propriété exclusive de nona nina (ninasbalka@gmail.27 Octobre 2009 à 09:30 122 Premiere Partie : Les Fondements de l'Apprentissage .

com) .Ce document est la propriété exclusive de nona nina (ninasbalka@gmail.27 Octobre 2009 à 09:30 Deuxieme partie Apprentissage par exploration .

Ce document est la propriété exclusive de nona nina (ninasbalka@gmail.com) .27 Octobre 2009 à 09:30 .

L'apprentissage revient alors a construire et a adapter ces deux ensembles frontiere : c'est ce que fait l'algorithme d'elimination des candidats. alors il devient possible de de nir deux ensembles nis S et G e qui ont la propriete de de nir implicitement tous les concepts coherents. . De fait. prises dans un ensemble H donne a priori. l'espace des versions n'est rien d'autre que l'ensemble de toutes les hypotheses. c'est-a-dire l'espace des versions. mais il se trouve que si une relation de generalite entre hypotheses peut ^tre de nie sur H. Il nous permettra d'examiner un exemple clair d'articulation entre la notion d'espace des hypotheses coherentes discutees dans le chapitre 2 et les principes des methodes d'exploration de l'espace des hypotheses exposes dans le chapitre 3.Chapitre 4 Ce document est la propriété exclusive de nona nina (ninasbalka@gmail.27 Octobre 2009 à 09:30 Induction et relation d'ordre : l'espace des versions La premiere partie de ce livre a ete devolue aux concepts fondamentaux de l'apprentissage arti ciel. Cet ensemble est en general trop grand pour ^tre manipule e tel quel. L'apprentissage de concept a longtemps ete envisage uniquement comme une recherche par approximation successive d'une hypothese coherente avec l'echantillon de donnees.com) . Ce chapitre constitue un pivot entre les chapitres conceptuels et les chapitres plus appliques. Ce chapitre est le premier de ceux destines a presenter des techniques d'apprentissage. Il presente une technique generale d'induction supervisee de concepts a partir d'exemples et de contre-exemples. qui sont coherentes avec les donnees d'apprentissage. La notion d'espace des versions a profondement renouvele cette maniere de voir.

une hypothese de generalisation compatible pour le moment avec lui seul? Pourquoi pas justement : (V RAI 30 50] ? CouleurChaude) Mais si je veux ^tre prudent. Ces oiseaux sont etiquetes soit + (les canards).126 nards et deux manchots. Par exemple.1 +1] ^ . deux ca- Aplati = V RAI ] ^ Taille 2 30 40] ^ Envergure 2 . dans le langage des concepts. leur Taille. il est clair que cette derniere possibilite doit ^tre eliminee puisqu'elle couvre desormais un contre-exemple. J'ai devant moi quatre oiseaux. comme : (V RAI 30 50] ? CouleurChaude) Je me trouve devant mes quatre oiseaux que je vais examiner les uns apres les autres. induire le concept universel : (V RAI _ FAUX ) ^ . dont la taille est comprise entre 30 cm et 50 cm. (manchot) Je commence par le premier exemple. Si je considere maintenant le second exemple. (manchot) e3 = V RAI 40 46 Orange + (canard) e2 = FAUX 60 33 Orange . Le premier nous indique si le bec est Aplati ou non. les deux suivants se mesurent en centimetres et le dernier peut prendre les valeurs Roux. la formule logique suivante : V oici un petit probleme d'apprentissage. . Il y a six solutions. une formule qui explique tous les canards et rejette tous les manchots.com) . Comment ecrire. Je peux la (( couper au ras )) de e ce contre-exemple 1 selon l'un des attributs. Gris ou Noir. Je me donne un langage de representation pour les concepts : je vais les ecrire comme une conjonction de certaines proprietes sur les attributs. Ce qui peut s'ecrire. leur Envergure et la Couleur de leur cou. soit .27 Octobre 2009 à 09:30 est un concept qui represente l'ensemble des oiseaux dont le bec est de la forme Aplati.1 +1] ^ Couleur = CouleurChaude] Ce document est la propriété exclusive de nona nina (ninasbalka@gmail. (les manchots) et je veux apprendre un concept coherent avec les exemples. un canard. Orange.1 69] ? ?) 0 v1 = ( ? ? ? CouleurChaude) 1. Ils sont representes par le tableau suivant : Aplati Taille Envergure Couleur Classe e1 = V RAI 30 49 Roux + (canard) e2 = FAUX 70 32 Gris .1 +1] ^ Couleur = ( ? ? ? ?) qui signi e que j'accepte a partir de cet exemple unique de considerer comme coherents tous les oiseaux que peut decrire mon langage des hypotheses. dont l'envergure est indi erente et dont la couleur du cou est soit Roux. C'est-a-dire en excluant avec ce contre-exemple le minimum de ce que le langage des hypotheses impose d'exclure avec lui. parmi lesquelles : v1 = ( ? . soit Orange. je peux aussi produire le concept qui se contente de memoriser ce e premier exemple : (V RAI 30 30] 49 49] Roux) J'ai egalement une solution radicalement inverse. dans une syntaxe plus legere. Les attributs suivants sont su sants pour les decrire : la forme de leur bec.

si la taille des objets n'est pas mesuree en nombres entiers).1 31] ? ?) v4 = (V RAI 0 35] 46 +1] Roux) Ce document est la propriété exclusive de nona nina (ninasbalka@gmail.27 Octobre 2009 à 09:30 Il est intuitif de veri er que le concept v1 est plus general que v4 et v2 . retenons quelques principes qui ( ) gouvernent cette facon de proceder : Une formule du langage des concepts decrit un ensemble d'objets (ici. on ne peut pas dire qu'il soit plus general que v4 : il contient par exemple l'objet V RAI 33 50 Roux] que v4 ne contient pas. et que de m^me v4 est e plus general que v2 . qui re ete l'inclusion des ensembles d'objets qu'ils representent. Les concepts sont relies entre eux par une relation de generalite. Cet exercice sera continue plus loin et la notion intuitive de concept ( plus general ) qu'un autre sera formalisee. en traitant sequentiellement les exemples. d'oiseaux). Il va aussi montrer qu'il est possible de calculer. En revanche.Chapitre 4 Induction et relation d'ordre : l'espace des versions Je peux aussi conserver ma politique prudente et produire: 127 v2 = (V RAI 30 30] 49 49] Roux) qui est toujours coherent vis-a-vis de mes deux exemples. J'aurais aussi pu generer. entre autres : v3 = ( ? . en particulier gr^ce a l'introduction d'une a relation d'ordre dans l'espace des concepts. choisi par l'apprenant Le langage de description des exemples Le langage de description des hypotheses couverture(h) L'ensemble des exemples couverts par l'hypothese h : : : est plus speci que que : : : : : : est plus general que : : : > L'element maximal de H ? L'element minimal de H hps L'hypothese la plus speci que coherente avec un ensemble d'exemples hpg L'hypothese la plus generale coherente avec un ensemble d'exemples _ La disjonction logique ^ La conjonction logique gen ) Un operateur de generalisation spe ) Un operateur de specialisation . bien que v3 soit apparemment un concept tres vaste. Ce chapitre a pour objet de formaliser ces notions. Notations utiles pour le chapitre H LX LH L'ensemble de toutes les hypotheses. Le nombre de concepts coherents avec les exemples est tres grand (ou in ni. Pour le moment. deux ensembles nis S et G de concepts a partir desquels on peut deduire tous ceux qui acceptent les exemples et refusent les contre-exemples. Les exemples sont introduits les uns apres les autres et a chaque fois l'ensemble courant d'hypotheses se modi e pour qu'elles restent coherentes avec les exemples deja vus.com) .

LH peut ^tre de ni de facons variees. Dans le vocabulaire classique de l'espace des versions. mais e nous pouvons deja donner deux exemples : le premier langage est la logique des propositions sur des selecteurs.2 Les selecteurs Il est frequent dans l'apprentissage par l'espace de versions que le langage LH choisi pour representer les concepts soit. une partie de la logique des 2.1 Les concepts de base 4. .1). L'espace de representation est note LI (pour Language of Instances) dans la terminologie originale de l'espace des versions. Cet ensemble de valeurs possibles s'appelle un domaine. Nominaux comme la Couleur. L'ensemble des exemples positifs est note S+ . le langage des hypotheses est souvent note LG (pour Language of Generalizations). Il sera explicite un peu plus loin. un attribut nominal est simplement une enumeration de valeurs possibles comme Couleur = fRouge Orange Gris Noirg.128 PARTIE 2 : Apprentissage par exploration. le langage des hypotheses 3 (voir le chapitre 1). On cherche a apprendre des hypotheses. (contreexemple). Mais une hierarchie peut exister sur ces valeurs. comme dans l'exemple liminaire. qui est une combinaison d'attributs de nature diverse. Les valeurs x sont prises dans un espace de representation 2 X . Nous considerons ici que les attributs peuvent ^tre : e Binaires : le bec d'un oiseau est Aplati ou non. 4. qui sont des elements ecrits dans LH .1 La description des attributs.27 Octobre 2009 à 09:30 Couleur-chaude Couleur-froide Rouge Orange Gris Noir Fig. qui est apparu informellement dans l'exemple d'introduction le second langage permet de decrire des unions de deux rectangles dans le plan discret. celui des exemples negatifs S. On sait dans ce cas que l'attribut est appele arborescent (voir le chapitre 3 et la gure 4. 4. 3.1 { L'attribut Couleur est arborescent. . 4. avec ui valant soit V RAI ou + (exemple du concept a apprendre). comme dans notre exemple d'introduction : CouleurChaude = fRouge Orangeg. Numeriques comme l'Envergure.1.1. Couleur Ce document est la propriété exclusive de nona nina (ninasbalka@gmail. ou concepts. En general. CouleurFroide = fGris Noirg et Couleur = fCouleurChaude CouleurFroideg.com) . soit FAUX ou . la description des concepts Nous disposons d'un ensemble d'apprentissage de m exemples S = f(xi ui ) i = 1 mg.

FAUX sinon. Le processus d'apprentissage teste les hypotheses candidates de H sur les exemples d'apprentissage dans X . a valeurs dans fVRAI.com) . Un nouvel exemple d'apprentissage z t+1 = (xt+1 ut+1 ). le second est FAUX . comme le montre la gure 4. 4. ou V est une valeur attachee a un n ud de l'arbre. c'est un contre-exemple du concept cible. il s'agit souvent d'une conjonction de proprietes binaires sur les attributs des exemples. L'attribut Aplati est binaire. Deux cas sont alors possibles. L'exemple est de classe negative. le selecteur s'ecrit (attribut = V RAI ) ou (attribut = FAUX ) sa valeur V RAI ou FAUX se deduit directement de celle de l'attribut.1 Ce document est la propriété exclusive de nona nina (ninasbalka@gmail. donc qu'a l'etape t l'apprenant a fabrique une hypothese candidate ht coherente avec l'echantillon d'apprentissage partiel St . un pour chaque attribut. le concept : Aplati = V RAI ] ^ Hauteur 2 30 50] ^ Largeur 2 .1. auquel cas il n'y a pas de raison de modi er ht et l'on a simplement ht+1 = ht . Si l'attribut est arborescent. Si l'attribut est nominal de domaine D.5. le selecteur s'ecrit (attribut = V ).Chapitre 4 Induction et relation d'ordre : l'espace des versions propositions. le selecteur est de ni par un intervalle de IR.27 Octobre 2009 à 09:30 Selon la nature des attributs. Plus precisement. Il est V RAI si la valeur de l'attribut est un n ud compris au sens large entre V et une feuille de l'arbre. Cela signi e que la partie de X (( couverte )) . soit xt+1 n'est pas correctement classe par ht . avec D0 D. un selecteur prend des formes di erentes : Si l'attribut est binaire.1.1 +1] ^ Couleur = CouleurChaude] qui s'ecrit de maniere simpli ee : (V RAI 30 50] ? CouleurChaude) est compose d'une conjonction de quatre selecteurs. le troisieme est V RAI et le quatrieme est FAUX . Il est V RAI si la valeur est incluse dans cet intervalle. Sur l'objet : Bec Aplati Taille Envergure Couleur du cou V RAI 60 46 Noir le premier selecteur est V RAI .3 La relation de generalite entre les hypotheses Nous avons vu dans la section 1. Pour revenir a notre exemple de depart. Taille et Envergure sont numeriques et Couleur est arborescent. Les informations ainsi glanees servent a determiner d'autres hypotheses candidates. le selecteur s'ecrit (attribut 2 D0 ). 129 De nition 4. que l'on peut de nir ainsi : Un selecteur est une application agissant sur un seul attribut de l'espace de representation des donnees. On appelle selecteurs ces proprietes. donc ht (xt+1 ) = ut+1 . e Nous supposons ici que les exemples d'apprentissage sont consideres sequentiellement. FAUXg. Si l'attribut est numerique. et il est incorrectement classe comme positif par ht+1 . bornes comprises. que l'induction supervisee pouvait ^tre consideree comme e un jeu entre l'espace des exemples et l'espace des hypotheses. avec ut+1 2 fV RAI FAUX g devient alors disponible. Il y a deux possibilites : soit il est correctement classe par l'hypothese courante ht . et ainsi de suite jusqu'au critere d'arr^t. Il est V RAI si l'attribut prend une valeur de D0 .

com) .27 Octobre 2009 à 09:30 Dans les deux cas. c'est-a-dire chercher une sur-partie incluant xt+1 mais ne couvrant aucun des exemples negatifs de St (voir la gure 4. cela signi e que la partie de X (( couverte )) par ht+1 est trop petite. Une hypothese h1 est plus speci que 4 (ou moins generale) qu'une hypothese h2 .2 { Lorsqu'un nouvel exemple est mal classe par l'hypothese courante. Dans ce cas.-1) Nouvel exemple : (xm+1 .130 PARTIE 2 : Apprentissage par exploration. Il faut donc la reduire. au moins en ce qui concerne le point xt+1 (donc que le concept courant n'est plus complet).2). De nition 4. ce qui se note h1 h2 . e . Nouvel exemple : (xm+1 .3 (Relation de generalite dans H) Les relations et sur H sont illustrees dans les gures 4. Il faut donc l'augmenter. est l'ensemble des exemples de X que decrit h. il faut modi er celle-ci soit en la reduisant au sens de l'inclusion (a) a n d'exclure le nouvel exemple s'il est negatif. On dit que h couvre les elements de couverture(h).2 (Couverture d'une hypothese) La couverture d'une hypothese h 2 H.3 et 4. xt+1 est de classe positive. Cette relation est a prendre au sens large : toute hypothese est plus speci que qu'elle-m^me. Il faut donc trouver une relation entre les hypotheses dans H qui respecte la relation d'inclusion dans X . par ht+1 est trop grande. On parle de relation de generalite entre les hypotheses. nous dirons qu'une hypothese h1 est plus speci que ou encore moins generale qu'une hypothese h2 si et seulement si l'ensemble des exemples couverts par h1 est inclus dans l'ensemble des exemples couverts par h2 .4. De nition 4.+1) 0 0 + 0 0 + + 0 + + + 0 + hm hm+1 + 0 0 + + 0 + 0 + + + hm+1 hm + 0 0 0 0 X (a) 0 X (b) Fig. il est patent que l'hypothese courante doit ^tre modi ee en fonction des e relations d'inclusion dans X . 4. Au contraire. (donc que le concept courant n'est plus correct). au moins en ce qui concerne le point xt+1 . c'est-a-dire chercher une sous-partie excluant xt+1 mais couvrant tous les exemples positifs de St . Ce document est la propriété exclusive de nona nina (ninasbalka@gmail. notee couverture(h). si et seulement si couverture(h1 ) couverture(h2 ). soit en l'augmentant (b) s'il est positif. Plus formellement. et il est incorrectement classe comme negatif par ht+1 . 4.

27 Octobre 2009 à 09:30 Fig.com) . Ici. 4. 4. 4. Le risque empirique est alors mesure sur chaque exemple par la fonction de perte binaire : l(ui h(xi )) = ( 0 si ui = h(xi ) 1 si ui 6= h(xi ) Le risque empirique sur l'echantillon d'apprentissage S s'ecrit alors : REmp (h) = X S l(ui h(xi )) .1. ne faisant aucune erreur sur les exemples d'apprentissage. qui a ete decrit au chapitre 2. cela signi e que chaque hypothese sera evaluee en fonction de sa performance mesuree sur l'echantillon d'apprentissage. En pratique. couverture(hm+1) 0 0 + 0 hm+1 + + + 0 + + + 0 + 0 hm 0 couverture(hm) X hm+1 H Fig.4 { La relation d'inclusion dans hm+1 hm . Un cas particulier d'induction est celui ou l'on cherche une hypothese s'accordant parfaitement aux donnees.Chapitre 4 Induction et relation d'ordre : l'espace des versions 131 couverture(hm) 0 0 0 hm 0 + + 0 + + + 0 hm+1 0 + + 0 couverture(hm+1) X H Ce document est la propriété exclusive de nona nina (ninasbalka@gmail. X induit la relation de generalisation dans H. Ici.4 La relation entre un objet et un concept Nous nous situons dans ce chapitre dans le cadre du principe inductif ERM . X induit la relation de generalisation dans H. c'est-a-dire de son risque empirique.3 { La relation d'inclusion dans hm+1 hm .

Les hypotheses sont ici gurees par le sousespace des exemples qu'elles couvrent dans l'espace X . Cela signi e : 1. le concept cible et l'hypothese consideree co ncident. et complete et correcte. la relation de generalite sur H permet d'eviter une enumeration complete de ses individus. Que tous les exemples negatifs sont correctement classes par l'hypothese. complete) Ce document est la propriété exclusive de nona nina (ninasbalka@gmail.4 (Hypothese coherente. c'est-a-dire rejetes comme ne faisant pas partie du concept. On dit alors que l'hypothese ne couvre pas les exemples negatifs : elle est dite correcte.com) . 4.132 PARTIE 2 : Apprentissage par exploration.5 { La notion de couverture des exemples ( gures par des (( + ))) et des contre-exemples ( gures par des (( 0 ))) par les hypotheses. . Comme on le verra. 4. correcte mais incomplete. sur l'echantillon d'apprentissage au moins.2. Lorsque le risque empirique associe a une hypothese est nul. 0 0 + + 0 + + + + 0 0 0 h2 + h3 0 h1 0 X Fig. 5. 2. c'est-a-dire coherente. Nous evitons ici l'anglicisme (( consistant )) qui est souvent employe. on dit que l'hypothese est coherente 5 . Les hypotheses h1 . Que tous les exemples positifs de l'echantillon d'apprentissage sont correctement etiquetes par l'hypothese : on dit aussi que l'hypothese (( couvre )) tous les exemples positifs. correcte. tout en gardant la possibilite de veri er pout tout concept s'il est coherent on non avec les donnees d'apprentissage. pour laquelle nous employons le mot (( pertinence )) (voir le chapitre 2). L'hypothese est alors dite complete. la methode de l'espace des versions a pour but de resoudre le probleme suivant : trouver tous les elements de H coherents avec les exemples.2 La structuration de l'espace des hypotheses 4.1 Preliminaires Dans sa version de base.27 Octobre 2009 à 09:30 Si l'on suppose que les exemples etiquetes sont issus d'un concept cible. h2 et h3 sont respectivement complete mais incorrecte. un risque empirique nul signi e que. Il se confond souvent avec la (( consistance )) de la methode ERM . Il mesure le nombre d'erreurs commises par l'hypothese h sur l'echantillon d'apprentissage. De nition 4.

La description d'un exemple dans ce langage. soit une paire de rectangles. chaque exemple peut ^tre considere comme une hypothese ne couvrant e que cet exemple.Chapitre 4 Induction et relation d'ordre : l'espace des versions Il est a noter que cette methode de base exclut le bruit dans les donnees d'apprentissage. C'est le cas de l'inference de grammaires regulieres que nous verrons au chapitre 7.27 Octobre 2009 à 09:30 4. de nis par leurs deux coordonnees entieres. ou la veri cation qu'un concept couvre un exemple se fait par l'execution d'un programme Prolog. C'est encore plus net en programmation logique inductive (chapitre 5).com) ..2 Un exemple : les paires de rectangles Supposons que l'on cherche a apprendre un concept de ni comme : (( soit un rectangle. o C'est ainsi que les points a = (4 8) et b = (6 2) 6. C'est ce que l'on appelle l'astuce de la e representation unique (single representation trick) . Les objets o de l'espace de representation sont des points du plan IN2 . On cherche a construire toutes les surfaces de nies par l'interieur d'un rectangle ou de l'union de deux rectangles qui incluent les points exemples positifs et excluent les points negatifs. e .2. Dans ce probleme. Ce n'est pas tout a fait le cas du probleme d'apprentissage donne en introduction. Il est commode de supposer que le langage de generalisation inclut le langage de representation des exemples : ainsi. autrement dit la de nition de l'inclusion LX LH. ce qui est loin d'^tre trivial. les autres . La relation de generalite entre les concepts (les paires de rectangles) correspond naturellement a l'inclusion geometrique dans l'espace des exemples. Le premier est compris entre les valeurs 3 et 5 sur l'axe x1 et les valeurs 1 et +1 sur l'axe x2 . L'ensemble d'apprentissage est un ensemble de points du plan. 133 Ce document est la propriété exclusive de nona nina (ninasbalka@gmail. Un concept s se represente donc en general par une formule du type : s = 3 5] 1 +1] 2 7] 2 3] autrement dit une phrase dans un langage des concepts LH . puisque l'exemple : Aplati Taille Envergure Couleur Classe e1 = V RAI 30 49 Roux + s'ecrit dans le langage des concepts de maniere un peu di erente : (V RAI 30 30] 49 49] Roux) Mais la correspondance est assez directe pour que l'on puisse ignorer la fonction de transformation. nous supposerons dans la suite sans reelle perte de generalite que LX LH (4. Un objet est couvert par un concept quand le point correspondant est a l'interieur de la surface (frontiere comprise) de nie par l'union des deux rectangles.6). l'autre etiquete negatif. Il existe des cas ou cette transformation est plus complexe 6 . qui s'ecrit comme l'exemple lui-m^me. La signi cation de s est la suivante : il est l'union de deux rectangles du plan (x1 x2 ). c'est-a-dire qu'elle ne sait pas traiter le cas ou deux objets identiques sont l'un etiquete positif. le second est compris entre les valeurs 2 et 7 sur l'axe x1 et les valeurs 2 et 3 sur l'axe x2 (voir la gure 4. certains marques +. Pour simpli er. un exemple est represente par une sequence de lettres et son apprentissage par coeur par un automate qui ne reconna^t que cette sequence.1) LX est donc identi e a un sous-ensemble de LH. a coordonnees entieres et aux c^tes paralleles aux axes )). ce que l'on peut exprimer d'une autre facon : un exemple est le concept qui generalise le moins l'exemple en question. se fait simplement en considerant qu'un point est un rectangle de c^tes de longueur nulle.

134 PARTIE 2 : Apprentissage par exploration. 4. Il s'agit . mais elles sont toutes les deux plus speci ques que h1 .com) . La gure 4. La relation d'inclusion de nie sur X induit une relation de generalite sur H qui est une relation d'ordre partiel. X induit la relation de generalisation dans H. les hypotheses h2 et h3 sont incomparables entre elles. 4.27 Octobre 2009 à 09:30 2 1 0 0 1 2 3 4 5 b 6 7 8 9 10 Fig.7 { La relation d'inclusion dans d'une relation d'ordre partielle : ici. Cette relation est partielle et non pas totale. ce qui signi e que deux elements quelconques dans l'espace considere peuvent ne pas ^tre e lies par cette relation.3 Un ordre partiel sur l'espace des hypotheses couverture(h1) couverture(h2) h2 h1 h3 couverture(h3) X H Fig. qui peuvent s'ecrire dans le langage LH comme les phrases : a = 4 4] 8 8] et b = 6 6] 2 2] appartiennent au concept s. Les points sur la frontiere de l'un des deux rectangles sont consideres comme appartenant au concept.6 { Le concept s = 3 5] 1 +1] 2 7] 2 3] couvre les deux points a = (4 8) et b = (6 2). 4.7 illustre cette notion. 8 7 6 5 4 3 a s Ce document est la propriété exclusive de nona nina (ninasbalka@gmail.2.

8). nous supposons 7 qu'il existe dans H une hypothese plus generale que toutes les autres (ou element maximal) notee > et une hypothese plus speci que que toutes les autres (ou element minimal) notee ? (voir la gure 4.Chapitre 4 Induction et relation d'ordre : l'espace des versions Une relation d'ordre partiel induit une structure de treillis sur H. H induit par la Les exemples ainsi que plusieurs gures du chapitre 1 et de ce chapitre montrent clairement que la relation d'inclusion est fondamentale pour le probleme de l'induction. Finalement. . alors qu'une hypothese incomplete (ne couvrant pas tous les exemples positifs connus) devra ^tre generalisee pour que ces exemples deviennent elements e de sa couverture. Comme l'espace H des hypotheses est de ni par son langage de description LH . C'est en general valide. En e et. hj) hi hj smg(hi. une hypothese incorrecte (donc couvrant ind^ment des exemples negatifs) devra ^tre specialisee pour u e que sa couverture exclut ces exemples. on peut de nir de m^me un e ensemble gms(hi hj hk : : : ) et un ensemble smg(hi hj hk : : : ). cela signi e qu'il faut trouver comment associer a la relation d'inclusion dans X des operations syntaxiques sur LH correspondant a la relation de generalite.8 { Une vision schematique et partielle du treillis de generalisation sur relation d'inclusion dans X . 4. Chaque eche indique la relation de generalite (notee dans le texte). il existe au moins une hypothese qui soit plus generale que chacune d'entre elles et qu'il n'est pas possible de la speci er sans perdre cette propriete. Par une extension facile au cas de plus de deux hypotheses. L'ensemble de ces hypotheses est appele le generalise maximalement speci que de hi et hj et note gms(hi hj ). 135 Ce document est la propriété exclusive de nona nina (ninasbalka@gmail. Cela signi e que pour tout couple d'hypotheses hi et hj . il existe un ensemble d'hypotheses plus speci ques que hi et hj qu'il n'est pas possible e de generaliser sans perdre cette propriete. Il est donc naturel que le processus d'induction soit guide par ces relations d'inclusion.com) . De m^me. Trouver des equivalences aux relations d'inclusion dans X revient donc a trouver des operateurs 7. Nous avons egalement deja souligne dans le chapitre 1 que l'induction necessite une mise a jour des hypotheses directement dans H. hj) H Fig. On appelle cet ensemble le specialise maximalement general et on le note smg(hi hj ).27 Octobre 2009 à 09:30 ˆ gms(hi.

com) . alors que la relation d'inclusion n'a. Une formule du type A ^ (B = v1 ) 2 C signi e ) qu'un objet couvert par le concept C est decrit par la conjonction d'un selecteur sur les attributs A (avec A binaire) et B (avec B nominal ordonne).2. il su t de le remplacer par l'un de ses ascendants dans l'arbre : A ^ (B = n1 ) 2 C gen A ^ (B = N ) 2 C ) A ^ (B = n2 ) 2 C ou N est le plus petit n ud ascendant commun aux n uds n1 et n2 .136 PARTIE 2 : Apprentissage par exploration.1) pour parler de concept inclus dans un autre. Operateur de cl^ture d'intervalle o A ^ (B = v1) 2 C A ^ (B = v2) 2 C Par exemple : Bec aplati ^ (envergure = 50) 2 canard Bec aplati ^ (envergure = 55) 2 canard gen ) A ^ (B 2 v1 v2 ]) 2 C ) Bec aplati ^ (envergure 2 50. c'est-a-dire plus speci que ou plus generale. . A titre d'illustration. a proprement parler. On constatera que les generalisations proposees ne sont evidemment pas des operations logiquement valides.4 Quelques operateurs de specialisation et de generalisation Ce document est la propriété exclusive de nona nina (ninasbalka@gmail. 4. ce dernier valant v1 pour B . 55]) 2 canard Operateur de l'ascension dans l'arbre de hierarchie gen Pour generaliser une description incluant un attribut arborescent. de sens que pour les categories qui sont de nies sur X . Par exemple : Bec aplati ^ (couleur = Roux) 2 canard Bec aplati ^ (couleur = Orange) 2 canard gen ) Aplati ^ (couleur = couleur-chaude) 2 canard Operateur d'abandon de conjonction A ^ B 2 C gen A 2 C ) Par exemple : Bec Aplati ^ (couleur = Roux) 2 canard gen Bec Aplati 2 canard ) 8. On tire pro t ici de la confusion assumee entre la notion de concept et celle de partie de X (voir l'equation 4. dans le langage LH qui permettent de modi er une hypothese hm en une nouvelle hypothese hm+1 inclue dans la premiere ou l'incluant 8. nous presentons quelques-uns de ces operateurs de generalisation.27 Octobre 2009 à 09:30 Le probleme de la recherche d'operateurs syntaxiques de generalisation ou de specialisation sera egalement debattu dans le chapitre 5 portant sur la programmation logique inductive. Il est en revanche facile d'exhiber des exemples d'operateurs satisfaisants dans le cas de representations fondees sur la logique des propositions et la representation attribut-valeur (voir le chapitre 11). en particulier parce que la solution n'est pas evidente lorsque l'on utilise des representations en logique des predicats dite aussi logique d'ordre 1. L'operation de generalisation est notee gen.

Il est possible de renverser chaque operateur de generalisation pour obtenir des operateurs de specialisation qui transforment une hypothese en une hypothese moins generale. c'est-a-dire les limites de l'expressivite du langage LH . En examinant quelques proprietes de l'espace H ainsi muni d'une relation d'ordre. nous allons voir que l'avantage peut ^tre plus e important encore.Chapitre 4 Induction et relation d'ordre : l'espace des versions Operateur d'ajout d'alternative Par exemple : Bec Aplati 2 canard gen Bec Aplati _ Couleur = Orange 2 canard ) 137 A 2 C gen A _ B 2 C ) Operateur de changement de conjonction en disjonction A ^ B 2 C gen A _ B 2 C ) Ce document est la propriété exclusive de nona nina (ninasbalka@gmail.2. ne risque-t-on pas.5 Quelques proprietes utiles d'un espace structure par une relation d'ordre partiel Rappelons d'abord qu'il n'y a generalement pas bijection entre l'espace des hypotheses H et l'espace des exemples X : c'est ce qu'implique l'existence d'un biais de representation. Bec Aplati ^ (Couleur = couleur-chaude) 2 canard spe ) Bec Aplati ^ (Couleur = Roux) 2 canard Pour resumer. couvrant davantage d'elements de l'espace des exemples X . il est important de s'assurer que certaines proprietes sont veri ees. 4. Ainsi. La premiere a trait a la convexite de H : est-on certain que l'application des operateurs de specialisation/generalisation sur des expressions de LH produit toujours des expressions valides qui ont une contrepartie dans X ? En d'autres termes. De ce fait. ou plus speci que. alors il est muni d'une structure d'ordre partiel associee a la relation d'inclusion sur l'espace des exemples X . Il en est deux qui nous concernent specialement. la recherche d'une hypothese coherente avec les a exemples d'apprentissage peut ^tre guidee par ces operateurs et ^tre par consequent beaucoup e e plus e cace qu'une recherche par gradient (chapitre 3). en jouant avec ces operateurs. elle est particulierement pertinente pour la t^che d'induction.27 Octobre 2009 à 09:30 Par exemple : (Bec Aplati ^ Couleur = Orange 2 canard) gen (Bec Aplati _ Couleur = Orange 2 canard) ) Chaque operateur de generalisation permet de transformer l'expression d'une hypothese en l'expression d'une hypothese plus generale. Ainsi l'operateur de generalisation par montee dans la hierarchie des descripteurs peut fournir un operateur de specialisation par descente dans la hierarchie : A ^ (B = N ) 2 C spe A ^ (B = n1) 2 C ) ou N est un n ud ascendant du descripteur n1 . couvrant moins d'elements de X . De ce fait. de produire des .com) . si un espace d'hypotheses H est de ni par un langage LH qui admet des operateurs de specialisation et de generalisation.

Il n'est pas possible de garantir la propriete d'^tre borne pour tout ensemble decrit sur un e langage LH muni d'operateurs de specialisation/generalisation. elle demande par contre des soins particuliers en logique d'ordre 1 (logique des predicats).1 (Theoreme de convexite ( Hir90])) L'ensemble des hypotheses H de ni par un langage LH sur lequel sont de nis des operateurs de specialisation/generalisation est convexe.138 ( ( PARTIE 2 : Apprentissage par exploration. soit au contraire la non production d'hypotheses pertinentes de H. . Un ensemble E dont les elements sont representables dans un langage LH est convexe si et seulement si : Pour tous h1 h2 h3 tels que h1 h3 2 E et h1 h2 h3 alors h2 2 E De nition 4. C'est donc une contrainte qu'il faut a chaque fois veri er ou imposer si besoin est. fondamentale pour la suite.7 (S : Les hypotheses coherentes maximalement speci ques) L'ensemble des hypotheses de H couvrant les exemples positifs et excluant les exemples negatifs. De nition 4. Heureusement.27 Octobre 2009 à 09:30 h2 h1 H Fig. De nition 4. Cette contrainte est en general veri ee sur les langages d'ordre 0 (logique des propositions).6 (Ensemble borne pour la generalisation) Un ensemble C d'hypotheses decrits par un langage LH est borne si et seulement si pour tout h dans C il existe une hypothese g maximalement generale dans C et une hypothese s maximalement speci que dans C telles que s h g. Plus formellement : h3 Ce document est la propriété exclusive de nona nina (ninasbalka@gmail. Si les deux proprietes precedentes sont vraies.com) .5 (Ensemble convexe pour la generalisation) Propriete 4. 4. alors l'exploration de H par l'application des operateurs pourrait conduire a des resultats aberrants : soit des hypotheses sans signi cation dans X . mais qu'on ne puisse pas obtenir a partir de celle-ci par une sequence d'operateurs de specialisation/generalisation? Si l'une ou l'autre de ces deux proprietes s'averait non veri ee.9 { Un exemple d'ensemble non convexe pour la relation de generalite. ces deux proprietes peuvent ^tre e obtenues. hypotheses )) qui n'auraient pas de sens? La deuxieme propriete est duale de la precedente : peut-il y avoir des hypotheses dans H qui sont de fait plus generales ou plus speci ques qu'une autre hypothese de H. alors une troisieme propriete en decoule.

1 Illustration : retour sur l'exemple des rectangles Reprenons l'exemple des rectangles. et telles qu'il ne soit pas possible de les generaliser sans perdre ces proprietes.9 (Espace des versions) Le theoreme (4. Nous le noterons G dans la suite. alors il peut ^tre represente par sa borne e inferieure S et sa borne superieure G. 139 De nition 4.1). . a nous pouvons donc remarquer que S est un sous-ensemble du gms de l'ensemble des exemples positifs (on ne peut rien dire d'aussi simple sur G).Chapitre 4 Induction et relation d'ordre : l'espace des versions et telles qu'il en soit pas possible de les specialiser sans perdre ces proprietes. En considerant un exemple comme une hypothese. Cette propriete a trois corollaires essentiels : 1. 4. Un algorithme d'apprentissage peut operer en calculant ces deux bornes. est appele le S-set. Le concept z = 3 3] 1 6] 5 25] 1 4] est coherent avec ces donnees d'apprentissage (voir la gure 4.1 (Representation de l'espace des versions par S et G Hir90]) De nition 4. Nous allons voir l'application de cette idee dans l'algorithme d'elimination des candidats propose par T. Il s'agit la d'une idee novatrice par rapport aux algorithmes d'apprentissage recherchant une hypothese coherente par modi cation incrementale d'une hypothese initiale. L'ensemble de toutes les hypotheses coherentes avec les exemples d'apprentissage est appele l'espace des versions. 2. Il n'existe donc pas de concept coherent moins speci que qu'un element de G ou plus speci que qu'un element de S . est appele le G-set.1) prouve que l'espace des versions peut ^tre represente de maniere economique e par ses bornes S et G.3 La construction de l'espace des versions x1 x2 Classe 3 5 3 2 4 2 3 3 2 3 + + + 4.com) .3.10). gr^ce a la relation LX LH (equation 4. Mitchell Mit82]. avec les donnees d'apprentissage suivantes : .8 (G : Les hypotheses coherentes maximalement generales) L'ensemble des hypotheses de H couvrant les exemples positifs et excluant les exemples negatifs. 3. l'ensemble des hypotheses coherentes avec un ensemble d'exemples d'apprentissage est representable par une borne inferieure et une borne superieure : toute hypothese comprise entre ces deux bornes est coherente.27 Octobre 2009 à 09:30 Si un ensemble d'hypotheses est convexe et borne. Theoreme 4. A tout instant. Nous le noterons S dans la suite. et donc en calculant l'ensemble des hypotheses coherentes. Ce document est la propriété exclusive de nona nina (ninasbalka@gmail. .

Il procede de maniere iterative.2 L'algorithme d'elimination des candidats L'apprentissage par l'espace des versions est associe a un algorithme de construction des solutions. La gure 4. A partir de la il autorise la caracterisation de tous les concepts coherents avec les exemples. Sa convergence est assuree par un theoreme (non demontre ici) qui prouve qu'un seul examen de chaque exemple su t et que l'ordre de presentation des exemples n'in ue pas sur le resultat de l'algorithme.140 8 7 6 5 4 3 2 1 0 0 1 2 3 4 5 6 7 8 9 PARTIE 2 : Apprentissage par exploration. 4.S).3.11 illustre les di erents cas qui peuvent se rencontrer lors de la mise a jour des bornes S et G par l'algorithme d'elimination des candidats.3.x. en mettant a jour S et G.27 Octobre 2009 à 09:30 Fig.x. positifs (carres) comme negatifs (triangles). Ces procedures se de nissent gr^ce aux notions de specialisation a minimale et de generalisation minimale.3. la generalisation minimale consiste a elargir l'un des deux rectangles en deplacant le c^te adequat jusqu'a ce qu'il englobe juste l'objet. Il n'est donc pas coherent avec les donnees d'apprentissage. 8 7 6 5 4 3 2 1 0 10 0 1 2 3 4 5 6 7 8 9 10 Ce document est la propriété exclusive de nona nina (ninasbalka@gmail.3. Nous allons voir maintenant comment construire S et G a partir des exemples. les de nitions de la specialisation minimale et de la generalisation minimale sont faciles a comprendre intuitivement : Etant donnes une hypothese et un objet.com) .1). appele l'elimination des candidats (algorithme 4.G) et Specialiser(g. et nous veri erons que tout element de l'espace des versions est plus speci que qu'un certain element de G et moins speci que qu'un certain element de S .10 { Le concept s = 3 5] 1 +1] 2 7] 2 3] ( gure de gauche) couvre tous les points d'apprentissage. Le o . 4.1 Encore les rectangles Generalisation et specialisation minimale Dans l'exemple des rectangles. Il est donc demontre que cet algorithme iteratif remplit le but xe : il permet de trouver S et G. Cet algorithme gere deux procedures Generaliser(s. qui seront utilisees pour remplacer dans G (respescivement S ) un concept devenant trop speci que (respectivement trop general) par un ou plusieurs autres concepts permettant de respecter les contraintes de consistance. 4. En revanche le concept z = 3 3] 1 6] 5 25] 1 4] ( gure de droite) est coherent avec ces donnees : il couvre tous les exemples positifs et aucun exemple negatif. exemple par exemple.3 Deux exemples 4.

27 Octobre 2009 à 09:30 x (c) x (d) x S (b') H Fig. 4.11 { Cette gure schematise les di erents cas possibles lors de la mise a jour des en- sembles S et G par l'algorithme d'elimination des candidats. Les eches en pointilles illustrent le cas ou quatre directions de e generalisations seraient possibles. Il y a deux ou quatre facons de s'y prendre.12. . (c) et (d) correspondent a la mise a jour de S pour tenir compte d'un exemple positif.12). Les cas (a'). selon la position du point dans le concept (voir la gure 4. plus simple est de voir cette operation (qui peut se faire de deux facons) sur la gure 4. Les cas (a). Il reste donc les hypotheses (a) et (c) qui remplaceront l'ancienne hypothese dans S . L'hypothese (d) doit egalement ^tre ecartee car elle est plus generale qu'une autre hypothese de S qui est e coherente avec les exemples. La specialisation minimale consiste a reduire l'un des deux rectangles en deplacant le c^te o adequat jusqu'a ce l'objet se trouve juste exclu de l'hypothese. Il est clair que les concepts obtenus sont tous les deux plus generaux que celui dont on est parti.com) . (b') et (d') illustrent des cas duaux dans le cas de la mise a jour de l'ensemble G pour tenir compte d'un nouvel exemple negatif.Chapitre 4 Induction et relation d'ordre : l'espace des versions 141 G (b) x x x (a') x (d') (a) x Ce document est la propriété exclusive de nona nina (ninasbalka@gmail. (b). La direction (b) doit ^tre eliminee car elle correse pond a une surgeneralisation : l'hypothese produite est en e et plus generale qu'une hypothese de G et doit donc couvrir des exemples negatifs. On suppose ici qu'un element de S ne couvre pas ce nouvel exemple et doit ^tre generalise.

Initialiser G comme l'ensemble des hypotheses les plus generales de H Initialiser S comme l'ensemble des hypotheses les moins generales de H pour Chaque exemple x faire si x est un exemple positif alors Enlever de G toutes les hypotheses qui ne couvrent pas x pour Chaque hypothese s de S qui ne couvre pas x faire Enlever s de S Generaliser(s.1 Algorithme d'elimination des candidats.x.1 +1) x1 x2 Classe . 4 3 .27 Octobre 2009 à 09:30 n pour sinon n pour n si n pour (x est un exemple negatif) Enlever de S toutes les hypotheses qui couvrent x pour Chaque hypothese g de G qui couvre x faire Enlever g de G Specialiser(g . Le deroulement de l'algorithme d'elimination des candidats se fait alors comme suit : DEBUT Initialisation G0 = .G) c'est-a-dire : ajouter a G toutes les specialisations maximales h de g telles que : h ne couvre pas x et il existe dans S un element plus speci que que h Enlever de G toute hypothese plus speci que qu'une autre hypothese de G Deroulement de l'algorithme Reprenons l'ensemble d'apprentissage : 3 2 + 5 3 + 3 3 + 2 2 .x.142 PARTIE 2 : Apprentissage par exploration. Il est represente sur la gure 4.13.com) .1 +1] .S ) c'est-a-dire : ajouter a S toutes les generalisations minimales h de s telles que : h couvre x et il existe dans G un element plus general que h Enlever de S toute hypothese plus generale qu'une autre hypothese de S Ce document est la propriété exclusive de nona nina (ninasbalka@gmail. Algorithme 4.

27 Octobre 2009 à 09:30 positif. S = f 3 3] 2 2] 3 5] 3 3] 2 3] 5 5] 3 3] 3 3] g Comme le langage des concepts est limite a l'union d'au plus deux rectangles.Chapitre 4 Induction et relation d'ordre : l'espace des versions 8 7 6 5 4 3 2 1 0 0 1 2 3 4 5 6 8 7 6 5 4 3 2 1 0 0 1 2 3 4 5 6 8 7 6 5 4 3 2 1 0 0 1 2 3 4 5 6 143 Fig.com) . une specialisation minimale possible du m^me concept e par rapport a l'exemple negatif. S0 = Lecture de l'exemple positif (x1 = 3 x2 = 2) G = G0 S = f 3 3] 2 2]g Lecture de l'exemple positif (x1 = 5 x2 = 3) G = G0 S = f 3 3] 2 2] 5 5] 3 3]g Lecture de l'exemple positif (x1 = 3 x2 = 3) G est inchange.13 { L'ensemble d'apprentissage. un concept qui couvre un exemple negatif et ne couvre pas un exemple Ce document est la propriété exclusive de nona nina (ninasbalka@gmail. une generalisation minimale possible de ce concept par rapport a l'exemple positif. A droite. 4. Les exemples sont representes par des carres et les contre-exemples par des triangles. Au centre. 4. .12 { A gauche. il y a ici une generalisation : le point (x1 = 4 x2 = 3) est admis par le premier element de S . 5 4 3 2 1 0 0 1 2 3 4 5 6 7 Fig.

16). S est inchange (voir les gures 4.15 et 4. G = f 3 3] . 3 4 5 6 7 Ce document est la propriété exclusive de nona nina (ninasbalka@gmail. par exemple : z = 3 3] .5 10] 5 10] 1 4] ou : z0 = 3 3] 1 12] 5 25] . Le resultat est donne sur la gure 4. soit une hauteur nulle. 4.1 +1] . Lecture de l'exemple negatif (x1 = 2 x2 = 2) G = f 3 +1] .14 { Apres la lecture du troisieme exemple positif.1 +1] 5 +1] .1 +1]g Notons g l'unique element de G. 5 4 3 2 1 0 0 1 2 3 4 5 6 7 5 4 3 2 1 0 0 1 2 3 4 5 6 7 5 4 3 2 1 0 0 1 2 3 4 5 6 7 Fig. Lecture de l'exemple negatif (x1 = 4 x2 = 3) S = f 3 3] 2 3] 5 5] 3 3]g Notons s l'unique element de S .1 1] . soit les deux.1 +1) 3 +1] 3 +1] . FIN On peut veri er que n'importe quel concept coherent. S possede deux elements : la paire de rectangles grisee et celle en blanc. 4. ils sont reduits au point d'apprentissage.17.27 Octobre 2009 à 09:30 Fig. G possede trois elements et S est inchange. Tous ces rectangles ont soit une largeur nulle.1 46] .com) . Dans ce dernier cas.1 +1] 3 +1] .144 5 4 3 2 1 0 0 1 2 PARTIE 2 : Apprentissage par exploration. on en a garde trois : les seules contenant au moins un element de S .1 1] .1 +1] .1 +1] g Il y avait six facons de specialiser G sans tenir compte de S .15 { Apres la lecture du quatrieme exemple (negatif).1 +1] .

6 5 4 3 2 1 0 0 1 2 3 4 Ce document est la propriété exclusive de nona nina (ninasbalka@gmail.3.16 { Trois autres possibilites d'elements de G ont ete eliminees.18) : s z g mais il n'existe pas de relation d'ordre entre z et z 0 . car elles ne couvrent aucun element de S. les operations de specialisation et de generalisation . S et G n'ont chacun qu'un seul element : s et g.17 { Apres la lecture du cinquieme exemple (negatif).18 { Deux concepts z tels que s z g est tel que ( gure 4.2 Fonctionnement sur l'exemple des oiseaux Generalisation et specialisation minimale Dans l'exemple des canards et des manchots.3. 4.Chapitre 4 Induction et relation d'ordre : l'espace des versions 5 4 3 2 1 0 0 1 2 3 4 5 6 7 5 4 3 2 1 0 0 1 2 3 4 5 6 7 5 4 3 2 1 0 0 1 2 3 4 5 6 7 145 Fig.com) . 4. 4. 7 6 5 4 3 2 1 0 0 1 2 3 7 6 5 4 3 2 1 0 4 5 6 7 8 0 1 2 3 4 5 6 7 8 Fig.27 Octobre 2009 à 09:30 6 5 4 3 2 1 0 5 6 7 8 0 1 2 3 4 5 6 7 8 Fig. 4.

nous allons eliminer le troisieme attribut. Les donnees d'apprentissage sont donc les suivantes : Deroulement de l'algorithme DEBUT Initialisation G = (? ? ?) S= e1 = e2 = e3 = e4 = V RAI FAUX V RAI FAUX Aplati Taille Couleur Classe 30 Roux + 70 Gris . Lecture de e1 = ((V RAI 30 Roux) +) On generalise minimalement S pour couvrir e1 : S = f(V RAI 30 30] Roux)g G est inchange : G = (? ? ?) Lecture de e2 = ((FAUX 70 Gris) .1 60] .1 59] .1 60] 33 +1] CouleurChaude) et le contre-exemple : e4 = (FAUX 60 38 Orange) Il y a quatre possibilites de specialisation minimale de v1 vis-a-vis de e4 : ( V RAI (? (? (? Ce document est la propriété exclusive de nona nina (ninasbalka@gmail. 40 Orange + 60 Orange .27 Octobre 2009 à 09:30 Pour le concept : et l'exemple : . sont egalement faciles a de nir.1 60] 33 33 39 33 +1] +1] +1] +1] CouleurChaude) CouleurChaude) CouleurChaude) Roux) v4 = (V RAI 0 59] 46 +1] Roux) (FAUX 60 47 Orange) on obtient la generalisation minimale : (? 0 60] 47 +1] CouleurChaude) Pour simpli er cet exemple. l'Envergure.) S est inchange : S = f(V RAI 30 30] Roux)g Il y a quatre specialisations minimales de G pour rejeter e2 : ( V RAI ? ?) ( ? .com) .1 60] .146 PARTIE 2 : Apprentissage par exploration.1 69] ?) ( ? 71 +1] ?) ( ? ? CouleurChaude) . Soit le concept : v1 = ( ? .

27 Octobre 2009 à 09:30 Lecture de e4 = ((FAUX 60 Orange) .1 69] ?) pour rejeter (FAUX 60 Orange) : ( V RAI . 4 et 4 concepts possibles: Specialisations minimales de ( V RAI ? ?) pour rejeter (FAUX 60 Orange) : ( V RAI . Voici trois exemples : ( V RAI 9 18] Noir) (? 30 30] Orange) (? 9 9] CouleurChaude) ( ? . Le premier element ne couvre pas e4 .1 69] ?) ( ? .1 59] ?) ( V RAI 61 +1] ?) ( V RAI ? CouleurFroide) Specialisations minimales de ( ? . G devient : G = f ( V RAI ? ?) FIN Tout concept plus general que le seul element de S et plus speci que qu'un element de G est solution. Finalement. en ne conservant que le concept le plus general s'il en existe deux en relation de generalite. Ce document est la propriété exclusive de nona nina (ninasbalka@gmail.1 69] ?) .) On essaie de specialiser chaque element de G par rapport a e4 . Les trois suivants donnent respectivement 3.Chapitre 4 Induction et relation d'ordre : l'espace des versions On ajoute a G les trois pour lesquelles il existe dans S un element plus speci que.1 59] CouleurChaude) (? 61 +1] CouleurChaude) (? ? Roux) S est inchange : S = f(V RAI 30 40] CouleurChaude)g On ajoute a G les specialisations pour lesquelles il existe dans S un element plus speci que.com) . 147 G = f ( V RAI ? ?) ( ? .1 59] ?) ( ? 61 +1] ?) ( ? ? CouleurFroide)) Specialisations minimales de ( ? ? CouleurChaude) pour rejeter (FAUX 60 Orange) : ( V RAI ? CouleurChaude) (? .1 69] ?) ( ? ? CouleurChaude) g Lecture de e3 = ((V RAI 40 Orange) +) On generalise S pour couvrir e3 S = f(V RAI 30 40] CouleurChaude)g G est inchange.

A chaque cycle. Un systeme de resolution de probleme tente alors de trouver une solution en encha^nant des operateurs d'integration. Cela fournit un arbre de resolution qui peut aboutir a une solution . Z v du OP3 : 1 OP4 : f (x) = f (x) L'integrale d'une somme est la somme des integrales : Z f1 (x) + f2 (x)] dx . les eleves connaissent ces regles mais ne savent pas exactement dans quel contexte il est judicieux d'appliquer chacune d'entre elles. C'est ce type d'apprentissage qu'essaie de simuler le systeme Lex. Il est egalement dote d'une taxonomie sur les concepts de fonctions mathematiques (voir gure 4. De ce fait.3. un module fournit un exercice a resoudre. Le systeme suit alors un cycle qui est schematise sur la gure 4. on leur donne un ensemble de (( recettes )) que l'on appelle ici des operateurs OP .! r OP5 : OP6 : Z f1 (x) dx + Z f2 (x) dx La primitive de la fonction sin(x) : Z sin(x) dx = . ils mettent beaucoup de temps a resoudre les problemes car ils se perdent dans de nombreuses impasses.com) . 4. Au debut de son apprentissage. cos(x) + c cos(x) dx = sin(x) + c La primitive de la fonction cos(x) Z La regle d'integration des fonctions puissance : OP7 : Z xn+1 xn dx = n + 1 + c Au debut de leur apprentissage. ils apprennent a appliquer ces regles juste au moment ou elles font progresser vers la solution.27 Octobre 2009 à 09:30 Z r f (x) dx = r Z f (x) dx La regle d'integration par parties : OP2 : La regle de l'identite : Z u dv = uv . Au debut. Au fur et a mesure de leur entra^nement.19).4 Un exemple d'application : le systeme LEX Le systeme Lex a ete developpe par Tom Mitchell en 1983 pour apprendre automatiquement les conditions d'utilisation des operateurs mathematiques permettant de calculer la primitive d'expressions mathematiques. le systeme conna^t un ensemble d'operateurs d'integration symboliques tels que ceux donnes plus haut.148 PARTIE 2 : Apprentissage par exploration.20. C'est exactement ce a quoi les eleves des classes preparatoires aux grandes ecoles passent beaucoup de temps. Par exemple (r et c sont ici de constantes : La sortie des constantes de multiplication: OP1 : Ce document est la propriété exclusive de nona nina (ninasbalka@gmail.

5 5 6 7 ... En revanche. Du point de vue capacite memoire.* / ^ prim transc poly (comb f f) op monom ∫ der u v w x y .5 -1 0 1 2. Ces exemples et contre-exemples sont alors fournis a un systeme d'apprentissage utilisant l'algorithme d'elimination des candidats qui calcule ainsi les bornes S et G de nissant les contextes dans lesquels il est approprie d'utiliser l'operateur considere (voir la gure 4. . 4. trig Ce document est la propriété exclusive de nona nina (ninasbalka@gmail. le nombre d'operations necessaires est en dependance quadratique par rapport a la taille des ensembles frontiere S et G. Chaque utilisation des operateurs selon une branche ayant mene a un succes fournit un exemple positif de l'emploi de cet operateur (en fait il faut aussi examiner si la solution est optimale).com) .21 pour un exemple de cycle).. 4.4 Analyse de l'algorithme d'elimination de candidats 4.1 Complexite au pire L'algorithme d'elimination des candidats depend lineairement de la taille de l'ensemble des exemples. ou a un echec (par exemple si le systeme ne trouve pas de solution avec les ressources calcul allouees).. 4.19 { Une taxonomie des fonctions de base telle que celle employee par le systeme Lex. Inversement.27 Octobre 2009 à 09:30 explog ln (+ monom poly) sin c o s t a n e x p i d r (^id k) (* r id) (* r (^id k)) Fig. Génération de problèmes Exercice Heuristiques partiellement apprises Résolution de problèmes Trace détaillée de la tentative de résolution de l'exercice Critique Généralisation Exemple d'apprentissage Fig. -1. la taille necessaire est simplement celle des ensembles frontiere. chaque utilisation d'un operateur le long d'une branche ayant mene a un echec correspond a une utilisation erronee de cet operateur et fournit donc un exemple negatif de contexte d'utilisation.20 { L'architexture generale du systeme Lex avec le cycle d'utilisation.Chapitre 4 Induction et relation d'ordre : l'espace des versions expr 149 r (op expr expr) (f arg) (ff (f arg)) k + .4.

La partie la plus co^teuse de l'algorithme est le test qui veri e pour chaque couple de u generalisations de l'ensemble frontiere en construction l'absence de relation d'ordre entre les deux elements. d'un algorithme d'apprentissage ayant la propriete suivante : soit il produit un element unique appartenant a l'ensemble H des hypotheses qu'aurait produit l'algorithme de l'espace des versions. il est neanmoins possible de se demander ce que l'introduction d'une distribution de probabilite sur les exemples permet de dire sur celle des solutions.4. L'espoir est que le nombre des elements de l'ensemble frontiere reste petit par rapport au nombre d'exemples. Supposons que chaque exemple soit decrit par un vecteur de 2m attributs booleens xi i = 1 : : : 2m et que le langage des generalisations corresponde a l'ensemble des conjonctions qu'on puisse former sur les attributs.2 Le point de vue de l'apprentissage PAC On peut aussi relier les concepts introduits dans ce chapitre a ceux de l'apprentissage PAC (voir les chapitres 2 et 17). Helas.∫ 3x sin(x) dx OP1 3x sin(x) . sauf xj et xj +m j = 1 : : : m. Génération de problèmes Espace des versions pour l'utilisation de l'opérateur OP2 : S ={ ∫ 3x cos(x) dx → Appliquer OP2 avec : u = 3x dv = cos(x) dx} G ={ ∫ f1(x) f2(x) dx → Appliquer OP2 avec : u = f1(x) dv = f2(x) dx} Calculer la primitive de : ∫ 3x cos(x) dx Résolution de problèmes Généralisation ∫ 3x cos(x) dx Ce document est la propriété exclusive de nona nina (ninasbalka@gmail. L'ensemble G resultant est fxi1 ^ xi2 : : : ^ xim j ik 2 fk k + mgg et contient 2m elements. en plus des hypotheses precedentes. 4. Supposons disposer.3 ∫ x sin(x) dx OP5 ∫ 3x cos(x) dx → Appliquer OP2 avec : u = 3x dv = cos(x) dx Critique 3x sin(x) . la taille des ensembles frontiere peut rapidement atteindre des valeurs importantes dans des cas reels. 4. Si la theorie classique de l'espace des versions a pour but de decrire l'ensemble exhaustif des solutions et de les caracteriser par les deux ensembles S et G. Un exemple positif dont tous les attributs sont a V RAI 2. soit il repond que l'ensemble H est incompatible avec les exemples proposes.27 Octobre 2009 à 09:30 OP2 avec : u = 3x dv = cos( x) d x Un des exemples positifs proposés : 3x sin(x) .21 { Un exemple de cycle d'apprentissage dans le systeme Lex.150 PARTIE 2 : Apprentissage par exploration. qui sont FAUX . .com) . m exemples negatifs dont tous les attributs sont a V RAI .3x cos(x) dx + C Fig. Il est possible de trouver un exemple simple ou la taille de l'ensemble G cro^t exponentiellement avec le nombre de contre-exemples presentes. On se donne la presentation suivante des exemples : 1.

1 La construction de la structure Nous nous placons maintenant dans une situation techniquement un peu di erente de celle traitee par l'espace des versions. . Nous supposons que le langage de representation est purement binaire.5 La representation des connaissances par un treillis de Galois 4. c'est-a-dire que chaque exemple ou contre-exemple se decrit par un ensemble de reponses V RAI ou FAUX a des tests qu'on lui pose. Alors. Propriete 4. Si les exemples sont decrits par 10 attributs. 4. mais proche dans son esprit. . S = fx1 x2 x3 x4 x5 g e est decrit par cinq attributs binaires dont la signi cation est la suivante : x1 x2 x3 x4 x5 vole a des plumes pond des ux mammifere nage sous l'eau 9. DNF 9 par cette technique. Dans cette representation. on peut remplacer dans la formule ci-dessus log j H j par (2d)k . un ensemble d'objets peut par exemple ^tre le suivant. forme normale k-disjonctive.27 Octobre 2009 à 09:30 Ce resultat est independant de la distribution de probabilite avec laquelle sont tires les exemples. Un concept est de cette forme s'il est compose d'au plus k disjonctions _ sur des termes composes de conjonctions ^ entre les attributs binaires.3 Soit H de taille nie et un ensemble de m exemples d'un concept-cible h.Chapitre 4 Induction et relation d'ordre : l'espace des versions Propriete 4. Pour : N (log(1= ) + log j H j)= Un cas particulier est celui ou l'ensemble H est de taille nie : on sait alors que sa VCdimension l'est aussi. Les deux proprietes precedentes quanti ent donc a la maniere PAC une approximation a priori de la qualite de l'apprentissage par l'espace des versions en fonction du nombre d'exemples presentes. avec une probabilite au moins egale a 1 . Ou : k-disjunctive normal form. en supposant qu'il s'agisse d'apprendre des k .com) . ou V C (H) est la VC-dimension de H. et on peut se ramener directement au cas presente au chapitre 2.5. que k vaut 3 et que l'on se xe et a 1=10. l'algorithme d'apprentissage rendra comme resultat : soit une hypothese de H avec une erreur inferieure a vis a vis de h soit la reponse que h n'est pas dans H.2 On peut alors demontrer la propriete suivante : 151 Pour tout couple de valeurs 2 0 1] on se donne (4 log(2= ) + 8V C (H)log(13= ))= exemples du concept h tires independamment. Ce document est la propriété exclusive de nona nina (ninasbalka@gmail. A titre d'illustration. . il faudra prendre : m 100. la probabilite d'avoir la propriete (( toutes les solutions de l'espace des versions construit sur les exemples ont une probabilite d'erreur inferieure a vis-a-vis de h )) est d'au moins 1 .

27 Octobre 2009 à 09:30 S fx3 g fs1 s2 s4 g fx1 g fs1 s3 s4 g fx4g fs2 s3g fx1 x4g fs3 g fx1 x2 x3 g fs1 s4g X Fig. compose de trois cases. 4. correspond a l'absence d'attribut le niveau en dessous. x1 x2 x3 x4 x5 0 1 1 0 0 1 0 0 commentaire oie ornithorynque rhinolophe cygne L'idee de la representation par treillis de Galois est de ne pas garder les exemples sous forme de matrice de V RAI et FAUX . Par exemple.23 { La premiere ligne complete. fx3 x4 x5 g fs2 g Que signi e un tel diagramme? Le niveau superieur de la gure.23. composee d'une seule case. etc. exprime la relation des exemples avec un attribut parmi les quatre le niveau suivant exprime la relation des exemples avec deux attributs. De m^me. fx3 g fs1 s2 s4 gfx1 g fs1 s3 s4 g fx4 g fs2 s3 g fx2 g fs1 s4 g Fig. mais en sens inverse.152 s1 s2 s3 s4 1 0 1 1 1 0 0 1 1 1 0 1 PARTIE 2 : Apprentissage par exploration. Ce document est la propriété exclusive de nona nina (ninasbalka@gmail. On devrait selon ce principe s'attendre a trouver dans le second niveau les cinq cases de la gure 4. la variable x1 rend l'ecriture de x2 inutile a ce niveau.com) . 4. la .22 { Un treillis de Galois. e Pour tracer un trait representant la relation d'ordre entre les elements de niveau di erent dans le treillis de Galois. ou ici de 0 et de 1. comme sur la gure 4. fx5 g fs2g Mais on ne represente que celles qui sont indispensables: comme l'ensemble fs1 s4 g est strictement inclus dans l'ensemble fs1 s3 s4 g. mais de les transformer en une representation ordonnee. il faut que les deux composantes representant les attributs et les exemples soient en double relation d'inclusion stricte.22. x5 est rendue inutile par x4 ou par x3 .

On ne developpe que la partie necessaire au fur et a mesure. 11.2 L'utilisation pour l'apprentissage En quoi cette relation d'ordre particuliere dans le langage des exemples peut-elle ^tre utile e a l'apprentissage? Par la structuration qu'elle degage des donnees. car tous les deux sont a la disposition de l'utilisateur: la structure en treillis de Galois induit une technique coherente d'exploration des donnees quel que soit le type du concept cherche 11 et quel que soit l'algorithme d'apprentissage proprement dit. les methodes d'apprentissage par plus proches voisins (chapitre 14) sont utilisees dans ce cadre ( NN97]). soit incrementaux. Dans ce cas precis. Dans ce cas. Par exemple.com) . mais oblige a faire des choix sur lesquels on ne pourra pas toujours revenir. Dans des cas plus complexes. Ce document est la propriété exclusive de nona nina (ninasbalka@gmail. Sur notre exemple.5. supposons que les objets s2 et s3 soient les exemples et s1 et s4 les contreexemples. Dans cette optique. une technique est de travailler de maniere ascendante dans la structure du treillis. Nous n'avons pas precise quel espace d'hypotheses ni quelle methode d'apprentissage utiliser. Jusque la en e et. en contr^lant sa e o coherence au fur et a mesure de la progression dans le treillis. successivement par X fx3 x4 x5 g fs2 g fx4 g fs2 s3g . les systemes d'apprentissage developpes representaient des tentatives de simuler la cognition 10. Rappelons qu'un concept est correct s'il ne couvre aucun exemple negatif. mais en parallele avec la creation du concept. Il est possible que celle-ci soit mise en echec si les exemples sont bruites. l'intelligence arti cielle etait essentiellement guidee par l'etude de la cognition naturelle. Cette structure resume parfaitement les relations de generalite des attributs vis-a-vis des objets et. On peut aussi demontrer que le treillis de Galois construit sur une matrice binaire est unique. celles objets vis-a-vis des attributs. par exemple si l'un est a la fois negatif et positif. Notes historiques et sources bibliographiques La these de Tom Mitchell en 1978 : Version spaces : an approach to concept learning a marque un tournant fondamental dans l'approche de l'apprentissage arti ciel. mis a part les travaux portant sur la reconnaissance des formes. Si les donnees sont partagees en exemples positifs et negatifs et que l'on cherche a elaborer un concept correct le plus general possible. compatible ou coherent s'il est correct et complet. ou un compromis entre les deux 10. le concept est compatible avec les donnees et il est facile de veri er que l'attribut x4 mammifere forme a lui tout seul ce concept. le treillis n'est pas construit avant l'apprentissage.27 Octobre 2009 à 09:30 153 4. le concept complet le moins general. la structure permet de trouver le concept correct le plus general. ont ete proposes pour realiser cette construction. Souvent ecrit sous la forme d'une formule en logique des propositions. humaine en particulier. Il est evidemment possible de reconstituer le tableau des donnees d'apprentissage a partir de celle-ci. complet s'il couvre tous les exemples positifs. La plupart du temps. Il est important de remarquer que la taille du treillis peut ^tre exponentielle e en fonction du nombre d'attributs. Il n'est pas possible d'aller plus loin les cases car les objets s1 et s4 seraient couverts. le test d'un concept se fait de la m^me facon. qui permet de les explorer de maniere organisee. La remontee dans le treillis se fait en suivant la relation d'ordre. soit prenant en compte tous les exemples a la fois. Divers algorithmes. Cette technique permet d'eviter une explosion combinatoire. symetriquement.Chapitre 4 Induction et relation d'ordre : l'espace des versions case fx1 g fs1 s3 s4 g est en relation avec la case fx1 x4 g fs3 g puisque fx1 g fx1 x4 g et fs1 s3 s4g fs3 g. .

La theorie de l'evolution de Darwin. et donc par le systeme apprenant cense le simuler. La presentation qui en est faite ici et l'exemple des rectangles sont repris du texte de Nicolas dans Nic93]. il est remarquable que la vision de l'apprentissage comme selection de bonnes hypotheses au sein d'un ensemble d'hypotheses possibles donne a priori s'accorde a la vision actuelle de la biologie.154 PARTIE 2 : Apprentissage par exploration. comme l'optimisation et la convergence. en revanche il n'etait pas question de s'interroger sur la possibilite. considerant l'apprentissage comme la selection des hypotheses les plus performantes par rapport aux observations. D'une part. met soudain a distance les systemes arti ciels et leurs contreparties naturelles.27 Octobre 2009 à 09:30 . il devient naturel de s'interroger sur l'espace des hypotheses m^me et sur sa capacite a e contenir le concept cible. dans l'etude de l'apprentissage. Avant la these de Mitchell. Dans tous les cas. Nous donnons dans ce qui suit quelques indications bibliographiques aux lecteurs interesses par les recherches et les developpements portant sur les espaces des versions. Winston (1970) Win70]. la possibilite de l'induction est completement dependante de la richesse de l'espace des hypotheses. encore moins la necessite. et donc des outils de l'analyse mathematique. D'abord. l'idee d'espace des versions. cela conduisait a considerer des algorithmes explorant l'espace des hypotheses possibles en adaptant et en modi ant progressivement une hypothese unique. s'est nalement jointe a ce mouvement. D'autre part. Comme nous l'avons deja amplement discute dans les chapitres 1 et 2. L'essentiel de la theorie et de l'algorithmique a ete produit par T. Les idees contenues dans la these de Tom Mitchell ont profondement bouleverser ce point de vue. L'approche actuelle de l'apprentissage articiel. Les origines de l'apprentissage par generalisation et specialisation remontent au moins a P. Le systeme AM de Doug Lenat Len78] simulait le raisonnement d'un mathematicien en train d'aborder la theorie des nombres et de faire des conjectures dans ce domaine. Ainsi. La realisation progressive de ce dernier point s'accompagne de l'essor des travaux portant sur des theories de l'apprentissage comme techniques d'approximation et non plus comme identi cation d'un concept cible. Pour terminer par une note philosophique.com) . Winston ( Win75]) la formalisation et la resolution du probleme par l'espace des versions sont une des etapes majeures de la naissance de la discipline. a simulait l'apprentissage d'un concept (celui d'arche) a partir d'exemples positifs et negatifs d'arches. Cela a conduit Mitchell a souligner l'inevitabilite d'un biais pour apprendre. Mitchell Mit82]. Cela autorise a etudier des algorithmes d'apprentissage nouveaux et sans necessairement de plausibilite psychologique. le systeme Arch de P. Ensuite. d'avoir un espace d'hypotheses limite. Le developpement concomittant du connexionnisme dans les annees quatre-vingt joue alors un r^le de catalyseur en permettant l'intrusion des o mathematiques du continu. et la theorie de Chomsky sur l'apprentissage de la langue naturelle comme specialisation d'une grammaire universelle de nissant l'enveloppe des langues possibles. celle de Changeux et de ses collegues (qui voient l'apprentissage comme elimination de connexions dans le cerveau). L'avenir nous dira la destinee de cet etonnant exemple multidisciplinaire de pensee unique. toutes ces demarches theoriques vont a l'unisson. de m^me qu'apparemment un agent humain raisonne sur la base de la meilleure e hypothese courante et l'adapte si necessaire. Les concepts introduits et l'algorithme d'elimination des candidats peuvent ^tre trouves dans presque tous les livres e Ce document est la propriété exclusive de nona nina (ninasbalka@gmail. les chercheurs en intelligence arti cielle examinaient en quoi la representation des connaissances choisie etait ou non favorable a des raisonnements pertinents pour le domaine considere (c'est en particulier toute l'essence des recherches de Lenat). il etait suppose que le concept cible (ou la connaissance cible) etait connaissable par un agent humain. L'algorithme d'elimination des candidats en est un exemple. cela allait de pair avec des approches theoriques de l'apprentissage portant sur l'identi cation exacte du concept cible et non sur une approximation. humaine sur des t^ches particulieres. l'ensemble de toutes les hypotheses coherentes avec les donnees d'apprentissage.

L'algorithme d'elimination des candidats a fait l'objet de l'examen critique du theoricien David Haussler Hau88] qui a souligne en particulier que la taille de la borne G de l'espace des versions pouvait cro^tre exponentiellement avec le nombre d'exemples negatifs. Comme le nombre de ces concepts peut ^tre in ni. Hirsh Hir90. Mitchell Mit97]. c'est-a-dire mal decrites ou mal classees. et presentes dans un ordre tres defavorable. Des chercheurs comme Hirsh Hir90] ou Smith et Rosenbloom SR90] ont propose des heuristiques pour ameliorer l'ordre de presentation des exemples. on s'interesse a une e de nition de leur ensemble en intension. en exploitant la structure algebrique des solutions potentielles. l'examen de la preuve de Haussler laisse supposer que le phenomene de croissance exponentielle ne peut se produire que pour des echantillons de donnees tres particuliers. La theorie de ces espaces est developpee dans Bir67].com) . Seb94b] a pousse cette idee encore plus loin avec l'approche de disjunctive version spaces qui marie une approche de generalisation en representation attribut-valeur avec la technique de l'espace des versions. Cette observation relativise evidemment l'avantage apporte par la consideration de ces bornes. Celle-ci est de nie par deux ensembles nis S et G et une relation d'ordre sur les concepts. e e . Cependant. L'apprentissage par plus proche voisins en liaison avec la construction de cette structure est en particulier etudiee dans NN97]. Hir92] a ainsi presente un algorithme d'apprentissage dans lequel on forme un espace des versions pour chaque exemple positif. Nous recommandons particulierement la presentation recente de T. La methode de l'espace des versions est d'une grande importance historique et methodologique. comme dans les treillis de Galois. Wil92a]. Michele Sebag Seb94a. L'apprentissage gr^ce a la structure en treillis de Galois a ete en particulier etudie par a Gan93. Il montre que cette idee permet de traiter des donnees bruitees.27 Octobre 2009 à 09:30 Resume La methode de l'espace des versions vise a de nir tous les concepts coherents avec un ensemble d'exemples.Chapitre 4 Induction et relation d'ordre : l'espace des versions d'intelligence arti cielle. Des propositions ont donc ete faites visant a rel^cher l'exigence de a stricte coherence. puis on en fait l'intersection. Son inter^t pratique est loin d'^tre nul. L'insistance sur la stricte coherence des hypotheses de l'espace des versions avec les exemples condamne generalement l'algorithme original a ne pas pouvoir trouver d'hypothese s'accordant aux donnees. 155 Ce document est la propriété exclusive de nona nina (ninasbalka@gmail. LS98]. Une limite plus serieuse de l'approche de Tom Mitchell concerne les donnees bruitees. La recherche d'un concept particulier se fait.

Ce document est la propriété exclusive de nona nina (ninasbalka@gmail. .com) .27 Octobre 2009 à 09:30 156 PARTIE 2 : Apprentissage par exploration.

com) .. le langage de representation des hypotheses est tres bien connu mathematiquement et algorithmiquement. En pratique. etc. en reference aux langages de programmation du type Prolog qui travaillent directement dans ce langage. la combinatoire de l'apprentissage est tres grande : il s'agit d'explorer un espace immense en faisant constamment des choix qu'il sera di cile de remettre en question.27 Octobre 2009 à 09:30 La programmation logique inductive (PLI) realise l'apprentissage de formules de la logique des predicats a partir d'exemples et de contre-exemples. (( Paul est le grand-pere de Pierre )). la PLI peut s'appliquer a un grand nombre de situations. le dessin industriel. il existe x tel que x est le pere de y et y est le pere de z )). Ensuite. les algorithmes permettent d'apprendre des concepts operatoires dans des domaines aussi varies que le traitement de la langue naturelle. . comme la demonstration automatique.Chapitre 5 La programmation logique inductive Ce document est la propriété exclusive de nona nina (ninasbalka@gmail. L'enjeu est de construire des expressions logiques comportant des variables liees les unes aux autres. un programme de PLI doit ^tre capable de trouver une formule du e type (( Pour tous les x et z tels que z est le grand-pere de y. On se limite la plupart du temps a un sous-ensemble de la logique des predicats qu'on appelle (( programme logique )). La PLI a deux caracteristiques fortes : d'abord. la chimie. (( Paul est le pere de Jean )).). Ce type d'apprentissage est di cile a realiser. Comme le langage de description des concepts est riche. du fait de la richesse de ce langage.. Par exemple. C'est pourquoi il est important en PLI de bien decrire les biais d'apprentissage qui limitent cette exploration. La notion de generalisation peut donc ^tre introduite en coherence avec e les outils de la logique. la fouille de donnees. a partir de la description des liens de parente dans quelques familles ((( Jean est le pere de Pierre )).

158 propos de ce livre sait maintenant reconna^tre nombre d'especes : des rapaces. repond l'expert. chacun ecrit comme une conjonction ET (^) de predicats sur ses attributs et sa supervision. ce n'est qu'une reecriture pour l'instant. ( Et alors? Est-ce que la contradiction entre les exemples x5 et x6 a disparu pour autant? ) ( ) demande le debutant? (( Non )). comme la sarcelle et la bernache. Les exemples deviennent alors. comme l'epervier et le faucon pelerin ou des palmipedes. le premier exemple devient : (epervier(x1 ) = V RAI ) ^ (envergure(x5 60) = V RAI ) ^ (male(x1 ) = V RAI ) ou plus simplement : epervier(x1) ^ envergure(x5 60) ^ male(x1 ) L'ensemble des exemples est maintenant l'union (le OU ou _) d'expressions de ce type. ( je sais que vous connaissez la methode de l'espace des ( ) ( versions et que vous essayez de trouver un concept ecrit dans un certain langage des hypotheses. (( vous avez raison.27 Octobre 2009 à 09:30 envergure(x5 90) = V RAI Dans ce formalisme. lui repond ce dernier. qui se montre satisfait de ses progres (mais conscient de ses limites) et qui lui propose un nouvel exercice : apprendre a reconna^tre le sexe de l'animal (sans dissection) sur des especes ou seule la taille peut eventuellement aider. Il rencontre a nouveau l'expert. L'ensemble d'apprentissage propose par l'expert donne pour mesure l'envergure en centimetres. ( D'accord ) . C'est tres simple a voir : les exemples x5 et x6 sont decrits par les m^mes a e attributs et sont associes a des etiquettes contradictoires. c'est-adire une formule logique formee de la disjonction des exemples. ce qui consiste par exemple a ecrire l'attribut (( envergure )) pour l'exemple x5 de la maniere suivante : L’ ornithologie s'apprend vite : le debutant que nous avons rencontre dans l'avant- Ce document est la propriété exclusive de nona nina (ninasbalka@gmail. N'est-ce pas? C'est en e et impossible d'apprendre quoi que ce soit dans ce langage sur ces donnees. )) Il propose alors d'utiliser deux nouveaux predicats env-sup(x y ) et meme-esp(x y ) avec la signi cation suivante : env-sup(x y ) est V RAI quand l'envergure de l'exemple note x est strictement superieure a celle de l'exemple note y et meme-esp(x y ) est V RAI si l'exemple x est de la m^me espece que l'exemple y. en notant pour raccourcir : e epervier(x) par E (x) pelerin(x) par P (x) . Il est le suivant : espece envergure sexe x1 epervier 60 m^le a x2 epervier 80 femelle x3 pelerin 90 m^le a x4 pelerin 110 femelle x5 sarcelle 70 m^le a x6 sarcelle 70 femelle Le debutant s'apercoit rapidement qu'il ne sait pas trouver un concept pour distinguer les m^les des femelles. Vous avez choisi pour ce langage la logique des propositions sur des selecteurs portant sur des attributs. Il fait part de cette re exion a l'expert.com) . Je vais vous initier a une autre facon de faire de l'apprentissage. )) L'expert propose alors de reformuler les donnees sous la forme de predicats. Mais je vais vous donner un peu de materiel supplementaire.

com) . ..... . dit l'expert. Il obtient par exemple : e male = male(x1 ) _ male(x3 ) _ male(x5 ) = E (x1 ) ^ e(x1 60)^] _ P (x3 ) ^ e(x3 90)] _ S (x5 ) ^ e(x5 70)] Mais cela ne le satisfait pas. Il essaie donc d'utiliser la connaissance supplementaire fournie par l'expert et obtient ceci. La seconde est evidente et la premiere debute ainsi : B (x) FAUX FAUX FAUX FAUX FAUX FAUX e(x 100) e(x 110) FAUX FAUX FAUX FAUX FAUX FAUX V RAI FAUX FAUX FAUX FAUX FAUX S (x) FAUX FAUX FAUX FAUX V RAI V RAI e(x 60) e(x 70) V RAI FAUX FAUX FAUX FAUX FAUX FAUX FAUX FAUX V RAI FAUX V RAI male(x) fem(x) V RAI FAUX FAUX V RAI V RAI FAUX FAUX V RAI V RAI FAUX FAUX V RAI .. car il n'y a aucune generalisation... E (x) P (x) x1 V RAI FAUX x2 V RAI FAUX x3 FAUX V RAI x4 FAUX V RAI x5 FAUX FAUX x6 FAUX FAUX e(x 80) e(x 90) x1 FAUX FAUX x2 V RAI FAUX x3 FAUX V RAI x4 FAUX FAUX x5 FAUX FAUX x6 FAUX FAUX 159 Ce document est la propriété exclusive de nona nina (ninasbalka@gmail.. . apres avoir essaye un grand nombre de formules : env-sup(x2 x1 ) ^ E (x1 ) ^ E (x2 ) ^ male(x1 ) ^ fem(x2 ) ^ env-sup(x4 x3) ^ P (x3) ^ P (x4) ^ male(x3 ) ^ fem(x4) ^ meme-esp(x1 x2 ) ^ meme-esp(x3 x4) Bon... Pouvez-vous utiliser cette information? )) ( Voyons cela ) . mais pas les sarcelles. Nous savons tous les deux que les eperviers et les faucons sont des rapaces.... etc. repond le debutant : ( ) env-sup(x2 x1 ) ^ rapace(x1 ) ^ rapace(x2 ) ^ male(x1 ) ^ fem(x2 ) ^ env-sup(x4 x3 ) ^ rapace(x3 ) ^ rapace(x4 ) ^ male(x3) ^ fem(x4) ^ meme-esp(x1 x2) ^ meme-esp(x3 x4) ( ( x1 FAUX FAUX FAUX FAUX FAUX FAUX x2 V RAI FAUX FAUX FAUX V RAI V RAI x3 V RAI V RAI FAUX FAUX V RAI V RAI x1 x2 x3 x4 x5 x6 .27 Octobre 2009 à 09:30 Il faut ecrire aussi la table de verite des predicats relationnels env-sup et meme-esp.. . nous y sommes presque. le debutant tente l'apprentissage d'un concept dans le m^me langage.Chapitre 5 La programmation logique inductive sarcelle(x) par S (x) envergure(x 60) par e(x 60). Quoiqu'un peu impressionne par la quantite plus importante de donnees. . .

Nous avons vu dans le chapitre 4 que les concepts de generalisation et de specialisation se de nissent par reference a la relation d'inclusion entre les extensions des concepts. L'idee essentielle est de considerer l'ensemble de toutes les hypotheses coherentes 1 avec l'echantillon d'apprentissage S = f(x1 u1 ) (x2 u2 ) : : : (xm um )g. Cet espace est appele l'espace des versions. rappelons-le. On obtient ainsi une relation d'ordre partiel qui est exploitee dans l'algorithme d'elimination des candidats pour mettre a jour les deux bornes de l'espace des versions : le S-set et le G-set. pour toutes les especes de rapaces (et non pour les autres oiseaux). Que dites-vous de la formule suivante? )) env-sup(X ( ( Y ) ^ rapace(X ) ^ rapace(Y ) ^ meme-esp(X Y ) ^ male(Y ) ^ fem(X ) Elle signi e que.1 La programmation logique inductive : le cadre general 5. Nous revenons sur ce probleme dans la section suivante. . ce qui signi e qu'il existe des operations bien de nies 1. Le premier est que la notion de couverture d'un exemple par une hypothese n'est pas toujours aussi simple que le chapitre 4 peut le laisser penser. Ainsi. Elle passe par la determination de la plus petite generalisation (respectivement specialisation) d'une hypothese et du nouvel exemple lors de l'adaptation du S-set (respectivement du G-set). Sa mise a jour se fait incrementalement a chaque fois qu'un nouvel exemple d'apprentissage devient disponible. c'est presque bon. C'est-a-dire. Je vous donne une derniere cle.1 Complexite de l'induction et expressivite du langage d'hypotheses Le chapitre 4 a montre comment on peut formaliser le probleme de l'induction de concept. Notations utiles pour le chapitre Ce document est la propriété exclusive de nona nina (ninasbalka@gmail. la femelle d'une espece est d'envergure superieure au m^le )) repond le debutant (( mais je n'aurais pas su a la trouver : je ne connaissais ni les predicats relationnels ni les expressions avec des variables )). Un concept est dit plus speci que qu'un autre si son extension est incluse dans l'extension de l'autre. couvrant tous les exemples positifs et excluant tous les exemples negatifs de cet echantillon. l'ensemble des parties de X forme une algebre. Le deuxieme probleme est que les regularites observees sur les parties de X ne se transportent pas completement dans l'espace des concepts H de ni par le langage LH d'expression des hypotheses. Cette approche de l'apprentissage souleve deux problemes.com) .1.160 ( ( PARTIE 2 : Apprentissage par exploration.27 Octobre 2009 à 09:30 j= ` j=T ^ _ : h1 < h2 Relation d'implication semantique (theorie des modeles) Relation d'implication logique (theorie de la preuve) Relation d'implication relative a la theorie T ET : conjonction OU : disjonction Negation L'hypothese h1 est plus generale que h2 5. c'est-a-dire de l'apprentissage d'une fonction indicatrice. Cette fois. a valeur dans f0 1g. c'est-a-dire l'ensemble des objets de X qu'ils couvrent.

Pour des raisons de place. Le deuxieme type d'apprentissage implique en general des raisonnements et des mecanismes de generalisation beaucoup plus complexes. dans lequel on cherche a adapter une description (ou theorie) du domaine en fonction de quelques nouveaux exemples et contre-exemples. et par une borne superieure : le G-set. et malheureusement moins ma^trises que dans le premier. il peut ^tre possible. le langage d'expression des hypotheses. Malheureusement. nous avons essentiellement fait reference a des langages d'hypotheses en attributs-valeurs. la relation de subsomption est dite saine (sound) si h1 est aussi generale que h2 implique que h1 < h2 . nous nous limitons donc dans ce chapitre a l'etude de l'apprentissage empirique. L'apprentissage interactif. limitant la richesse de H.com) . on peut alors representer l'espace des versions a par une borne inferieure : le S-set. Si h1 < h2 implique que h1 est aussi generale que h2 . Schematiquement.Chapitre 5 La programmation logique inductive pour calculer le plus petit ensemble d'exemples contenant deux ensembles d'exemples. la complexite de l'apprentissage de concept depend fortement de LH . En fonction du langage LH . La complexite de l'induction supervisee depend donc du langage d'expression des hypotheses H. Gr^ce a cela. Par ailleurs. Etant donne leur avantage en terme de pouvoir expressif. . de m^me que toute expression dans le langage des e hypotheses LH n'a pas necessairement une contrepartie dans X . Dans le chapitre 4.2 La relation de couverture en logique du premier ordre L'objectif de la programmation logique inductive (PLI) est de construire des programmes logiques a partir d'exemples supervises. 161 Ce document est la propriété exclusive de nona nina (ninasbalka@gmail. On parle aussi dans ce cas de revision de connaissances. un programme logique est un ensemble de regles de la forme premisses ! conclusion. un programme).e. Ce sont les operations classiques d'union et d'intersection. les operations correspondantes sur l'espace des concepts H : la plus petite generalisation (least general generalization. appelee subsomption. deux grandes familles d'approches sont considerees en programmation logique inductive : 1. De ce fait. C'est pourquoi on est tente d'utiliser la logique des predicats ou logique du premier ordre.27 Octobre 2009 à 09:30 5. lgg) et la specialisation maximale (most general specialization. on parle de programmes normaux ou de programmes de nis. mgs) ne sont pas en general de nies de maniere unique. L'apprentissage empirique dans lequel on dispose de nombreux exemples et contre-exemples pour apprendre un nouveau concept (i. Cela provient du fait que tout ensemble d'exemples ne correspond pas forcement a un concept. de m^me e que pour calculer le plus grand ensemble d'exemples contenus a la fois dans deux ensembles d'exemples. nous etudierons dans ce chapitre l'apprentissage des programmes normaux. Selon que l'on autorise l'usage de la negation pour formuler les premisses ou non. On cherche alors a apprendre une de nition qui permette d'expliquer (couvrir) tous les exemples positifs connus mais aucun contre-exemple. Nous avons en e et vu la necessite de l'existence d'un biais de langage. qui co ncide avec la relation d'inclusion dans X . ou impossible. on peut demontrer que l'espace des versions correspondant a un ensemble d'exemples est convexe par rapport a la relation <. Lorsque la relation de subsomption est saine.1. de de nir une relation e < LH LH de generalite intensionnelle (dans H). alors la relation de subsomption est dite complete (complete). Ceux-ci sont souvent insu sants pour decrire des domaines dans lesquels il est necessaire de pouvoir decrire des relations (comme dans le domaine des arches decrits dans le chapitre 2 ou dans l'exemple introductif avec les relations de comparaison d'envergure). 2. Mais estil alors raisonnable de vouloir pratiquer de l'induction avec un tel langage d'expression des hypotheses? Nous examinons le prix a payer dans la suite.

Il faut noter qu'en revanche il n'y a pas ici de specialisation maximale unique. mais cette fois exprimes en logique du premier ordre. Par exemple. Le processus de generalisation d'une expression consiste a monter dans la hierarchie de nie par la relation de subsomption. en notation logique traditionnelle : rouge(X) ^ cercle(X) ! concept1(X). specialiser une expression revient a ajouter une paire attribut-valeur e dans la conjonction. le symbole :. De la m^me maniere. mais permet l'astuce de la representation unique (single representation trick). Le test de subsomption entre deux expressions revient a contr^ler que chaque paire attribut-valeur qui appara^t o dans l'expression la moins generale appara^t aussi dans l'autre. Dans cette syntaxe. une expression peut prendre la forme : (taille = grande) _ (couleur = rouge) _ (forme = carre) denotant le concept (( grands carres rouges )). si le concept : (couleur = rouge) _ (forme = cercle) ne doit pas couvrir l'exemple negatif : (taille = grande) _ (couleur = rouge) _ (forme = cercle) il su t d'ajouter au concept une paire d'attributs-valeurs non presente dans l'exemple negatif pour le specialiser assez. Soit. il est necessaire de reconsiderer les notions de couverture. La logique par attributs-valeurs n'est pas capable de faire la distinction entre les exemples et les hypotheses.signi e l'implication du membre gauche par le membre droit et la virgule dans le membre droit est la conjonction. Dans le langage de description des hypotheses par attributs-valeurs. Considerons a nouveau des concepts conjonctifs.27 Octobre 2009 à 09:30 . Prenons le cas d'expressions conjonctives en logique attributs-valeurs. le concept1 a apprendre pourrait se representer 3 par : 2. Par exemple. Cela revele un manque de pouvoir expressif. Par exemple. ce qui signi e en pratique que le test de couverture d'un exemple par une hypothese est le m^me que le test de subsomption entre e deux hypotheses. Ce test est aise dans le cas de la logique des attributs-valeurs et de la logique des propositions en general. 3. La m^me expression sert a la fois a denoter e un exemple (un certain (( grand carre rouge ))) et un ensemble d'exemples (tous les grands carres rouges). La generalisation revient donc a abandonner un terme de la conjonction.com) . en utilisant la syntaxe des programmes Prolog 2 . si le concept : (taille = moyenne) _ (couleur = rouge) _ (forme = cercle) doit ^tre generalise pour couvrir l'exemple : e (taille = petite) _ (couleur = rouge) _ (forme = cercle) _ (poids = lourd) il su t de laisser tomber (taille = moyenne) pour obtenir le concept adequat : (couleur = rouge) _ (forme = cercle) Il est a noter que la generalisation obtenue est minimale (lgg). Ce document est la propriété exclusive de nona nina (ninasbalka@gmail. et par voie de consequence les operations de generalisation et de specialisation. de subsomption. En logique des predicats.162 PARTIE 2 : Apprentissage par exploration.

D'une maniere generale. donc soit plus generale. Prenons par exemple les deux clauses suivantes : La premiere clause decrit l'ensemble des carres de m^me couleur que les triangles existants. cercle(petitcerclerouge). Cependant. cercle(X).carre(X). Les paragraphes suivants seront rigoureux. Si la preuve echoue. plus speci que. Il se trouve d'ailleurs que la seconde clause contient les m^mes litteraux que la premiere et qu'elle est donc.com) .3. qui se de nit informellement ainsi : 4. 163 Ce document est la propriété exclusive de nona nina (ninasbalka@gmail. T^ ^ j 5. rouge(X). selon notre de nition de la section e precedente. Pour cela il faut examiner la notion de subsomption en logique du premier ordre. petitcerclerouge est un exemple de concept1 car concept1(petitcerclerouge) peut ^tre prouve. on interprete cet echec comme une classi cation negative (negation par l'echec). cercle(X).27 Octobre 2009 à 09:30 petit(petitcerclerouge). par exemple : e ce qui signi e que le concept correpond aux objets qui sont soit des carres rouges. Pour tester si un exemple est couvert par un concept.rouge(X).vert(X).1 La -subsomption En combinant les deux cas precedents.t). cercle(X). on ajoute sa description dans la theorie du domaine. m^mecouleur(X. etant donnee une conjonction d'atomes clos Desc(Exemple) e decrivant Exemple.Chapitre 5 La programmation logique inductive Un concept peut ^tre de ni par plusieurs clauses. . subsume. carre(X). On suppose donc de maniere generale que l'on dispose d'une connaissance initiale T . concept4(X) :. Par exemple. triangle(t).Y).Conditions(X)) = Concept(Exemple). 5. 5.rouge(X). soit des cercles verts.3 La subsomption en logique du premier ordre Il s'agit maintenant de de nir la relation de generalite ou subsomption entre clauses. carre(X). et on chercher a prouver 4 Concept(Exemple) a l'aide de la de nition du concept.1.carre(X). on arrive ce qu'on appelle la -subsomption. ce cas n'epuise pas la notion de subsomption de deux clauses. Nous restons volontairement informels dans cette premiere exposition des notions de couverture et de subsomption. rouge(petitcerclerouge). Le symbole j= correspond a la notion semantique de l'implication. Il faut donc rendre compte aussi de ce cas de subsomption. un concept Concept(X) :. il faudra modi er la de nition du concept. e concept4(X) :. Il est evident que le deuxieme ensemble est inclus dans le premier et donc que la premiere clause subsume la seconde. on constate 5 que l'extension correspondant a la premiere de nition inclut l'extension correspondant a la seconde de nition. triangle(Y). mise sous forme de programme logique. Les exemples sont decrits par des atomes clos (sans variable). ou theorie du domaine. on s'attend a ce que la clause : concept3(X) :. que la clause : En e et. m^mecouleur(X. par exemple : concept2(X) :.petit(X).Conditions(X) classe Exemple positivement si : Desc(Exemple) (Concept(X) :. Ici. concept2(X) :. concept1(X) :.1. Dans ce cas. e La seconde clause decrit l'ensemble des carres ayant la m^me couleur qu'un triangle particulier e t.rouge(X). Nous reviendrons sur ce formalisme dans la section suivante. e concept3(X) :.

triangle(X).list(Z).3. Le probleme est que la -subsomption ne peut prendre en compte les clauses e qui peuvent ^tre resolues avec elles-m^mes.2 L'implication On pourrait envisager d'utiliser l'implication pour de nir la subsomption entre clauses : Clause1 subsume Clause2 si Clause1 j= Clause2 Cela introduit cependant deux problemes.list(W). . En revanche.R|S]) :. nous devons prendre en compte des ensembles de clauses decrivant des theories 6 sur le monde. il n'y e a pas de substitution applicable a la premiere clause et permettant d'obtenir la seconde (une telle substitution devrait appliquer W a la fois sur Y|Z] et sur Z. qui est donc plus generale. 5.Y|Z]) :. list( X. Ce document est la propriété exclusive de nona nina (ninasbalka@gmail. ne peut ^tre trouvee. Soit par exemple les deux clauses : Selon l'implication logique. Dans la plupart des cas interessants cependant. En programmation logique. triangle(X). plus satisfaisante. la clause : 6.3 La subsomption des theories Jusque-la nous avons seulement considere la subsomption entre deux clauses.1.list(V). Il est a noter que si Clause1 -subsume Clause2. concept5(X) :.1. alors on a aussi Clause1 j= Clause2. seule cette derniere est une lgg. list( P. Il faut donc de nir aussi la subsomption entre theories.list(Y) list( A. Pourtant.3.list(C).p(a) et p(f(b)) :. concept5(X) :. la reciproque n'est pas toujours vraie. Elle a en outre des limitations redhibitoires si l'on veut induire des clauses recursives. Le second probleme est que la plus petite generalisation (lgg) n'est pas toujours unique si la subsomption est de nie comme l'implication logique.164 Clause1 PARTIE 2 : Apprentissage par exploration. soit la theorie : Elle est impliquee logiquement par la theorie suivante : puisque tout modele de la seconde est un modele de la premiere theorie.27 Octobre 2009 à 09:30 5. les clauses : p(f(f(a))) :. Toutes les listes construites par la seconde clause peuvent aussi l'^tre par la premiere. Pourtant. une theorie est simplement de nie comme un ensemble de clauses.P(b).petit(X). La subsomption est donc plus faible que l'implication. polygon(X) :.list(S). Selon la -subsomption. list( X|Y]) :.Y|Z]) :. tandis que la clause p(f(X)) :. tandis que la seconde construit des listes de longueur paire. ces clauses ont deux lgg : et list( X. Si l'on cherche la plus petite generalisation par rapport a la -subsomption. la premiere clause construit des listes de n'importe quelle longueur. polygon(X) :. Il est a noter que la premiere lgg est en realite plus plausible. Le premier est qu'il s'agit d'une de nition semantique (s'appuyant sur la theorie des modeles) et qu'il reste donc a preciser la procedure e ective de preuve de subsomption ainsi que la procedure permettant de generaliser une clause. on trouve la clause : p(f(Y)) :. comme le montre l'exemple suivant : Etant donnee la liste vide. ce qui est impossible).triangle(X). Soit en e et.polygone(X). Par exemple.Q.p(X).com) . e e list( V|W]) :. subsume Clause2 s'il existe une substitution applicable a Clause1 et telle que tous les litteraux dans la clause ainsi obtenue apparaissent dans Clause2.B|C]) :.p(X).

les trois types de relations de subsomption utilises en programmation logique inductive sont la -subsomption.3. la subsomption relative est e e plus severe que l'implication: les deux sont indecidables.4 La subsomption relative a une theorie Nous devons avoir recours dans ce cas a la notion de subsomption relative a une theorie entre deux clauses. Par de nition : Clause1 subsume Clause2 relativement a la theorie T si T ^ Clause1 j= Clause2. en presence ou non d'une theorie du domaine. nous obtenons en e et que : concept5(X) :.polygone(X) T ^ concept5(X) :. 165 La subsomption entre theories ne peut donc pas ^tre reduite a la subsomption entre clauses. supposons que T contienne la clause : Ce document est la propriété exclusive de nona nina (ninasbalka@gmail. Church en 1932 a montre qu'il ne peut exister d'algorithme pouvant decider en un temps ni si une inference est logiquement valide ou non en logique des predicats standard. e 5. triangle(X).)) a une reponse negative).com) . . triangle(X) 5. mais les procedures de preuve pour l'implication ne necessitent pas la prise en compte de la theorie T . De cette maniere. l'implication logique et la subsomption relative a une theorie du domaine. En particulier.triangle(X).petit(X). concept5(X) :. Clauses de Horn Clauses generales Type de subsomption lgg mgs lgg mgs -subsomption + + + + Implication (j=) + si sans fonction + Implication relative (j=T ) + 7. contrairement aux procedures pour la subsomption relative qui doivent prendre en compte toutes les derivations possibles a partir de T ^ Clause. Par exemple.polygone(X). relativement a T . triangle(X). ce que nous notons : Clause1 j=T Clause2.4 Un resume des relations de subsomption possibles Pour resumer.1. la -subsomption est decidable. Le tableau suivant fournit un resume des resultats connus sur les six cas possibles ((( + )) correspondant a une reponse positive et (( . lors de l'apprentissage a partir d'exemples representes par des clauses. m^me pour des clauses de Horn. De m^me. concept5(X) :.Chapitre 5 La programmation logique inductive n'est pas logiquement impliquee par la clause : concept5(X) :. En pratique. De ces trois types de subsomptions.petit(X).27 Octobre 2009 à 09:30 Nous avons alors : subsume : polygon(X) :. L'existence de ces generalisations ou specialisations depend a la fois du type de subsomption considere et du langage utilise : logique des clauses ou logique reduite aux clauses de Horn.petit(X).polygon(X) j= concept5(X) :. la premiere est la plus aisee a realiser (et elle est deja NP-complete !).1. il est essentiel de pouvoir determiner la plus petite generalisation (relative dans le cas de la subsomption relative) ainsi que leur specialisation maximale. tandis que l'implication logique ne l'est pas 7 .

les quanti cateurs.1 La syntaxe de la logique des predicats 5. les predicats. Finalement.2. Fonction f . Constante a b : : : . V RAI . GN88. : : : Un ensemble de constantes forme le domaine d'une variable. une semantique doit ^tre proposee pour permettre une interpretation hors de ce systeme formel qui n'a pas de e signi cation en soi ( NS93. Ces concepts sont construits a partir de symboles primitifs (les variables. FAUX . g : : : . age . si besoin est. il est necessaire de rappeller plus formellement quelques concepts de base en logique. les connecteurs. en respectant une syntaxe stricte. qui peut appartenir a n'importe quel domaine.2. 9 Predicats P Q : : : . le predicat de maniere plus complete par : P=a. pour la fonction age. les fonctions et les parentheses). Un predicat est une relation entre plusieurs domaines de variables. 1 2 : : : . Tau94]). C'est pourquoi la plupart des travaux en PLI se placent dans ce cadre.1. 5. jerome laure : : : . Cette syntaxe permet.2 La logique des predicats et les programmes logiques : terminologie Ce document est la propriété exclusive de nona nina (ninasbalka@gmail. c'est-a-dire de deduire des theoremes a partir d'axiomes. Des exemples de domaines sont : l'ensemble des nombres entiers.com) . Par exemple.166 PARTIE 2 : Apprentissage par exploration. autrement dit quels sont les concepts que nous cherchons a apprendre.27 Octobre 2009 à 09:30 Ce paragraphe de nit de maniere plus rigoureuse ce qu'est une formule de la logique des predicats. Les formules logiques sont ecrites dans un langage construit a partir des symboles primitifs suivants : Variables X Y : : : Une variable prend ses valeurs sur un domaine. sont . ^. Avant d'aborder les moyens e ectifs d'exploration de l'espace des hypotheses. Une instanciation d'une variable est une constante de son domaine. . On note. Ce tableau illustre une fois de plus le compromis existant entre l'expressivite d'un langage et les raisonnements qui peuvent ^tre realises. l'ensemble des clients d'une compagnie d'assurances. Connecteur :. ). Une fonction i d'arite 0 n'est autre qu'une constante. aine : : : Une fonction di ere d'un predicat par la nature de son resultat. maries=2 : sont .!. par l'application de certaines regles. de realiser des demonstrations dans ce systeme formel. Parentheses (. 5. pour le predicat sont . ! Quanti cateur 8.aine/2 : age.aine(jerome X ) a pour valeurs l'age de l'a^ne(e) de jerome (leur mere n'est pas ici precisee). Il est par ailleurs important de noter que l'utilisation e d'un langage causal sans symbole de fonction conduit a une structure de treillis. _. maries(jerome laure) = V RAI .1 Le langage de la logique des predicats Terme Un terme est de ni recursivement comme soit une constante . autrement dit une application de l'ensemble de ces domaines dans fV RAI FAUX g. Par exemple. maries. : : : Un predicat possede une arite a (le nombre d'arguments sur lequel il porte) qui doit valoir au moins 1.

Selon cette derniere. grand . c'est-a-dire commandees par 8.1. Un exemple de litteral : plus .!). Sous-formule Une sous-formule est une suite de symboles d'une formule. ( ! ) et (: ) sont des formules. X est dite libre. ( . Variable libre et liee Une variable X est dite liee dans une formule s'il existe dans une sous-formule commencant par ((8X ) ou par ((9X ). 167 Ce document est la propriété exclusive de nona nina (ninasbalka@gmail. que(age(pere(X )) age(mauricette)) Atome Un litteral positif (c'est-a-dire non precede du symbole :) est appele un atome. eventuellement precede du symbole :.Chapitre 5 La programmation logique inductive soit une variable soit une fonction appliquee a des termes. Clause de nie Une clause de nie est une clause de Horn qui a exactement un litteral positif. B1 : : : Bm Le connecteur . Un exemple de terme : sont .2 Le langage des clauses et des programmes logiques Clause Une clause est une formule de type particulier: c'est une disjonction nie de litteraux dont toutes les variables sont quanti ees universellement. alors ((9v) ) et ((8v) ) sont des formules. mais qui est elle-m^me e une formule. 8. une clause s'ecrit : A :. signi e l'implication du membre de gauche par le membre droit (donc l'inverse de . Formule Une formule est de nie recursivement : Un litteral est une formule. La notation que nous employons est intermediaire entre la notation logique et la notation la plus classique en Prolog. qui a ete utilisee plus haut. Cette notation est employee dans certaines versions du langage Prolog 8 Dans la suite de ce chapitre.27 Octobre 2009 à 09:30 5. ou p est un symbole de predicat et les ti sont des termes. Sinon.2. en introduisant un nouveau connecteur et en changeant la notation de la conjonction : A . c'est-a-dire une expression de la forme : f (t1 : : : tm ) ou f est une fonction d'arite m et les ti sont des termes. Si et sont des formules alors ( _ ). Un litteral qui ne contient pas de variable est dit clos ou completement instancie.! A puis. ( ^ ). Par exemple : age(pere(jerome)) est un atome clos. les clauses seront notees de cette maniere.B1 : : : Bm : .! ). maries(pere(laure) mauricette) Litteral Un litteral est un predicat applique a des termes. C'est donc une expression de la forme : p(t1 : : : tm) ou :p(t1 : : : tm). Une clause de nie s'ecrit donc.com) . On simpli e en general l'ecriture d'une clause en supprimant les quanti cateurs 8 : toute variable doit donc ^tre interpretee comme etant universellement quanti ee. e Clause de Horn Une clause de Horn est une clause qui a soit zero soit un seul litteral positif. Si v est une variable et est une formule. quand on a supprime les quanti cateurs universels : A _ :B1 _ : : : _ :Bm On transforme cette notation en : B1 ^ : : : ^ Bm .

Si est la substitution fX1 =t1 : : : Xi =ti : : : Xn =tn g.! ) L'algorithme de resolution.27 Octobre 2009 à 09:30 5. grand . parent(gaston julien) . Une requ^te est e une clause but. fille(X Y ) enfant(X Y ) . quels faits sont V RAI etant donne P . Clause but Une clause but est une clause de Horn qui n'a aucun litteral positif elle est donc notee : . Etant donne un programme logique P . par exemple.2. grand .com) .2.2. . Par exemple : enfant(X Y ) . alors ( ) est V RAI )). ou Xi est une variable et ti un terme. est employe pour cette demonstration. % un fait fils(julien laurent) . fille(laure gaston) . parent(gaston jerome) . T^te et corps de clause de nie A. grand . fille(X Y ) % une clause enfant(X Y ) . enfant(Z X ) enfant(Y Z ) Programme Prolog Un programme Prolog est un programme logique de ni. parent(X Y ) . fils(julien laurent) . la preuve dans un programme Prolog se fait en utilisant la regle d'inference logique dite de modus ponens. fils(jerome laure) . le but est de faire des raisonnements a partir de ce programme a n de savoir. grand . parent(gaston julien) . l'ensemble des variables fX1 : : : Xn g est note dom( ). fils(X Y ) fils(laurent gaston) . le seul litteral positif d'une clause de nie est appele t^te de e e la clause et la conjonction B1 : : : Bm est le corps de la clause. fils(jerome laure) . enfant(Z T ) % une clause but enfant(X Y ) . grand . Une clause unitaire est une clause de nie qui n'est composee que de son unique litteral positif A elle est donc notee A . et se note classiquement : ^ ( . fils(X Y ) fils(laurent gaston) .2 Systeme de preuve pour les langages de clauses 5.1 La substitution Une substitution est une liste nie de paires Xi =ti . Ce document est la propriété exclusive de nona nina (ninasbalka@gmail. est un ensemble de clauses de nies. parent(gaston jerome) .168 PARTIE 2 : Apprentissage par exploration. B1 : : : Bm Programme logique de ni Un programme logique de ni. En pratique. formalise par Robinson Rob65]. qui s'enonce informellement : (( Si ( ) et ( implique ) sont V RAI . ou pour simpli er un programme logique. fille(laure gaston) . Nous allons le presenter apres avoir introduit les notions de substitution et d'uni cation. Par exemple : .

on peut e appliquer une methode adaptee : la SLD-resolution. appelee resolvante : Res(C1 C2 ): H1 b a Par cette de nition.2 L'uni cation Si (si ti ) est une paire de termes. un uni cateur est une substitution telle que pour tout i : si = ti . Si un tel uni cateur existe. il existe une substitution telle que = .2. 5. SLD pour : resolution lineaire avec fonction de selection pour clauses de nies. chacune construisant une nouvelle clause a partir de deux.com) . Dans le cas d'un programme Prolog. on a C1 = fille(X Y ) parent(Y X ) et C2 = parent(claire marie). A = H2 ). 169 5.27 Octobre 2009 à 09:30 5.2. Soit deux clauses Prolog : C1 : H1 A a C2 : H2 b ou H1 . Il est demontre que l'upg de deux clauses est unique a un renommage de variables pres.3 L'uni cateur le plus general L'uni cateur le plus general (upg) est une substitution telle que pour tout uni cateur . dont les clauses sont d'une forme particuliere (clauses de nies et requ^tes ne contenant que des litteraux). a et b sont des conjonctions (eventuellement vides) d'atomes. on dit que les termes (si ti ) peuvent s'uni er.Chapitre 5 La programmation logique inductive Une substitution s'applique a une formule F en remplacant chaque occurrence des variables de dom( ) par le terme correspondant.Y) parent(Y. le resultat etant note F . e Le resultat de l'etape de resolution est la clause suivante. 5. L'uni cateur de deux litteraux p(s1 : : : sm ) et p(t1 : : : tm ) est un uni cateur de l'ensemble des paires de termes f(si ti )g. Ce document est la propriété exclusive de nona nina (ninasbalka@gmail.X) C = fille(marie. On dit que C1 peut ^tre resolue avec C2 si H2 et A s'uni ent avec un upg (soit. . A est un litteral quelconque du corps de C1 . 9.2.4 La resolution La resolution d'un programme logique consiste en une suite d'etapes. et a est le reste du corps de C1 .1 { Une etape de la resolution.1. Sur la gure 5.2.marie) C1 = fille(X.2. C2 = parent(claire.2. on impose donc que le litteral resolu s'uni e avec la t^te de C2 et avec e un litteral du corps de C1 . Une etape de SLD-resolution 9 est de nie comme suit.claire) Fig.

La clause C1 peut se recrire sous la forme C1 = fille(X Y ) _ :parent(Y X ).com) . guidee par les relations de subsomption. il est possible d'envisager l'induction de programmes logiques comme une exploration de l'espace des hypotheses. De nition 5. ou theorie. elle ne garantit malheureusement pas la terminaison des demonstrations.2.27 Octobre 2009 à 09:30 5. Le raisonnement est le m^me pour la recherche de specialisations. e Nous allons maintenant examiner les moyens e ectifs de calculer des plus petites generalisations et des specialisations maximales en fonction des relations de subsomption utilisees. Prolog est en ce sens un demonstrateur sans garantie de completude : des theoremes vrais peuvent ne pas ^tre demontres parce que le e demonstrateur tombe dans une branche in nie.3. c1 est alors une generalisation de c2 par -subsomption. On peut alors appliquer la regle de resolution en choisissant : L1 = :parent(Y X ) L2 = parent(claire marie) = fY=claire X=marieg La clause resolvante C est alors l'union de : (C1 .1 Le calcul de la lgg pour la -subsomption On dit qu'une clause c1 -subsume une clause c2 si et seulement si il existe une substitution telle que c1 c2 . la connaissance. est transcrite sous forme de faits et de regles consideres comme des axiomes. ainsi que le choix du litteral qui est utilise. fL1 g) = fille(marie claire) (C2 . Precisement. C'est ainsi par exemple que pour generaliser deux programmes.170 PARTIE 2 : Apprentissage par exploration.2. Les requ^tes sont exprimees comme des theoremes e (clauses de Horn negatives) dont on demande au demonstrateur de prouver leur validite dans la theorie. Cela correspond a une recherche en profondeur cherchant d'abord a satisfaire chaque sous-but avant de passer au suivant. 5. en faisant l'hypothese qu'en generalisant minimalement on limite les risques de surgeneralisation. la clause : pere(X Y ) parent(X Y ) etalon(X ) .5 Resolution et interpretation d'un programme Prolog Prolog est un langage concu pour fournir une partie utile et e cace de la technique de demonstration par refutation.1 ( -subsomption) Par exemple. Cette strategie restreint le choix des clauses a chaque etape de resolution. fL2 g) = Ce document est la propriété exclusive de nona nina (ninasbalka@gmail. Si cette strategie de recherche est systematique et (relativement) e cace. on cherchera leur plus petite generalisation suivant la relation de subsomption consideree. 5.3 La structuration de l'espace des hypotheses en logique des predicats Muni de la relation de couverture et d'une des relations de subsomption de nies dans la section 5.1. Dans le formalisme de Prolog. Prolog est un systeme base sur un demonstrateur de theoreme utilisant une forme particuliere de resolution : la resolution lineaire avec fonction de selection pour clauses de nies (resolution SLD).2.

et pour corps l'ensemble des lgg(li mi ) pour tout couple (li mi ) de e litteraux de m^me signe et de m^me predicat. a f b c d e Scène S1 Scène S2 Fig. L'objet a est un cercle. notee lgg(t1 t2 ) (least general generalization). alors Ce document est la propriété exclusive de nona nina (ninasbalka@gmail. Le calcul de la generalisation la moins generale de deux clauses est de ni par les regles suivantes : La generalisation la moins generale de deux termes t1 et t2 . est une variable si : { au moins un des deux termes est une variable. alors il ne doit pas exister deux variables distinctes X et Y telles que X 1 = Y 1 et X 2 = Y 2 . b est un carre et c est un triangle. et t1 6= t2 . { t1 et t2 sont deux termes fonctionnels construits sur des symboles de fonction di erents. Si t1 = f (c1 : : : cn ) et t2 = f (d1 : : : dn ). b.com) . Les objets sont places de telle facon que a est au-dessus de b.27 Octobre 2009 à 09:30 lgg(t1 t2 ) = f (lgg(c1 d1 ) : : : lgg(cn dn )) Pour appliquer cette regle. La lgg de deux litteraux construits sur le m^me symbole de predicat est donnee par : e lgg(p(t1 : : : tn ) p(s1 : : : sn)) = p(lgg(t1 s1 ) : : : lgg(tn sn)) En n. m1 : : : mn est une clause qui a pour t^te lgg(l0 m0 ). un operateur de generalisation qui permet de generaliser deux clauses. representees sur la gure 5. il faut prendre soin de veri er que si 1 et 2 sont les deux substitutions telles que lgg(t1 t2 ) i = ti (i 2 f1 2g). la lgg de deux clauses l0 . e e Pour illustrer la lgg. considerons les deux scenes constituees d'objets geometriques. la generalisation la moins generale de f (a b a) et de f (b a b) est f (X Y X ) et non f (X Y Z ).Chapitre 5 La programmation logique inductive -subsume la clause : 171 pere(neral aziza) parent(neral aziza) etalon(neral) jument(aziza) avec = f(X = neral) (Y = aziza)g Plotkin a introduit la notion de moindre generalise ou encore de plus petit generalise Plo70]. { un des deux termes est une constante. et c. l1 : : : ln et m0 . La premiere scene represente trois objets a.2 MB96].2 { La generalisation la moins generale. et que b est situe . 5. Par exemple.

27 Octobre 2009 à 09:30 scene(S ) sur(S A B ) a gauche(S C D) cercle(A) carre(C ) triangle(D): Cette clause generalise les deux clauses precedentes et traduit le fait que dans les deux scenes. cercle(f ). La deuxieme scene represente trois objets d. sur(s2 f e). triangle(e). cercle(a). Soient deux exemples e1 et e2 qui sont des atomes lies. Les deux scenes S1 et S2 sont decrites par les deux clauses suivantes qui decrivent le placement de trois gures geometriques : scene(s1) scene(s2) sur(s1 a b).172 PARTIE 2 : Apprentissage par exploration. qui traduit la connaissance initiale sur le probleme . Soit une theorie du domaine T = a1 ^ : : : ^ an ou les ai sont egalement des atomes lies.2 ( -subsomption relative) De nition 5. La rlgg de e1 et e2 est donnee par : De nition 5. carre(b). et que l'objet carre est a gauche de l'objet triangulaire.3. l'objet circulaire se trouve au-dessus d'un autre objet. La lgg des clauses representant les deux scenes de la gure 5.2 Le calcul de rlgg pour la -subsomption relative On de nit la plus petite generalisation relative (rlgg). T = :T _ ei = :(a1 ^ : : : ^ an ) _ ei = :a1 _ : : : _ :an _ ei Nous illustrons le calcul de la rlgg de deux clauses en considerant l'exemple du tri rapide (quick sort) MF90]. La theorie du domaine. a gauche de c. triangle(c). 5. e. carre(d). T e2 . Soit P un programme logique. (relative least general generalization) de deux clauses en utilisant la -subsomption relative de maniere tout a fait analogue. et f decrits de maniere similaire. Une clause c1 -subsume une clause c2 relativement a P si et seulement si il existe une substitution telle que P j= c1 ! c2 .2 est la clause suivante : Ce document est la propriété exclusive de nona nina (ninasbalka@gmail. T ) avec : ei . a gauche(s2 d e).com) . a gauche(s1 b c).3 (rlgg de deux exemples) rlgg(e1 e2 ) = lgg(e1 .

com) . append( 0 1] 2 3 4] 0 1 2 3 4]) . partition(2 4 3 1 0] 1 0] 4 3]) .3. qsort( 4 3] 3 4]) . Ce document est la propriété exclusive de nona nina (ninasbalka@gmail. On a donc : e1 T = qsort( 1] 1]) append( ] 1] 1]) append( 0 1] 2 3 4] 0 1 2 3 4]) : : : partition(1 ] ] ]) partition(2 4 3 1 0] 1 0] 4 3]) : : : qsort( ] ]) qsort( 1 0] 0 1]) qsort( 4 3] 3 4]) ::: T = qsort( 2 4 3 1 0] 0 1 2 3 4]) append( ] 1] 1]) append( 0 1] 2 3 4] 0 1 2 3 4]) : : : partition(1 ] ] ]) partition(2 4 3 1 0] 1 0] 4 3]) : : : qsort( ] ]) qsort( 1 0] 0 1]) qsort( 4 3] 3 4]) ::: et e2 . ::: append( ] 1] 1]) . ::: Supposons que l'on dispose d'un certain nombre d'exemples de tris realises a l'aide du predicat qsort=2 : qsort( ] ]) .27 Octobre 2009 à 09:30 ::: On dispose aussi de deux exemples positifs e1 et e2 dont on desire calculer la rlgg d'apres la de nition 5. e1 = qsort( 1] 1]) e2 = qsort( 2 4 3 1 0] 0 1 2 3 4]) La rlgg de e1 et e2 est donnee par : rlgg(e1 e2 ) = lgg(e1 T e2 T) ou T est la conjonction de tous les atomes lies de la theorie du domaine et des exemples. qsort( 1 0] 0 1]) .Chapitre 5 La programmation logique inductive est constituee d'instances de litteraux construits sur les predicats partition=4 et append=3 : 173 partition(1 ] ] ]) .

est le principe de resolution de Robinson utilise dans Prolog. alors C P j= D. L'equation s'ecrit donc : C = (C1 .1) . Cela impose une de nition en extension de la theorie du domaine. la detection des litteraux redondants est co^teuse puisqu'elle necessite la mise en place de techniques de u preuve de theoreme. fL1 g) 1 (C2 .174 PARTIE 2 : Apprentissage par exploration. propose une methode pour supprimer les litteraux logiquement redondants Plo71a] Plo71b]. Plut^t que de de nir la subsomption par reference a la semantique. Muggleton a propose o de la de nir a partir de la technique de preuve. ce qui n'est pas concevable pour la majorite des problemes a resoudre. ::: 5. Dans ce cadre. fL2 g) 2 (5. puisqu'elle risque d'omettre un certain nombre d'instances de la theorie du domaine et fausser le resultat de l'algorithme d'apprentissage.1 (SLD-subsomption) Soit P un programme logique une clause C est plus generale qu'une clause D au sens de la SLD-subsomption relativement a P ssi C P `SLD D. ce qui fait de la SLD-subsomption un cas particulier (( constructif )) de l'implication relative a une theorie. si C P `SLD D. Tout d'abord.com) .3. Plus formellement : P . comme nous l'avons deja evoque. quant a lui. la justesse de la SLD-resolution garantit que ce qui derive d'une theorie par SLD-resolution est une consequence logique de cette theorie. l'un des inter^ts de cette de nition est qu'elle induit. Plotkin. Cette methode n'est pas entierement satisfaisante. En bref. Par ailleurs. comme la -subsomption.1. Malheureusement. les clauses debarassees de leurs litteraux redondants peuvent encore contenir un grand nombre de litteraux.27 Octobre 2009 à 09:30 La construction de la rlgg pose un certain nombre de problemes. La rlgg des atomes e1 et e2 est donc de nie par : rlgg(e1 e2 ) = qsort( AjB ] C jD]) append(E AjF ] C jD]) append( ] 1] 1]) append(G H jJ ] J jK ]) append( 0 1] 2 3 4] 0 1 2 3 4]) partition(A B L M ) partition(1 ] ] ]) partition(H N O P ) partition(2 4 3 1 0] 1 0] 4 3]) qsort(L E ) qsort( ] ]) qsort(O G) qsort( 1 0] 0 1]) qsort(M F ) qsort(P I ) qsort( 4 3] 3 4]) Ce document est la propriété exclusive de nona nina (ninasbalka@gmail. Pour resoudre ce probleme. qui en logique des predicats. En e et.3 Le calcul de lgg pour la resolution inverse De nition 5. les atomes de la theorie du domaine T utilises dans le calcul de la rlgg doivent ^tre e des atomes lies. De plus. on dira qu'une clause subsume une autre clause si elle permet la deduction de celle-ci par SLD-resolution. On peut alors deriver analytiquement l'inversion de la resolution a partir de la regle de resolution exprimee par l'equation 5. Bun88] suggere de calculer cette de nition en extension a partir du plus petit modele de Herbrand de la connaissance initiale exprimee en intension. des operations e En dehors du fait qu'elle prend en compte la theorie du domaine sous la forme du programme syntaxiques sur les programmes qui sont les fondements de la technique d'apprentissage par inversion de la resolution. peut toujours s'ecrire sous la forme d'une composition de substitutions 1 et 2 . avec i contenant les variables de Ci .

A B p . d'induire la clause c2 .A q q .com) .A B p . or L1 1 = :L2 2 donc L2 = :L1 1 2 1 .r C Dans ces regles. L'operateur V permet. Dans Mug87].27 Octobre 2009 à 09:30 Dans le cadre de la PLI. fL1 g) 1 ) 2 1 f:L1 1 2 1 g (5. a partir de l'exemple e1 et de la clause b2 . q A p q. S. avec la clause b1 .A C p . La theorie du domaine est ici constituee des clauses b1 et b2 et on dispose d'une observation e1 .3 { L'operateur V d'absorbtion.A q p . (C1 . .A p . d'induire la clause c1 .2) On note le non-determinisme de cet operateur.A q q . Les regles d'absorbtion et d'identi cation inversent une etape de resolution.A B q .A C q .r B r . les lettres minuscules representent des atomes et les lettres majuscules des conjonctions d'atomes. notamment concernant le choix de la clause C1. Muggleton et W. 175 C . S. La gure 5. Muggleton introduit quatre regles A de resolution inverse.B p . La notation B s'interprete comme : on peut deduire A de B : Absorbtion (operateur V) Identi cation (operateur V) Intra construction (operateur W) Inter construction (operateur W) q . et des substitutions 1 et 2 . La gure 5.3 montre comment l'operateur V inverse une etape de la resolution. La clause c1 permet ensuite.A B q . .B p A. 5.C p . fL2g) 2 . (C1 .Chapitre 5 La programmation logique inductive On restreint l'inversion de resolution a l'inference de clauses C2 qui ne contiennent aucun litteral en commun avec C1 .A q .A p . on obtient ainsi : . Ce document est la propriété exclusive de nona nina (ninasbalka@gmail.B p .B Fig.4 illustre par un exemple le comportement de l'operateur V en montrant plusieurs etapes de resolution inversee. C2 = (C .q B p . fL1 g) 1 = (C2 . Buntine ont donc eu l'idee d'inverser la resolution classique utilisee en programmation logique.

q B p A.claire) femme(marie).6.claire) parent(claire.5 { L'operateur W d'intra-construction. appeles aussi operateurs W ( gure 5. 5.marie) c1 = fille(marie.C Fig.27 Octobre 2009 à 09:30 e1 = fille(marie. Ces regles d'inference presentent la particularite d'introduire un nouveau predicat qui n'apparaissait pas dans les preconditions des regles.5 introduit le nouveau predicat q. En e et.4 { La resolution inverse.marie) b2 = parent(claire.claire) Fig.B p A. c2 = fille(marie. l'operateur W de la gure 5. min(X Z ) .176 b1 = femme(marie) PARTIE 2 : Apprentissage par exploration. dans cet exemple. Par exemple. utilisee par exemple dans le systeme Cigol MB88b].marie) Ce document est la propriété exclusive de nona nina (ninasbalka@gmail. on dispose des deux clauses : min(X s(X )kZ ]) . min(X Z ) min(X s(s(X ))kZ ]) . parent(claire.com) . L'invention de predicat est bien illustree par l'exemple de la gure 5. On parle alors d'invention de predicat. 5.q q C p A. Les operateurs d'intra construction et d'inter construction.5) resultent de la combinaison de deux operateurs V qui representent chacun une etape inverse de resolution.

com) .6 { L'intra construction. Pour ce faire.inf(X. la programmation logique inductive . Les programmes de PLI s'imposent en general de respecter certaines contraintes connues sous le nom de semantique normale MD94].27 Octobre 2009 à 09:30 min(X. min(X Z ) inf (X Y ) inf (X s(s(X ))) . Typiquement.4 L'exploration de l'espace des hypotheses La notion de couverture d'un exemple par une hypothese. inf(X. et l'application de l'operateur W permet d'induire les trois clauses : inf (X s(X )) . Ce document est la propriété exclusive de nona nina (ninasbalka@gmail.Z). 5. c'est-a-dire un ensemble de clauses qui re etent la connaissance a priori sur domaine du probleme.Chapitre 5 La programmation logique inductive inf(X. Fig. Cependant.Z).Y). m^me a l'aide des bornes que sont le S-set et le G-set.s(s(X))) 177 θ1 = {Y/s(X)} θ2 = {Y/s(s(X))} min(X.[s(X)|Z]) min(X. Etant donnes une theorie du domaine T . en e fonction du choix de la clause avec laquelle elle est resolue. Muggleton a propose. que ce soit l'inversion de resolution la plus speci que qui soit choisie dans le processus de generalisation. ils parcourent l'espace des hypotheses en suivant les directions de generalisation et de specialisation. comme cela a ete montre dans la chapitre 4. plusieurs generalisations d'une clause peuvent ^tre realisees. 5. et de la substitution inverse employee. min(X Y kZ ]) . en raison de la taille de l'espace des versions en programmation logique inductive. en essayant d'elaguer au maximum l'espace des versions et en se guidant par des biais heuristiques tentant d'accelerer la recherche.Z).[Y|Z]) min(X. dans lesquelles on constate que le predicat inf=2 a ete invente. Elles correspondent a une reformulation des conditions de coherence (completude et correction) d'une hypothese avec les exemples positifs et negatifs.s(X)) min(X. en utilisant la substitution inverse la plus speci que a chaque pas de l'inversion de resolution. les programmes d'induction ne cherchent pas a construire l'espace des versions. la relation de subsomption entre hypotheses et les operateurs permettant de construire les plus petites generalisations (ou specialisations) autorisent a envisager une approche de l'apprentissage par la determination de l'espace des versions. L'inversion de la resolution est une operation non deterministe. a chaque etape de l'inversion de la resolution. Pour surmonter ce probleme de non-determinisme. dans un cadre uni ant la plus petite generalisation relative (rlgg) et la resolution inverse.[s(s(X))|Z]) min(X. (avec l'ensemble E = E + E . constitue d'exemples positifs et negatifs). Ils e cherchent (( seulement )) a trouver une solution dans l'espace des versions. un ensemble d'exemples E .

10. En fait. dans la plupart des systemes de PLI.4. la majorite des systemes de programmation logique inductive est basee sur le cas particulier de la semantique de nie. L'hypothese induite doit quant a elle permettre. avec la connaissance initiale. r est une regle de specialisation. Il est egalement necessaire que les exemples positifs ne puissent pas ^tre deduits de la connaise sance T (necessite a priori). Si une theorie T est constituee de clauses de nies. De nition 5. Seules les quatre conditions suivantes doivent alors ^tre e remplies : De nition 5. 5. e est faux dans M(T ^ H ) 9e 2 E + tel que e est faux dans M(T ) 8e 2 E + e est vrai dans M(T ^ H ) Pour simpli er et pour couvrir les cas pratiques. la theorie (ou connaissance initiale) T du domaine et l'hypothese H a induire sont exprimees sous forme de clauses de nies.27 Octobre 2009 à 09:30 La condition de satis abilite a priori permet de s'assurer que les exemples negatifs ne peuvent pas ^tre deduits de la connaissance initiale. on ne peut pas prouver d'exemple negatif.3 (Semantique de nie) 8e 2 E .com) . cherche a induire une hypothese H . Elle fait correspondre une conjonction de clauses S a une conjonction de clauses G telle que G j= S . composee d'un ensemble de clauses. elle possede une fermeture syntaxique appelee le plus petit modele de Herbrand dans lequel toute formule logique est soit vraie. ou selon une autre strategie la fonction choisir determine les regles d'inference a appliquer a l'hypothese H . dans lequel tous les exemples sont des faits lies. soit fausse. 6j= 2 necessite a priori : T 6j= E + condition a posteriori (completude) : T ^ H j= E + Ce document est la propriété exclusive de nona nina (ninasbalka@gmail. Dans ce cas. de prouver les exemples positifs (condition a posteriori). e La condition de consistance permet de veri er qu'a partir de l'hypothese induite et de la theorie du domaine.2 (Semantique normale) satis abilite a priori : T ^ E . on parle de semantique de nie 10 .1 Le squelette des algorithmes de PLI L'algorithme generique de la PLI utilise deux fonctions : la fonction e acer in uence la strategie de recherche qui peut alors ^tre e ectuee soit en largeur d'abord. telle que les quatre conditions suivantes soient respectees : De nition 5. e est faux dans M(T ) 8e 2 E .178 PARTIE 2 : Apprentissage par exploration.4 (Regle d'inference deductive r) . soit en profondeur e d'abord. 6j= 2 satis abilite a posteriori : T ^ H ^ E .

et que l'ensemble des exemples positifs contienne l'exemple : oncle(francois julien) . e La generalisation et la specialisation sont a la base de deux cas d'elagage de l'ensemble des hypotheses.com) . Ils considerent d'abord l'hypothese la plus generale qu'ils cherchent a specialiser iterativement en appliquant des regles d'inference deductives. 5. alors aucune specialisation de H ne pourra impliquer e+ . pere(gaston laurent) . Cet elagage est le m^me que celui pratique dans la construction de l'espace des e versions par l'algorithme d'elimination des candidats. c'est-a-dire B ^ H 6j= e+ . r est une regle de generalisation. et Golem MF90] sont representatifs de la classe des systemes ascendants. Si B ^ H n'implique pas logiquement un exemple positif e+ . . alors toutes les generalisations de H peuvent ^tre elaguees puisqu'elles sont egalement inconsistantes avec e B ^ E.2 L'elagage de l'espace de recherche La fonction elaguer determine quelles hypotheses doivent ^tre enlevees de l'ensemble H . QC95] Mobal KW92].1. et Claudien DB93].27 Octobre 2009 à 09:30 Elle fait correspondre une conjonction de clauses G a une conjonction de clauses S telle que G j= S . pere(laurent julien) . Supposons que la base de connaissances contienne les faits : pere(gaston francois) .7 illustre le premier cas. L'exemple de la gure 5.1. et toutes les specialisations de H peuvent donc ^tre elaguees de l'espace de recherche. est couvert. e Si un exemple negatif e. c'est-a-dire B ^ H ^ e.5 (Regle d'inference inductive r) 5.1 Algorithme generique de PLI Initialiser H tant que la condition d'arr^t de H n'est pas remplie faire e e acer un element h de H choisir des regles d'inference r1 : : : rk a appliquer a h Appliquer les regles r1 : : : rk a h pour obtenir h1 : : : hn Ajouter h1 : : : hn a H 179 elaguer H n tant que Ce document est la propriété exclusive de nona nina (ninasbalka@gmail. Progol Mug95]. Clint De 92].1 Strategies de recherche La strategie de recherche est un choix fondamental pour le concepteur d'un systeme de PLI : Les systemes Cigol MB88b]. De nition 5. Ils considerent les exemples et la theorie du domaine et generalisent iterativement l'hypothese recherchee en appliquant des regles d'inference inductives.Chapitre 5 La programmation logique inductive Algorithme 5. j= 2. DD97] sont quant a eux representatifs de la classe des systemes descendants. DVD96].4.4. Les systemes Foil Qui90].

180 PARTIE 2 : Apprentissage par exploration. 5.7). on peut elaguer toutes les clauses plus speci ques que la clause oncle(A B ) .com) . Clause la plus générale oncle(A.7 { L'elagage de l'espace de recherche par la relation de subsomption. decoule directement de la relation de subsomption entre hypotheses. Les biais imposent des contraintes ou des restrictions sur les hypotheses que l'algorithme peut considerer et de nissent donc l'espace de recherche.B) pere(A.B) Clause la plus spécifique Fig. voire in ni. Mais l'espace de recherche n'est pas elague assez e cacement par cette propriete. Il faut donc de nir des biais supplementaires limitant davantage l'espace de recherche. pere(A B ) (zone hachuree de la gure 5.B) Ce document est la propriété exclusive de nona nina (ninasbalka@gmail. 5.2 Les biais de recherche dans l'espace d'hypotheses L'espace de recherche peut ^tre tres vaste. L'implantation e ective d'un systeme e de PLI necessite donc l'utilisation de biais declaratifs. qui rappelonsle.4.27 Octobre 2009 à 09:30 oncle(A. Le r^le du biais est double : o reduire la taille de l'espace de recherche pour diminuer le temps de reponse du systeme garantir une certaine qualite de l'apprentissage en interdisant au systeme de considerer certaines hypotheses inutiles. .

De plus.2 Les biais semantiques Si les biais syntaxiques restreignent l'espace de recherche en imposant la syntaxe des hypotheses. La de nition de types et de modes est utilisee depuis de nombreuses annees en programmation logique a n de permettre une meilleure analyse statique des programmes et ainsi d'augmenter leur e cacite. Ceci permet d'elaguer de l'ese e pace de recherche des clauses incorrectement typees. la declaration de modes permet e de restreindre la taille de l'espace de recherche. Ils constituent alors une facon de de nir des biais semantiques.1 Les biais syntaxiques Un biais syntaxique permet de de nir l'ensemble des hypotheses envisageables en speci ant explicitement leur syntaxe. Depuis leur introduction dans le systeme MIS Sha83]. l'utilisation du predicat concat=3 associee a la declaration de mode suivante : concat(+L1 +L2 .2. aussi appeles biais de langage. il est devenu courant d'utiliser egalement les modes et les types en PLI. Rob97] permet par exemple de declarer des modes sur les variables des litteraux a n de restreindre le nombre potentiel de clauses dans l'espace de recherche. En e et. e Ce document est la propriété exclusive de nona nina (ninasbalka@gmail.Chapitre 5 La programmation logique inductive On distingue deux classes de biais declaratifs : les biais syntaxiques. si un litteral contient une variable L de type t. Les litteraux qui peuvent appara^tre en t^te sont declares avec la directive modeh. Les variables en sortie dans la t^te doivent ^tre presentes dans le corps. permet de e rejeter de l'espace de recherche toutes les clauses utilisant le predicat concat sur des variables ne respectant pas ce mode. Le nombre des hypotheses a considerer peut en particulier ^tre reduit e par les methodes suivantes : limiter le nombre de litteraux des clauses induites limiter le nombre de variables apparaissant dans une clause limiter la profondeur de la recursion dans les termes n'autoriser que les clauses range-restricted. e e Il est egalement envisageable d'interdire qu'une m^me variable apparaisse plusieurs fois en e sortie de di erents predicats dans le corps de la clause. comme par exemple : concat(L1 L2 a b c]) Voici quelques facons d'utiliser les modes sur les variables des predicats : Toutes les variables en entree dans la t^te de la clause doivent se retrouver dans le corps e de clause. De m^me. 181 5.4. et les biais semantiques.2. et `-' argument en sortie. c'est-a-dire dont l'ensemble des variables de la t^te est inclu dans l'ensemble des variables du corps. e e On peut aussi forcer toutes les variables en sortie dans le corps soit a servir de resultat intermediaire (et donc d'^tre en entree dans un autre predicat). les biais semantiques imposent des restrictions sur le sens des hypotheses. soit a servir a de nir la e sortie du predicat de la t^te (et donc d'appara^tre en sortie dans la t^te). Par exemple.4. e .27 Octobre 2009 à 09:30 5.L3) ou `+' signi e argument en entree (devant ^tre instancies). Le systeme Progol Mug95].com) . toutes les autres occurences de cette variable L dans la m^me clause devront egalement ^tre de type t. le systeme distingue les predicats pouvant appara^tre en t^te de clause de ceux admis e dans le corps.

Pour la 11.su. La boucle interne construit une clause en ajoutant un a un des litteraux qui ont le gain le plus eleve. taux minimal de couverture des clauses.R. exemples negatifs C = q(X1 : : : Xn ) tant que Neg est non vide faire Retourner le programme appris P L'algorithme ci-dessus est l'algorithme de base du systeme Foil.). etc.5 Deux exemples de systemes de PLI Ce document est la propriété exclusive de nona nina (ninasbalka@gmail. L'utilisation de Foil impose une representation en extension de la theorie du domaine.5. MFoil Dze93]. Le systeme Foil est accessible par ftp a l'adresse ftp.2 Algorithme Foil P .cs. a Par exemple. La boucle la plus externe permet de construire des clauses tant que tous les exemples ne sont pas couverts. la declaration modeh(1 plus(+int +int . Les litteraux autorises dans les corps de clauses sont eux declares gr^ce a la directive modeb.5. Il est egalement possible de preciser les modes des arguments des predicats.27 Octobre 2009 à 09:30 Le systeme Foil 11 Qui90] a ete developpe par J. Pos .1 L'algorithme Algorithme 5. Chaque clause apprise est construite par specialisation successive de la clause la plus generale par ajout d'un nouveau litteral.1 Un systeme empirique descendant : Foil 5. exemples positifs tant que Pos est non vide faire Neg .1.au/pub/foil6. Foil cherche a induire un programme logique qui couvre tous les exemples positifs du concept a apprendre. Quinlan et a ensuite inspire d'autres systemes parmi lesquels Focl PK92]. les deux premiers arguments etant en mode entree et le dernier en mode sortie.int)) speci e que la t^te des clauses de l'espace de recherche sera constituee du predicat plus=3 avec e trois arguments de type entier. Foil permet de de nir des biais syntaxiques (limitation du nombre de variables apparaissant dans chaque clause.sh n tant que Ajouter la clause apprise C a P Retirer de Pos les exemples couverts par C n tant que Ajouter le litteral de meilleur gain au corps de C Retirer de Neg les exemples negatifs non couverts par C . 5. Le litteral ajoute est choisi en calculant un gain d'information de facon similaire a la construction d'un arbre de decision (voir le chapitre 11). et aucun exemple negatif.182 PARTIE 2 : Apprentissage par exploration.oz. Foidl MC95a].com) . ICN et MULT ICN MV95]. 5.

remi franck.alfred franck. .michel charles.paul charles.alfred paul.Chapitre 5 La programmation logique inductive construction de chaque clause a l'etape i.paul remi.michel franck.remi .franck charles. Chaque element de ces ensembles est une instance liee de la clause en construction correspondant a un exemple couvert.alfred charles. il se peut que le nombre de litteraux candidats soit tres grand.charles /* exemples negatifs alfred. kTi+ k kTi+k .franck michel.remi charles.remi michel.michel alfred. Foil gere deux ensembles de tuples Ti+ et Ti.franck franck.remi michel. 1 de l'etape precedente.michel alfred. Du fait de sa methode d'apprentissage.charles paul.alfred alfred.franck.michel. a chaque ajout d'un litteral dans la clause. sont calcules a partir des ensembles Ti+ 1 et Ti. et les Ti+1 sont i les ensembles de tuples consideres lorsqu'on a ajoute le litteral L.paul alfred. il peut considerer qu'une certaine partie des exemples est bruitee.paul michel. et arr^ter la construction de e la clause lorsqu'un certain pourcentage d'exemples est couvert.paul.charles *pere(P.charles alfred. /* valeurs possibles pour les arguments des predicats */ P: alfred. k +1 ! 5.charles charles. En e et.k kTi k + kTi kTi+1 k + kTi.michel paul. a des exemples negatifs.alfred remi.paul paul.alfred michel.paul franck. Or pour chacun d'entre eux. Foil doit calculer les ensembles de tuples positifs et negatifs pour ^tre en mesure d'evaluer le gain. oncle(P.27 Octobre 2009 à 09:30 ou n+ est le nombre d'exemples positifs couverts par la clause en construction. L'un des problemes majeurs de Foil intervient lors de la construction d'une clause. La fonction de gain utilisee pour le choix du litteral L a . Les tuples de Ti+ correspondent a des exemples positifs. ajouter lors du passage a une nouvelle etape est calculee a partir du nombre d'elements des di erents ensembles de tuples : 183 gain(L) = n+ i Ce document est la propriété exclusive de nona nina (ninasbalka@gmail.remi alfred.5. A chaque etape.1. Foil permet de traiter des donnees bruitees.franck michel. pour le predicat oncle */ alfred.P) /* exemples positifs pour le predicat pere */ michel. et ceux de Ti.com) . Ceci peut ^tre prejudiciable a l'e cacite du e e systeme. En e et.remi.charles .michel franck. log +1 log2 + 2 + .2 Une illustration du fonctionnement Nous illustrons l'utilisation du systeme Foil par l'apprentissage d'une de nition du concept oncle.charles.franck paul. On dispose de la connaissance suivante sur les liens de parente au sein d'une famille.michel michel. les ensembles Ti+ et Ti.franck remi.charles remi.paul remi.P) /* exemples positifs pour le predicat oncle */ remi. .remi paul.franck remi.

-ilist))? 12.B) :. et e les litteraux qu'il est possible d'utiliser dans le corps des clauses (en utilisant la directive modeb). pere(C. Les exemples positifs sont exprimes par des clauses de nies. Cette clause la plus speci que constitue une borne lors du processus de construction de la clause a induire.alfred remi.27 Octobre 2009 à 09:30 Foil apprend le predicat oncle/2 de ni par la clause : oncle(A.michel franck.modeb(1.modeh(1.remi franck.2.alfred charles.franck paul.charles michel.B).5. Rob97] expose les di erents parametres du systeme.2 Un systeme empirique ascendant : Progol Progol 12 est un systeme de PLI base sur l'implication inverse Mug95].paul charles.franck alfred.modeb(1.qsort(+ilist. Notons que ceci est un apport signi catif par rapport a Foil avec lequel il etait necessaire de de nir la connaissance initiale en extension. Le systeme Progol est accessible par ftp a l'adresse suivante : ftp.charles paul.part(+int. Progol possede la particularite de calculer.-ilist))? :.1 L'algorithme Le principe du fonctionnement de Progol est donne par l'algorithme 5. La clause nale est calculee gr^ce a un algorithme A integrant une mesure de compression que a Progol cherche a maximiser.remi paul.qsort( +int|+ilist].comlab.2 Une illustration du fonctionnement Considerons par exemple.-ilist))? % Declaration des modes pour les litteraux en corps de clause :.3. A<>D. Des declarations de modes et de types permettent de de nir des biais semantiques.184 /* exemples negatifs alfred.charles charles.uk/pub/Packages/ILP . 5.D). Progol permet de de nir la theorie du domaine en intension sous la forme de clauses Prolog. pere(D.charles Ce document est la propriété exclusive de nona nina (ninasbalka@gmail.franck franck. Il cherche a induire des clauses gr^ce a une approche descendante.remi remi.remi charles. la clause la plus speci que couvrant l'exemple considere.michel michel.ac.paul PARTIE 2 : Apprentissage par exploration.paul franck. l'apprentissage du tri rapide par Progol. Etant donne le programme suivant : % Declaration des modes pour le litteral en tete de clause :.charles remi. 5.remi remi.5.franck franck.paul michel.alfred paul.paul paul.+ilist. 5.michel remi. Il est necessaire de speci er le litteral a employer en t^te de clause (en utilisant la directive modeh).michel charles.alfred franck. avant a de construire une clause.2. pour le predicat pere */ alfred.ox.alfred michel.michel paul.franck charles.alfred alfred.5.com) .A).pere(C.-ilist. et les exemples negatifs sont des negations de faits instancies.

Y<Z.part(X.1.1.1]. ]. Y.F).X. 0.2]).C) :. ilist( Head|Tail]) :. append(E.2]. X.qsort(B.append(Tail.0. X|Tail].List1.Z].2. X<Y.Z]) :Y.X < Y. Head|Tail1].0.Tail. 1.Chapitre 5 La programmation logique inductive Algorithme 5. 2.Tail. % Theorie du domaine definie en intension part(X.Z]) :- Exemples negatifs ::::::::::::qsort( qsort( qsort( qsort( qsort( qsort( qsort( qsort( qsort( qsort( qsort( qsort( 0.Y.1].Y.2. X. ].Y.List1. X]). 2. +int|+ilist].List2) :.1].0]). 0.Y.0. Y<Z.Z]) :X.X].0].X. X. Head|List2]) :.1.com) . part(A. . X].Tail1.2.3 Algorithme Progol tant que il reste des exemples positifs faire pour chaque exemple positif e faire 185 n pour n tant que Ce document est la propriété exclusive de nona nina (ninasbalka@gmail.0. part(X.2]).modeb(1. Y<Z.List2). Y.2]. 2. append( Head|Tail].List1.Tail2). 1]).Y.D).3]). ]).Tail.Z.Y.List1.List).2.List. Le systeme Progol induit une de nition du predicat qsort=2 sous la forme des clauses suivantes : qsort( ].0]). qsort( A|B]. X.1].List2) :Head < X. 2.0]).2.1.Y]. X<Y. part(X.0. Y<Z. 1].Y].Z]) :Z. ]). ilist(Tail).Z.Y]) :. 0.1]).Y]. append( ].Y]) :. part(X.0.List1. 1. Y<Z.1.1].int(Head). 0. 1.C). X.1]). X<Y. 1.Y]. Head|Tail2]) :Head > X. X.X < X. X.0.D.27 Octobre 2009 à 09:30 Construire la clause c1 la plus speci que qui implique l'exemple e Trouver une clause c2 plus generale que c1 (au sens de la -subsomption) telle que la mesure de compression soit maximale Retirer tous les exemples couverts par la clause c2 :.List1.2]. part(X. X<Y.Z]) :X. 2.1].0]. Y<Z. 1. 1.List2). 2. part(X.1]). Exemples positifs qsort( qsort( qsort( qsort( qsort( qsort( qsort( qsort( qsort( qsort( qsort( ]. A|F].Z].1]). ]).X].E. 0. 3.2. 2. X.1].Z]) :Y. X. 0.Y. 2.append(+ilist.2. 1. Head|Tail].0]). 2]).Z.1. X<Y.-ilist))? % Types ilist( ]).List2). X<Y. Head|Tail].

et utilisent des approximations lineaires pour calculer les contraintes sur chaque partie elementaire de la structure. Les contraintes qui s'exercent sur la structure peuvent ^tre e exprimees par des equations di erentielles. Cependant il n'est pas possible de resoudre de telles equations a l'aide d'un ordinateur en un temps acceptable. . La clause la plus speci que est d'abord calculee. Sur cet exemple. la strategie de parcours de l'espace de recherche par Progol est bien mise en evidence. Progol compte le nombre d'exemples positifs et negatifs couverts et fait une mesure de compression qui lui permet de selectionner la clause a retenir. La densite du maillage depend des proprietes geometriques de l'objet. 5.8 { Une piece decoupee en parties elementaires. et des relations entre les di erents composants de l'objet. des forces et des contraintes qui agissent sur l'objet. il n'existe pas de methode generale permettant de realiser un maillage acceptable pour une piece. 5. puis Progol part de la clause la plus generale et la specialise en ajoutant des litteraux. les ingenieurs decoupent la structure en un nombre ni d'elements. GOLEM a ete utilise dans ce contexte en vue d'induire un modele de la methode utilisee par les experts pour decouper les structures. Pour chaque clause examinee. Il faut noter que les experts ne sont pas capables de modeliser leur methode de decoupage et que GOLEM est ici utilise pour extraire cette expertise.27 Octobre 2009 à 09:30 La decoupe en elements nis est une technique tres utilisee par les ingenieurs qui cherchent a analyser des contraintes sur des structures physiques DM92]. Pour resoudre ce probleme.6 Les domaines d'application de la PLI Ce document est la propriété exclusive de nona nina (ninasbalka@gmail. La gure 5. Dans la pratique.186 PARTIE 2 : Apprentissage par exploration.8 est un exemple de decoupage en elements nis.com) . Decoupe en elements nis Fig.

On precise alors qu'elles sont e e identiques. Les auteurs s'attachent a la notion d'ar^tes e voisines. cont_loaded(C). une structure est representee par un ensemble d'ar^tes. Chaque objet est ainsi decrit en e e speci ant : Le type de ses ar^tes : longue importante. qui met en evidence que si deux ar^tes sont identiques et qu'elles sont contraintes de maniere e continue. pas importante. 1) :not_important(A).com) . chargee de maniere continue. On speci e que les ar^tes sont opposees si e e e elles jouent un r^le symetrique dans la piece. mais GOLEM induit des regles de la forme : qui signi e qu'une ar^te A est decoupee en un element si elle n'est pas importante et n'a pas de e contrainte. B) :cont_loaded(A). decouverte de neuropeptides. e des proprietes sur les ar^tes. . d'ar^tes opposees et d'ar^tes identiques. Une autre regle induite est : mesh(A. Une liste d'applications Le reseau d'excellence europeen en PLI (ILPNet) a rassemble sur son site http://www-ai. completement xee. importante. e Le predicat a apprendre est donc mesh(Arete N ). o e mais elles ont de plus la m^me forme et la m^me longueur.si/ ilpnet2/apps/index. Il est interessant de noter que selon les experts du domaine. on dispose d'un fait e 187 Ce document est la propriété exclusive de nona nina (ninasbalka@gmail. Ces regles ne sont pas toutes pertinentes.Chapitre 5 La programmation logique inductive Pour traiter ce probleme avec la PLI. chargee sur un e c^te. Certaines ar^tes sont non seulement opposees. xee sur deux c^tes.C). En voici une liste partielle : Sciences de la vie : structure 3-D des proteines. leur decoupage se fait egalement en un nombre identique d'elements. demi-circuit : : : Les di erentes conditions existants aux zones communes a plusieurs ar^tes : libre. mutagenese.html une liste de liens vers des descriptions d'applications ou l'ILP est utilisee pour l'apprentissage de concepts relationnels. not_loaded(A). mesh(A. same(A. Avec des descriptions de trois objets. o o La representation geometrique de l'objet. e circuit.ijs. o o Ls contraintes de charge qui s'exercent sur chaque ar^te : pas de charge. Pour chaque ar^te ai d'une structure s. et des relations entre les ar^tes. diagnostic precoce de rhumatisme. ou Arete est une ar^te et N est le nombre e de segments qui constitueront cette ar^te. mesh(C.27 Octobre 2009 à 09:30 mesh(ai n) qui signi e que cette ar^te est decoupee en n elements nis. les regles fournies par le systeme mettent en evidence des dependances qui leur etaient jusqu'alors inconnues BM95b]. xee sur e un c^te. courte importante. GOLEM induit e cinquante-six regles di erentes. analyse de tests de laboratoire. B). chargee sur les deux c^tes.

Zelle et R. Il est interessant de conna^tre le paysage du risque empirique en fonction des hypotheses h 2 H. metallurgie. Il est clair que le risque depend directement de la couverture des exemples par les hypotheses. marketing et commerce.1 Les problemes a resoudre 5. de nition des groupes nominaux.7. Pour ne prendre que l'exemple du langage naturel. et donc qu'une hypothese tellement generale qu'elle couvre pratiquement tous les exemples ne pourra ^tre bonne que si le concept cible est tres general. Si on veut tirer des conclusions generales. Ils portent une objection serieuse a l'encontre de la possibilite de la PLI. ce qui fait egalement de la programmation logique inductive une methode appropriee pour cette t^che. les techniques d'apprentissage semblent donc ^tre tout a fait adaptees pour inferer un analyseur morphologique.com) .1. Ils se poursuivent en particulier dans les domaines cites ci-dessus. Langage naturel : regles d'accord des verbes au passe en anglais. a Les premiers travaux dans le domaine ont ete realises par J. La recherche dans H s'e ectue par u une sorte de gradient. a utiliser la PLI necessite cependant de choisir avec soin les relations d'ordre et les operateurs d'exploration. et e inversement pour des hypotheses tellement speci ques qu'elles en couvrent pratiquement aucun . apprentissage d'analyseurs syntaxiques.188 PARTIE 2 : Apprentissage par exploration. analyse de groupes syntaxiques. mais semble-t-il non redhibitoires. certes a prendre au serieux. o Mais des travaux recents mettent en cause la possiblite m^me de l'induction supervisee lorsque e le langage d'hypotheses est trop expressif.1 Une transition de phase redhibitoire? L'attrait majeur de la PLI est le recours a un langage des hypotheses expressif (plus que la plupart des autres langages de generalisation) et commode. Ce document est la propriété exclusive de nona nina (ninasbalka@gmail.7 Les chantiers de la PLI 5. Celui-ci depend de l'echantillon d'apprentissage et en particulier de l'etiquetage des exemples. Souvent. Comme nous l'avons vu. on se guide dans l'espace des hypotheses en mesurant l'adequation des hypotheses testees par rapport aux exemples d'apprentissage. Imposer des limites pour obtenir des ordres bien fondes et des systemes d'induction contr^les introduit des di cultes. prediction des cesures. Prolog est un langage considere comme bien adapte au traitement du langage naturel. Autres domaines : bases de donnees geographiques. analyse des accidents de la circulation. La logique des predicats est de plus un domaine bien connu gr^ce aux travaux des logiciens. categorisation de texte. il faut cependant faire des experiences ne prenant pas en compte cet etiquetage. Nous allons examiner ce nouveau probleme. on utilise la fonction de perte f0 1g) qui compte le nombre d'exemples positifs non couverts et le nombre d'exemples negatifs couverts ind^ment. Environnement : developpement des algues.. On cherche donc les hypotheses dont le risque empirique est le plus faible. Ces travaux sont fondes sur des considerations completement independantes de celles que nous avons developpees dans le chapitre 2 qui derivent de l'analyse statistique de l'apprentissage. Mooney ZM93] Zel95] Moo96]. en cherchant quelles modi cations des hypotheses courantes pourraient conduire a des hypotheses de meilleur risque empirique (voir le chapitre 3).27 Octobre 2009 à 09:30 5. et plus generalement de l'induction supervisee avec des langages expressifs. Lorsqu'on fait de l'apprentissage supervise. selon le principe ERM .7. puisqu'il permet la representation aussi bien des exemples que des hypotheses ou que la theorie du domaine. De plus. etc.. syntaxique ou semantique e d'un langage. donnees de qualite de l'eau.

ils ont obtenus des courbes telles que celle de la gure 5. Le nombre de generalisations possibles est en general tres grand et le systeme se guide en choisissant celles qui conduisent a des hypotheses de meilleur risque empirique. son taux de couverture est nul. c'est que l'hypothese couvre tous les exemples. De maniere surprenante.com) . positif ou negatif. Le risque empirique reste donc constant et il est impossible de se guider dans l'espace de recherche. imaginons un algorithme d'apprentissage ascendant. correspondant a des hypotheses peu contraintes (m et L petits). 5. et donc un risque empirique proche? C'est ce qu'ont etudie Giordana et Saitta ( GS00]) dans le cas d'espaces d'hypotheses composes de clauses de Horn. Elle ne peut donc pas distinguer des exemples negatifs. en faisant varier le nombre de variables. Les hypotheses les plus generales se situent a gauche sur cette gure. c'est que quand on la generalise. exemple. operant par generalisation progressive et prudente. Le probleme. le taux de couverture mesure sur les hypotheses y passe brutalement de 0 a 1 sans presque de transition lorsque l'on va progressivement vers des hypotheses plus generales. m et N correspondent respectivement au nombre de variables (10 dans cette experience) et au nombre de tuples dans les relations (100 ici). Si le taux est de 100 %.9 { Une courbe tridimensionnelle de la probabilite de couverture d'un exemple tire aleatoirement par une hypothese h en fonction de m. Or que se passe-t-il selon les courbes de taux de couverture observees? Lorsque l'on prend une hypothese trop speci que. son taux de couverture reste nul. le systeme tente de la generaliser un peu a n d'en couvrir davantage.Chapitre 5 La programmation logique inductive 189 n = 10 N = 100 Ce document est la propriété exclusive de nona nina (ninasbalka@gmail. le nombre d'atomes clos (ou constantes). Par exemple. Cela permettra en particulier d'analyser la relation entre la variation syntaxique des hypotheses dans leur langage LH et leur taux de couverture : deux hypotheses proches dans LH ont-elles des taux de couverture proches. tout en essayant de ne pas couvrir les exemples negatifs. le nombre de litteraux dans h et de L. C'est-a-dire le pourcentage d'exemples couverts par une hypothese.9 qui rappellent des phenomenes de transition de phase en physique. Lorsqu'une hypothese courante ne couvre pas tous les exemples positifs connus. Il est donc interessant d'examiner le taux de couverture 13 des hypotheses de H. Pourquoi? Concretement. Ce n'est que lorsque les hypotheses considerees ont ete su samment generalisees qu'elles se trouvent dans la region de la transition de phase (la 13. . elle ne couvre pratiquement aucun exemple.27 Octobre 2009 à 09:30 Fig. le nombre de litteraux et le nombre d'atomes clos (et en repetant ces experiences un grand nombre de fois). Ces courbes sont etonnantes.

com) . il faut mettre les formules logiques sous la forme de clauses logiques. et tous e les raisonnements scienti ques valides sont bases sur des derivations logiques a partir d'un ensemble d'axiomes.2 Quelques problemes ouverts en PLI L'extension de la PLI repose en particulier sur la resolution des problemes suivants : la prise en compte de donnees numeriques l'utilisation d'autres logiques (con rmatoires. La recherche devient donc aleatoire. Dans ce langage. Au XX siecle. Selon ce point de vue. Plotkin a demontre que malheureusement. Pour appliquer le principe de e resolution. Ses principales contributions concernent l'introduction de la subsomption relative comme relation de generalite entre clauses. L'induction supervisee par generalisation ou specialisation progressive semble donc selon cette analyse tres di cile. Plotkin ne se limitait pas a la logique des clauses de Horn. la resolution.27 Octobre 2009 à 09:30 5.. falaise ))) que leur taux de couverture varie et que l'on peut en n comparer les hypotheses entre elles.190 ( ( PARTIE 2 : Apprentissage par exploration. toute afrmation mathematique peut ^tre exprimee dans le cadre de la logique des predicats. Notes historiques et sources bibliographiques Quoique les fondations de la logique remontent (facilement) a Aristoste.. demontra que l'inference deductive en logique des predicats pouvait ^tre realisee a l'aide d'une unique regle d'inference. Colmerauer et Kowalski furent les pionners au debut des annees 1970 du developpement de Prolog. C'est d'ailleurs ce que semblent con rmer empiriquement des experiences complementaires de Giordana et Saitta. On ne sait pas encore dans quelle mesure il se produit sur d'autres representations des connaissances. un langage de programmation logique. Il touche en tout cas les systemes utilisant la logique des predicats comme langage de description des hypotheses. c'est seulement durant le XIX et le XX siecles que des theoriciens tels que Boole et Frege l'ont formalisee rigoureusement dans un cadre mathematique. Avant. Le m^me phenomene se produit pour un systeme descendant qui specialise progressivement des e hypotheses intialement trop generales. toutes les formules logiques sont decrites sous la forme de clauses de Horn. Ce document est la propriété exclusive de nona nina (ninasbalka@gmail. sauf pour des problemes (( jouet )). une ecole de philosophes connus sous le nom de positivistes logiques a promu l'idee que la logique etait le socle ultime non seulement des mathematiques. il est impossible au systeme de se guider. ce generalise etant la borne inferieure (unique en l'absence de theorie du domaine) de l'espace des generalisations d'un ensemble de clauses. en 1965.7. Il y a la un probleme fondamental qui releve encore de la recherche theorique et experimentale.1. mais de toute la science. ce qui n'est pas surprenant puisque la programmation logique et le langage Prolog n'existaient pas encore. par exemple en inference grammaticale (voir le chapitre suivant). Robinson. et un algorithme de calcul du moindre generalise d'un ensemble de clauses sans theorie du domaine. il n'existe pas en general de .) l'apprentissage e ectif de regles recursives la prise en compte de l'incertain. La decouverte de Robinson a ete d'une importance fondamentale pour l'automatisation de de la deduction. C'est Plotkin qui dans sa these en 1971 Plo71a] a pose les fondations de ce qui allait devenir le champ de la programmation logique inductive. Plus tard. modales . Le positivisme logique trouva un support puissant dans les travaux de Godel dans les annees 1930 qui ont montre qu'un ensemble reduit de regles de derivation etait su sant (complet) pour deriver toutes les consequences de formules en logique des predicats.

L'autre paire d'operateurs en `W'.com) . a largement contribue a sa redaction. L'un des inconvenients de la methode est qu'elle est gloutonne et donc susceptible de tomber dans des optima locaux mauvais. par specialisation progressive. ou est la substitution xxxground. de l'universite de Saint-Etienne Ber00]. qui nous a aimablement autorise a les utiliser. Plus recemment Quinlan. Ces systemes d'induction etaient cependant tres ine caces et limites a de tout petits problemes. voire d'errer sans direction comme le montre le phenomene de transition de phase (evoque dans la section 5. 191 Ce document est la propriété exclusive de nona nina (ninasbalka@gmail. mais pour le moment ils sont restes con nes a la logique des propositions et non a la logique des predicats. Il s'agit du seul operateur de generalisation utilise. Celine Rouveirol. guidee par un critere de gain d'information (voir le chapitre 11). portant sur l'induction descendante de clauses de Horn. Les faits uni es B sont remplaces par H . A chaque etape. du general au speci que. Sammut et Banerji. Cela restreignait evidemment la portee de son algorithme et c'est pourquoi Shapiro Sha83] etudia une autre approche.6). De plus. est egalement issue de leurs travaux. D'autres travaux ont aussi porte sur l'invention de predicats. (voir Sam93]) ont decrit un systeme appele Marvin qui generalise un seul exemple a la fois par rapport a un ensemble de clauses inscrites dans la connaissance prealable ou theorie du domaine (background knowledge). egalement bases sur l'inversion de la resolution. Un ensemble de contraintes plus generales a ete fourni et les deux operateurs en `V' ont ete proposes. Ce chapitre est en partie extrait des notes de cours de Marc Bernard. La methode utilise une heuristique de recherche descendante. Muggleton et Buntine demontrerent que l'operateur de generalisation de Banerji etait un cas particulier de l'inversion d'un pas dans la preuve par resolution.Chapitre 5 La programmation logique inductive moindre generalise ni de deux clauses en presence d'une theorie du domaine. Le systeme a ete teste sur un ensemble de problemes varies. Plus tard.27 Octobre 2009 à 09:30 . Shapiro etudia le debogage algorithmique de programmes Prolog par identi cation automatique de la clause defectueuse. du LRI (universite d'Orsay). Qui90]. a propose le systeme Foil qui induit des clauses de Horn de maniere tres e cace. au lieu d'ascendante comme pour Plotkin. un ensemble d'atomes clos F representant l'exemple sont apparies avec le corps d'une clause de la theorie du domaine H B .

Les relations principalement etudiees sont la -subsomption dont la traduction operationnelle est la SLD-subsomption qui debouche sur des operateurs de generalisation par inversion de la resolution. Les systemes d'apprentissage de concepts en PLI se divisent en systemes descendants. Cela implique des choix et des precautions pour la de nition d'une relation de generalite entre hypotheses. Resume La programmation logique inductive (PLI) est essentiellement tournee vers l'apprentissage supervise de concepts ou de theories (exprimes sous forme de programmes logiques). Par ailleurs.192 PARTIE 2 : Apprentissage par exploration. il faudra aussi resoudre le probleme pose par le phenomene de transition de phase en logique des predicats. operant par specialisations successives a n de ne pas couvrir les exemples negatifs. la PLI s'occupe de l'apprentissage de regles exprimees en logique des predicats. Il reste beaucoup a faire pour etendre le champ d'application de ces systemes. Face a la complexite des espaces d'exemples et d'hypotheses en logique des predicats.com) . en particulier lorsque les donnees sont numeriques et bruitees. Contrairement a la plupart des techniques d'apprentissage qui sont concernees par des connaissances en logique attribut-valeur. il est necessaire d'utiliser des biais pour contr^ler la recherche dans o l'espace d'hypotheses. et les systemes ascendants operant par generalisations successives a partir des exemples positifs. Ce document est la propriété exclusive de nona nina (ninasbalka@gmail.27 Octobre 2009 à 09:30 . L'apprentissage y est guide par une relation de generalite dans l'espace des hypotheses en cherchant des hypotheses coherentes avec les exemples d'apprentissage.

On aimerait egalement poua voir hierarchiser la recherche et ne prendre en compte que graduellement les details de l'univers etudie. une question essentielle est celle de la construction d'un nouveau domaine de connaissances. Finalement. De m^me. Il est hors de doute que l'importance du sujet et l'etat encore preliminaire de nos connaissances justi eront de nombreuses recherches a l'avenir. Lorsqu'une relation de generalite peut ^tre de nie sur l'ese e pace des hypotheses. On aimerait alors e pouvoir debarrasser le langage de description des hypotheses de tous les descripteurs et relations non pertinents pour la t^che d'apprentissage. Cependant. En dehors m^me des problemes souleves dans les chapitres theoriques sur la legitimite de tout e critere inductif.Chapitre 6 Ce document est la propriété exclusive de nona nina (ninasbalka@gmail. et m^me une recherche informee peut se reveler ine cace. cette exploration est generalement intrinsequement tres co^teuse et u doit donc ^tre guidee.com) .27 Octobre 2009 à 09:30 Reformulation et transfert de connaissances Le l directeur de cet ouvrage est que l'apprentissage implique une exploration de l'espace des hypotheses pour rendre compte des donnees d'apprentissage. Est-il possible d'envisager de le realiser en s'aidant d'autres domaines? Est-il envisageable de faire autrement? Quels mecanismes pourraient ^tre mis en jeu? e Ce chapitre etudie donc la modi cation et la construction des espaces d'hypotheses. m^me l'utilisation d'une relation de generalite e dans H peut ^tre insu sante pour pouvoir resoudre e ectivement un probleme d'ape prentissage. Les approches pour resoudre ces problemes sont encore a un stade exploratoire. Elles sont tres inspirees de l'etude de la cognition humaine. . C'est cette conviction qui nous a fait ecrire ce bref chapitre sur ces questions. et les applications e encore davantage. L'espace des hypotheses est en e et generalement extr^mement complexe e et riche. m^me si les travaux actuels sont rares. il serait pratique de pouvoir bene cier des explorations e passees dans H a propos de problemes analogues. voire de pouvoir transcrire des explorations faites dans d'autres espaces d'hypotheses relatifs a d'autres environnements ou univers de connaissances. la recherche d'une ou plusieurs hypothese(s) correcte(s) est considerablement aidee.

un apprenti Jusqu'a present. ou au moins a une grande partie d'entre elles? L'apprentissage peut aussi porter non pas sur la determination d'une bonne hypothese mais sur l'e cacite de la recherche de bonnes hypotheses. L'apprentissage peut cependant prendre d'autres visages. Le systeme a cherche alors une solution h(x) a ce probleme. comme de trouver un plan d'action.1 illustre ce principe. On suppose que le systeme est soumis au probleme x 2 X . L'apprentissage consiste alors a rendre la recherche plus facile u la prochaine fois. pour voir dans quelles conditions cette solution a (eventuellement generalisee) pourrait ^tre reutilisee dans une situation x0 semblable. sans doute extr^me. parfois m^me a e partir d'un seul. 6. Un exemple. qui peut aussi bien ^tre de trouver e une etiquette dans une t^che de classi cation. Il se peut aussi que l'apprenant possede des descriptions de concepts qui soient correctes. C'est cette connaissance qui permet de pouvoir tirer parti de tres peu d'exemples.1 L'apprentissage en presence de theorie H en bonne adequation.194 PARTIE 2 : Apprentissage par exploration. est adequate. 6. Si la recherche de cette solution est di cile.2. Il se peut que la recherche de cette reponse soit impossible pour le systeme. ou du moins qu'elle soit tres co^teuse.2 L'apprentissage par examen de preuve (EBL) En schematisant. C'est aussi cette connaissance qui peut eventuellement ^tre e modi ee dans l'apprentissage. ne serait cependant sans doute pas d'une grande utilite pratique et la recherche d'une description e plus operationnelle pourrait legitimement ^tre consideree comme un apprentissage a part entiere.1 Le principe de l'EBL . Dans le cas de l'EBL. ou une solution voisine.27 Octobre 2009 à 09:30 6. Cette connaissance m^me correcte. La gure 6. mais qui ne soient pas vraiment operationnelles dans le monde 1 .com) . et ceci non seulement pour la situation x. connaissance que l'on appelle (( theorie du domaine )) 2 . Comment est-il alors possible de generaliser cette experience tres limitee a toutes les situations de fourchettes. Le point commun a ces types d'apprentissages est l'intervention d'une connaissance importante sur le domaine d'application. l'apprentissage EBL peut ^tre considere comme une technique d'extrapolation dans l'espace X e guidee par une theorie du domaine. e 2. Cette (( theorie )) peut prendre la forme tres formelle de programmes en logique du premier ordre. Par exemple. gr^ce a des raisona nements enrichissant l'experience. est celui d'un systeme de diagnostic de panne d'ordinateur capable de cae racteriser les pannes a partir des equations de Shrodinger associees aux atomes de l'appareil. selon une mesure de risque. D'une certaine maniere. voire irrealisable. le probleme etudie dans l'apprentissage par examen de preuve (Explanation-Based Learning : EBL) est de trouver la reponse associee a une situation ou a une forme x 2 X . elle est obtenue u a partir de l'utilisation de la theorie du domaine. il s'agit d'identi er une region de l'espace des problemes X pour laquelle la solution h. voir le chapitre 5. Conceptuele lement. La partie Apprentissage par approximation et interpolation (en particulier le chapitre 14) de cet ouvrage explore d'autres techniques d'extrapolation fondees 1. mais aussi pour des situations semblables. nous avons decrit l'apprentissage comme la recherche d'une hypothese dans joueur d'echec humain sera susceptible d'apprendre le concept de (( fourchette )) (une menace portant simultanement sur plusieurs pieces) a partir de tres peu d'exemples. Ce document est la propriété exclusive de nona nina (ninasbalka@gmail. Il faut bien s^r de nir la notion de similarite. avec les donnees experimentales decrites dans X . il peut ^tre interessant pour le systeme d'examiner la solution nalement obe tenue. par le systeme ou gr^ce a un professeur. comme la forme de reseaux semantiques souvent lies a des types d'inference non deductifs : propagation de marqueurs par exemple.

trouvee ou fournie. permettant de guider la recherche d'une solution o dans l'arbre des possibilites. Celle de regles de contr^le ou heuristiques. W is V*D. 3. les concepteurs de systemes d'apprentissage par EBL ont privilegie l'une ou l'autre de ces possibilites. pour la reconnaissance de concept.Objet2) vrai lorsque l'on peut empiler l'Objet1 sur l'Objet2.table). l'apprentissage Ce document est la propriété exclusive de nona nina (ninasbalka@gmail. . Celle de macro-operateurs. Nous supposons que l'apprenant dispose prealablement d'une theorie du domaine T decrite sous la forme de regles logiques que nous decrirons ici en utilisant.Chapitre 6 Reformulation et transfert de connaissances h x 195 h' h(x) x x h h(x) x x x (a) (b) (c) Fig.27 Octobre 2009 à 09:30 EBL cherche sous quelles conditions la solution h est applicable. La t^che consiste a apprendre le concept d'empilement d'un objet a sur un autre. 6. proprietaire. la syntaxe Prolog : (T1) : poids(X.1 { (a) A partir d'une solution h. Pour cela nous reprenons l'exemple devenu celebre de l'apprentissage du concept d'objets empilables. Peu d'auteurs ont examine le lien entre les deux approches (une exception est DF97a]) La solution generalisee peut prendre trois formes : 1.D). (b) Ces conditions su santes sont obtenues par un mecanisme de regression a travers la theorie T du domaine. Pour des ns d'illustration dans la suite de cette section. ou bien. comme dans le chapitre 5. comme c'est souvent le cas. Il s'agit alors d'apprendre une de nition operationnelle de concepts.W) :. (T2) : poids(X. Cela peut permettre d'accelerer la recherche d'une solution en diminuant la profondeur de recherche necessaire. Soit un monde d'objets caracterises par les attributs : couleur. pour le probleme x. Evidemment. appropriee pour une classe de problemes dans X . 2. il s'agit d'apprendre une de nition du predicat : empilable(Objet1. Il existe de plus une relation possible entre les objets : la relation sur traduisant qu'un objet est sur un autre.50) :. Celle d'une solution toute faite.2. nous avons choisi de montrer seulement comment l'apprentissage peut deboucher sur la premiere voie. volume.est un(X. materiau. Plus precisement. sur des mesures numeriques et des proprietes de lissage.com) . type et densite. initialement expose dans MKKC86] qui est aussi l'article fondateur de l'EBL. densite(X. 6. c'est-a-dire d'etapes de solution. mais dans la pratique. ces trois types de connaissances apprises ne sont pas exclusifs l'un de l'autre.2 Une illustration de l'apprentissage EBL Nous montrons dans cette section comment l'apprentissage EBL permet d'apprendre une de nition operationnelle et generale d'un concept a partir d'un exemple positif unique.volume(X.V). (c) Cela permet de trouver a la fois une generalisation de la solution initiale h et une region de l'espace des problemes X pour laquelle cette solution generalisee est applicable.

volume(obj2. materiau(obj1.y2) T2 est_un(obj2.boite).rouge).bois). montrant que l'exemple satisfait au concept cible. couleur(obj1. l'apprenant est pourvu de l'exemple positif decrit par les faits suivants : sur(obj1.0.W2). puis a generaliser cette preuve pour en extraire un ensemble de contraintes su sant a garantir la validite de la preuve generale.carton).y2) Ce document est la propriété exclusive de nona nina (ninasbalka@gmail.plus leger(X.0. volume(obj1.) et de predicats facilement evaluables (comme le predicats <).27 Octobre 2009 à 09:30 volume(obj1. . est un(obj2.v1) densité(obj1. que l'exemple fourni est bien un exemple positif du concept cible. couleur(obj2. poids(Y. est un(obj1.com) . Chaque branche de la preuve peut eventuellement ^tre reduite pour se e terminer sur une expression veri ant le critere d'operationnalite. T montrant que l'exemple (T3) : plus leger(X. Plus formellement. obj2) T3 poids(obj1. couleur.bleu).y1) T1 volume(obj1. proprietaire(obj1.Y) :. densite.Y) :.50) inf(y1.1) densité(obj1.poids(X. Dans le cas present. L'apprentissage EBL consiste d'abord a examiner une preuve.. Le premier pas necessite que la theorie du domaine soit su sante pour qu'il soit possible de trouver une preuve.W1).2 { Un arbre de preuve obtenu dans la theorie du domaine satisfait bien le concept cible.Y). l'explication de l'exemple est donnee sous forme graphique dans la gure 6.Y) :..table) inf(1. le critere d'operationnalite impose que le concept soit exprime a l'aide de predicats utilises pour decrire l'exemple (volume. Finalement. 6.. On suppose de plus que l'apprenant cherche une de nition operationnelle (c'est-a-dire facilement evaluable) du concept but : (C1) : empilable(X.obj2). (C2) : empilable(X.table).1). obj2) C1 plus_léger(obj1.d1) poids(obj2. densite(obj1.marc).196 PARTIE 2 : Apprentissage par exploration.frederic). materiau(obj2.1) Fig. aussi appelee explication (d'ou l'appellation EBL).not(fragile(Y)).3). empilable(obj1.2. W1 < W2. exprimee a l'aide de la theorie du domaine. proprietaire(obj2.1).

y2) poids(p1. Ensuite. la conjonction des litteraux obtenus aux feuilles de l'arbre generalise fournit la de nition operationnelle et generalisee du concept cible. 6. La constante numerique 50. A la n de ce processus. d1) est_un(p2. c'est-a-dire un ensemble d'assertions A tel que A entra^ne C gr^ce a P . a ete generalise de plusieurs points de vue.Obj2).y1) inf(y1. D'abord. p2) C1 plus_léger(p1.3. par exemple.d1) densité(x.v1) volume(x. En fonte normale se retrouvent les elements de la preuve initiale trouvee pour l'exemple positif du concept empilable(Obj1. Cette procedure calcule les conditions su santes d'une conclusion C en fonction d'une preuve P . y) empilable(p1.y2) poids(p2.Chapitre 6 Reformulation et transfert de connaissances concept but : 197 {x/p1. la gure 6.y2) poids(y. p2) {x/p1.v1*d1) T1 {x/p1. y/p2} Ce document est la propriété exclusive de nona nina (ninasbalka@gmail. demeure dans la preuve generalisee car elle n'a pas ete introduite par une instanciation aux feuilles de l'arbre de preuve mais par une regle de la theorie.5) {y/p2. Un exemple de l'application de cette procedure est donne par la gure 6. Notons cependant que ce n'est pas systematique. La procedure se termine lorsqu'elle a parcouru toutes les etapes de la preuve initiale pour atteindre les feuilles de l'arbre de preuve. se revelent non pertinents et peuvent donc ^tre elimines. Finalement. L'exemple positif initial.5) est-un(y. 5/y2} volume(p1.coin_table) inf(v1*d1.3 { L'arbre de preuve generalise est obtenu par regression du concept cible dans l'arbre de preuve en calculant a chaque etape (denotee par les lignes en pointilles) les litteraux les plus generaux permettant cette etape (indiques en gras).3.com) . la generalisation va plus loin que cette simple variabilisation gr^ce a la procedure de regression d'une formule a travers une regle proposee par Waldinger a Wal77]. Le second pas consiste a analyser l'arbre de preuve trouve pour identi er les conditions de son applicabilite a n de decouvrir l'ensemble des situations dans lesquelles il pourrait s'appliquer.27 Octobre 2009 à 09:30 poids(p1. y) T3 plus_léger(p1. calculant a chaque fois les conditions su santes de la conclusion de l'etape. p2) plus_léger(x. La frontiere de chaque etape de regression est indiquee par les lignes en . n'intervenant pas dans la preuve. v1*d1/y1} T2 poids(p2.2 decrit la generalisation de la preuve donnee dans la gure 6. la procedure fonctionne iterativement a travers les etapes de la preuve.y1) poids(x. Pour le cas decrit ici. de e nombreuses constantes ont ete remplacees par des variables. il etait decrit par une collection d'attributs dont beaucoup. le seul connu pour le concept cible. en fonction de la regle de derivation employee pour cette etape.y2) inf(y1. y/p2} empilable(x. Dans le cas de a la regression d'une conclusion a travers un arbre de preuve. coin-table) Fig.v1) densité(p1.

et adequate. C'est la l'une des plus importantes limitations pour la mise en pratique de la methode car il est . produisant la de nition generale suivante : empilable(X. Par exemple. Etape par etape.Y) :volume(X.Y). L'exemple positif fourni ne se rapporte qu'a la premiere de nition. Ils permettent en e et d'orienter la recherche de preuve dans un espace de possibilites generalement immense. c'est-a-dire decrite dans des termes pouvant e conduire a une reformulation utile des concepts. densite(X.Y1). ils sont representatifs de l'environnement et guident donc l'apprentissage vers les seules regions de X pertinentes. ce qui produit la precondition plus leger(X.Y2)g. complete (toute formule vraie dans l'interpretation intentionnelle de la theorie doit ^tre deductible de la theorie).plus leger(X.3 Discussion sur l'apprentissage de concept a partir d'explications Plusieurs problemes meritent d'^tre soulignes.Y2).Y) :.Y). il s'agit cependant d'une specialisation de la de nition initiale du concept cible.com) . elle produit une hypothese (ensemble de regles Prolog) elle-m^me correcte et couvrant les exemples positifs connus des concepts a apprendre.DX). l'autre au fait que Y n'est pas fragile. l'une se rapportant au fait que X est plus leger que Y. e Ces regles sont des conditions su santes decrivant les concepts cible en fonction de la theorie du domaine. De plus.DX. Lorsqu'une theorie correcte et complete lui est fournie. On pourrait tres bien apprendre une de nition complete du concept cible par regresssion selon tous les arbres de preuve possibles en arr^tant les preuves lorsque le critere d'operationnalite est satisfait comme cela se fait e en programmation logique par evaluation partielle HB88]. dans l'apprentissage du concept empilable(X. ce qui produit a l'ensemble de preconditions fpoids(X. avec a chaque fois en gras les conditions su santes calculees. Par exemple. On calcule sa regression a travers la regle empilable(X. 6.27 Octobre 2009 à 09:30 Cette procedure a ete implantee en particulier dans l'algorithme Prolog-EBG KCC87].2. poids(Y.198 PARTIE 2 : Apprentissage par exploration.Y). L'inter^t des exemples n'est e cependant pas negligeable.50). pointilles. Ainsi. Des commentateurs de l'apprentissage EBL ont fait remarquer que d'un certain c^te o l'exemple positif fourni est redondant et inutile. est un(Y. et les conditions trouvees par regression a travers la preuve relative a cet exemple ne concernent donc que la premiere de nition possible du concept. le concept cible general est empilable(X. Il est evident que la qualite des descriptions apprises par EBL depend grandement des proprietes de la theorie du domaine. la theorie propose deux de nitions. e Il est important de remarquer que l'algorithme rapidement decrit ci-dessus fournit seulement une de nition su sante (et non necessaire) du concept cible. tant l'apprentissage qu'ensuite la reconnaissance d'un concept sont acceleres par elimination des cas de preuves inutiles (c'est d'ailleurs l'une des raisons pour laquelle les Anglo-saxons parlent de speed-up learning). Si l'on apprend bien une generalisation de l'exemple positif. inf(Y1.table). si ces exemples sont bien choisis. Ceci est d^ au fait que la u preuve est guidee par les exemples fournis qui n'epuisent pas forcement toutes les possibilites de preuve du concept.Y). on atteint ainsi les feuilles de l'arbre de preuve.VX). Ce document est la propriété exclusive de nona nina (ninasbalka@gmail. L'exemple d'apprentissage ci-dessus se traitait a l'aide d'une theorie du domaine a la fois correcte. inf(VX. On continue alors en calculant la regression de cette expression a travers (T3) le pas suivant de la preuve. C'est bien pourquoi on parle d'apprentissage a partir d'explications.

S'il est interessant de savoir utiliser des exemples positifs d'un concept a l'aide d'une theorie du domaine. La seconde part de l'echec d'une preuve d'un exemple negatif pour analyser comment il faudrait la modi er pour parvenir a un succes et ainsi caracteriser ce qui separe les situations positives des situations negatives. ou l'obtention d'une preuve incomplete. il peut y voir decouverte de preuve incorporant des contradictions avec le monde reel. L'apprentissage a partir d'echecs (learning by failure) a ete particulierement etudie dans le contexte de l'apprentissage de connaissances de contr^le puisqu'il y est crucial de savoir quand il faut eviter d'avoir recours a un o operateur. Pour apprendre a partir d'explications les conditions d'application d'un operateur. on pourrait vouloir apprendre a partir d'un echec a mater le roi adverse dans une situation pourtant apparemment favorable. le generaliser et utiliser la negation du concept appris pour caracteriser les situations necessaires au succes. L'apprentissage d'heuristiques de contr^le permettant de trier par ordre d'inter^t decroissant o e les operateurs envisageables dans un etat donne. Finalement. il y a le cas de theorie impossible a traiter. Cela peut peut avoir pour consequence l'impossibilite de trouver une preuve pour un exemple positif. Un exemple de cette approche gure dans le chapitre 4 avec le systeme Lex de . 2. 2. 199 Ce document est la propriété exclusive de nona nina (ninasbalka@gmail. et donc un ou plusieurs exemple(s) positif(s) de son application. Deux approches sont envisageables dans ce cas. Par e exemple.2. L'apprentissage peut alors prendre trois formes : 1.com) . 3. La premiere consiste a traiter l'exemple negatif comme un exemple positif. On peut caracteriser les problemes en trois classes : 1.Chapitre 6 Reformulation et transfert de connaissances rare que l'on dispose d'une theorie parfaite avant apprentissage. Le cas d'une theorie incorrecte. 3. interdisant de trouver des preuves de l'exemple fourni. il peut ^tre tout aussi tentant d'utiliser des exemples negatifs. voire de multiples preuves mutuellement incoherentes. c'est-a-dire apprentissage de mauvais concepts. L'apprentissage des conditions dans lesquelles il est interessant d'envisager l'utilisation d'un operateur. il su t de le considerer comme un concept dont on cherche a caracteriser le domaine d'application. L'apprentissage de macro-operateurs qui sont souvent utiles dans un environnement donne et qu'il est donc interessant de conna^tre. on examine les sequences d'operateurs correspondant a des solutions de problemes. Cela fournit pour chaque operateur utilise un ou des etat(s) dans le(s)quel(s) il a ete employe. Pour obtenir des exemples positifs d'application d'operateurs. Ces trois classes de problemes ont fait l'objet de travaux. Dans ce contexte en e et. Dans ce cas. Le cas d'une theorie incomplete. mais souvent inutilisable en pratique a cause de la complexite de la recherche d'une solution. On a egalement cherche a compenser l'insu sance de la theorie du domaine par l'utilisation simultanee de plusieurs exemples.4 L'apprentissage de connaissances de contr^le a partir d'explications o L'apprentissage de concept a partir d'explications requiert donc une theorie du domaine aussi correcte et complete que possible. surtout la premiere. C'est ainsi qu'on a cherche a etendre la notion de preuve a des preuves (( plausibles )) exprimees dans des extensions de la logique (incertaines ou oues). Un domaine dans lequel il est naturel de supposer une telle theorie est celui de la resolution de problemes. l'enjeu de l'apprentissage est souvent de rendre e cace un resolveur de probleme capable en principe de resoudre n'importe quel probleme.27 Octobre 2009 à 09:30 6.

. FN72] est le grand anc^tre de la plupart des systemes de plani cation. La deuxieme approche consiste a chercher a ameliorer l'e cacite d'un systeme de resolution de probleme ou de plani cation en de nissant des macro-operateurs correspondant a des soussequences generalisees de solutions. Gr^ce a la nature recursive de ce procede. La troisieme approche est d'apprendre des heuristiques de contr^le guidant le systeme lorso qu'il cherche une solution a un probleme. Prodigy Min88. D'autre part. Mitchell. si elles correspondent a des sous-sequences courtes. La partie action de chaque regle est fondee sur les resultats du sous-but. qui utilise un apprentissage a partir d'explications. le systeme analyse ses bons choix et ses impasses et cherche a les expliquer en termes de sa theorie du domaine. Soar a ete teste dans de tres nombreux problemes et est propose comme modele cognitif de resolution de probleme New90]. Inversement. 4. Le mecanisme de chunking entre en jeu lorsqu'un sous-but a ete resolu. un sous-but est engendre et le systeme cherche a le resoudre par une methode de recherche faible telle que generer et tester 3 .200 PARTIE 2 : Apprentissage par exploration. la partie condition ou antecedent exprime les aspects pertinents qui determinent le succes de l'emploi de la procedure. Nous reviendrons sur ce probleme.com) . Il faut d'une part selectionner les sequences utiles : si elles sont trop speci ques. Ceci n'est evidemment qu'un petit exemple des capacites de Prodigy. Comme Soar. Il a en e particulier xe la maniere de representer les operateurs. La solution trouvee pour sortir de l'impasse est alors vue comme une explication de la demarche a suivre pour sortir a l'avenir d'impasses similaires. donc generalement d'un domaine d'application plus vaste. une variante appelee Lex2 a ete developpee. d'ajouts et de retraits exprimees avec des predicats sur le monde. La celebre methode de recherche A? en est un exemple. des hierarchies de sous-buts sont a produites. elles seront moins utiles car ne correspondant pas a des (( grands pas )) dans la solution. il faut apprendre leur domaine d'application. STRIPS (Stanford. elles serviront rarement et ralentiront inutilement le processus de choix a chaque n ud de la recherche. Prodigy utilise une resolution de problemes par decomposition en sous-problemes. Il est ainsi capable de produire des regles de contr^le telles que : o if (and (current-node node) (candidate-goal node (on X Y)) (candidate-goal node (on Y Z))) (prefer goal (on Y Z) to (on X Y)) Ce document est la propriété exclusive de nona nina (ninasbalka@gmail. Il utilise pour ce faire un mecanisme appele chunking qui produit des (( chunks )) (litteralement (( gros morceaux ))) ou macro-operateurs. On y voyait a l' uvre un apprentissage par elimination des candidats dans l'espace des versions. Un resume de la procedure de resolution du sous-but est enregistre sous forme de regles de production. Il s'agit d'un systeme de plani cation fonctionnant en utilisant une theorie generale sur o la plani cation. 1971) FN71. une theorie du domaine et une description des operateurs a la Strips 4 avec des listes de preconditions.27 Octobre 2009 à 09:30 then Ce genre de regle est obtenu apres l'analyse d'un echec lorsque le robot a essaye de placer d'abord la sous-pile d'objets superieure avant une sous-pile inferieure. Methodes consistant a engendrer les di erents possibilites a chaque point de choix puis a choisir en fonction d'une fonction d'evaluation. A chaque fois qu'une impasse est rencontree dans la resolution d'un probleme. Apres avoir produit un plan d'action. ce qui se fait souvent par regression comme dans l'apprentissage de concept. Min90] est un autre systeme interessant d'apprentissage d'heuristiques de contr^le. 3. Un systeme operant de cette maniere tout en apprenant aussi des macro-operateurs est le systeme Soar LRN86]. Soar est un systeme general de resolution de probleme operant par decomposition de problemes en sous-problemes.

les gains empiriquement mesures sur un ensemble de t^ches sont de l'ordre de 20 % a 110 % avec a une moyenne autour de 40 %.5 Bilan sur l'apprentissage a partir d'explications Dans ce survol de l'apprentissage a partir d'explications. nous avons laisse de c^te certains o problemes tels celui de l'apprentissage dans le cas de preuves recursives ou dans le cas de preuves non deductives comme cela se rencontre dans des systemes a base de schemas. a partir d'un petit nombre d'exemples. chaque nouvel operateur ajoute un choix a l'ensemble des choix possibles a chaque etape de resolution. qu'il ne peut s'agir que d'une eclipse passagere. comme Gerald Dejong l'un de leurs promoteurs. l'apprentissage a partir d'explications peut ^tre tres interessant. on e ne voit pas comment l'emploi exclusif de techniques sans usage de theorie du domaine pourrait couvrir l'ensemble des problemes d'apprentissage. les travaux sur cette approche ont ete peu nombreux depuis plus d'une decennie.27 Octobre 2009 à 09:30 6. Nous en evoquons rapidement quelques aspects ici. Il est donc crucial pour un agent intelligent de savoir contr^ler l'information qu'il prend en compte pour resoudre une t^che. Il o a serait extr^mement utile d'avoir des systemes capables d'apprendre ce contr^le.com) .Chapitre 6 Reformulation et transfert de connaissances Comme Soar. chaque nouvelle regle. de l'economie realisee et du co^t en terme de temps de selection et d'application. Certes il est di cile de disposer d'une theorie du domaine forte. le contr^le ou le diagnostic. . u C'est ce que Minton. Un pouvoir expressif trop limite de la representation utilisee peut emp^cher certains raisonnements. Le co^t ainsi encouru peut depasser l'avantage retire. Prodigy a ete teste intensivement. comme la plani cation. En e et. les e capacites d'inference et de raisonnement d'un agent dependent de la maniere dont est exprimee sa connaissance et comment elle peut s'interfacer avec la perception de l'environnement. Il en est ressorti que l'apprentissage de macro-operateurs et de regles de choix des operateurs n'etait pas necessairement avantageux. mais il existe cependant des domaines ou de telles theories preexistent. Plus generalement. Il s'agit la a o d'un probleme qui ressort encore de la recherche. ce qui les distingue radicalement des methodes inductives classiques. nous pensons cependant. Si. et en particulier quand chaque exemple est co^teux a o u obtenir. trop d'informations disponibles peuvent conduire a des raisonnements o incapables de trouver une solution en un temps raisonnable. 201 Ce document est la propriété exclusive de nona nina (ninasbalka@gmail. Il faut surtout retenir que ces methodes d'apprentissage permettent l'obtention de generalisations justi ees. De cette maniere. L'etat de l'art en e o apprentissage arti ciel est encore loin de pouvoir repondre a ce probleme.3 Abstraction et reformulation des connaissances M^me lorsqu'une approche (( nonsymbolique )) est revendiquee en intelligence arti cielle. C'est pourquoi Prodigy incorpore un module de mesure de l'utilisation de chaque regle et operateur. Seuls les regles u et operateurs dont l'utilite mesuree est jugee assez elevee sont conserves. le concepteur principal de Prodigy a appele le probleme de l'utilite. e C'est une des raisons pour lesquelles il faut des millions d'exemples en apprentisage par renforcement pour apprendre le concept de (( fourchette )) aux echecs. 6. ce qui sans ^tre negligeable. D'un autre c^te. Dans ces cas la. est toutefois etonnament faible quand e on pense que le fait d'avoir un facteur de branchement (nombre de choix disponibles a chaque n ud) reduit (gr^ce aux regles de contr^le) devrait permettre un gain exponentiel. mais il existe depuis longtemps des travaux de re exion sur les changements de representation et les reformulations des connaissances en intelligence arti cielle.2. Nous renvoyons le lecteur interesse a l'abondante litterature portant sur l'apprentissage EBL. Les techniques telles que l'EBL ont donc leurs beaux jours devant elles. quand quelques exemples su sent avec une representation en logique des predicats et un apprentissage a partir d'explications.

Cela neglige le fait qu'il n'y a pas.com) . de maniere similaire a ce qui a ete discute dans la section 6. renvoyant en particulier le lecteur interesse a la synthese tres informee de Jean-Daniel Zucker Zuc01].27 Octobre 2009 à 09:30 . Il s'agit la d'un vaste champ de recherche qui reste encore largement a explorer. L'abstraction est souvent consideree comme un changement de granularite ou de niveau de detail d'une representation. La gure 6.-D. Zucker distingue trois types de changements de representation : l'abstraction : un changement de representation.4. on sait qu'une bonne representation peut rendre triviale la recherche d'une solution. Ainsi se trouvent elimines les (( details )) super us. simpli e la resolution du probleme courant la reformulation : une modi cation du formalisme de representation tout en conservant les m^mes informations e l'approximation : une simpli cation des inferences.2 sur l'EBL. generalement. de telle maniere que ne soient distingues dans la nouvelle representation que les elements qui doivent l'^tre pour la resolution e du probleme courant. de hierarchie toute faite de niveaux de details. dans la m^me representation. Depuis les travaux pionniers d'Amarel en 1968 a Ama68]. qui en cachant e des details et en preservant des proprietes desirables. Une autre approche est de considerer l'abstraction comme un probleme pour lequel des operateurs de changement de representation sont disponibles et dont on cherche une solution sous forme de sequence de tels operateurs. Il s'agit de (( construire )) une description de haut niveau pertinente pour le contexte et la t^che. Ce document est la propriété exclusive de nona nina (ninasbalka@gmail.202 PARTIE 2 : Apprentissage par exploration. La carte nalement produite resulte du choix de nombreux operateurs. J. a n de e simpli er la resolution. Pour cela plusieurs voies sont possibles. L'etude de l'abstraction est certainement etroitement liee a celle de l'apprentissage. tiree de Zuc01] illustre ce point de vue en schematisant la t^che a du geographe qui doit representer sur une carte les elements d'un paysage photographie par satellite. La plus etudiee en intelligence a arti cielle consiste a considerer le processus d'abstraction comme celui d'une projection d'une representation dans une autre modulo une relation d'equivalence. dans un m^me formalisme. L'idee generale des changements de representation est de trouver une representation permettant une resolution simple de la t^che courante. On peut alors envisager d'apprendre automatiquement les conditions d'application de chaque operateur.

000 Quelle transformation appliquer ? Modification géométrique ? Focalisatio n? Arrêt du processus ? + Fig.21).Chapitre 6 Reformulation et transfert de connaissances Image aérienne BD Géographique Réduction et symbolisation Stéréo plotting Généralisation cartographique 1/25. Cette notion est dependante de la t^che : deux situations peuvent ^tre soit a e tres similaires. Dans sa version la plus fruste.4 Changement de repere et raisonnement par analogie L'induction suppose connu un echantillon S = f(xi f (xi ))gi=1::m a partir duquel on induit une fonction h aussi proche de f que possible permettant la prediction d'une reponse en tout point de l'espace X . il peut ^tre interessant d'emprunter la solution connue d'un probleme x0 (( proche )) de e x. p. Lorsque de plus. on parlera e souvent de similarite. Le raisonnement par analogie suppose beaucoup moins : de la connaissance d'un couple (x f (x)). il peut faire appel a plusieurs operateurs applicables en sequence.27 Octobre 2009 à 09:30 203 Cartes 1/100.5). voire impossible.4 { En haut est schematise le travail du cartographe : comment traduire une photo aerienne en carte? En bas. de trouver une solution pour le probleme x 2 X . en l'absence de plus de donnees. 6.com) . il cherche a predire la reponse en un point x0 6= x (voir gure 6. Evidemment. 6. L'une des t^ches a d'apprentissage consiste a apprendre quand appliquer chacun de ces operateurs. Toute la question devient alors de caracteriser la notion de proximite.000 Ce document est la propriété exclusive de nona nina (ninasbalka@gmail. le probleme x0 dont on s'inspire n'appartient pas au m^me domaine de connaissance. cela n'est possible que si l'on conna^t des proprietes utiles sur l'espace X F . Un caillou et mon Psion peuvent tous . le raisonnement par analogie opere comme la methode par plus proches voisins : lorsqu'il est di cile. on voit que pour traduire le trace d'une route par exemple. soit tres di erentes en fonction du contexte. (Tire de Zuc01].

sans chercher a determiner celle-ci directement par induction. Pour cette t^che. e Les modeles de raisonnement par analogie ont surtout ete etudies dans le cadre de recherches sur la cognition humaine. Lorsqu'une ou des theorie(s) de domaine permet(tent) de redecrire les situations. Je me garderai cependant bien d'utiliser a l'un et l'autre indi eremment lorsque je veux prendre des notes dans un seminaire. Vapnik Vap95] parle de transduction lorsque l'on cherche a predire la valeur en un point x0 d'une fonction inconnue. On peut plut^t l'envisager comme la recherche du canal de transmission le plus economique o entre une description de situation et une autre. . Celles-ci presentent certaines particularites notables. de connaissances et de d'inferences. mais qu'il y ait pour chaque situation une fonction de nie localement. e Nous recommandons a ce sujet la lecture des ouvrages de Hofstadter. Il reste encore beaucoup a faire pour comprendre pleinement ces types de raisonnements m^lant divers types de representations. l'analogie consiste a trouver la reponse a une question x0 connaissant un couple (x f (x)). les deux servir de presse-papier pour emp^cher des feuilles de s'envoler pendant que je telephone e a mon coauteur. En ceci elle aide deja a la solution d'un probleme donne par la focalisation sur les descriptions pertinentes. D'autres types de raisonnements permettant le transfert de connaissances entre domaines ont ete egalement abordes. Si l'analogie entre deux situations fait souvent intervenir la recherche de (( points communs )) entre elles.27 Octobre 2009 à 09:30 et en x.204 x PARTIE 2 : Apprentissage par exploration. elle n'est cependant pas equivalente a un processus de generalisation. Cette vision ne prend pas en compte la possibilite qu'il ne faut pas chercher une fonction unique s'appliquant dans tout l'espace des situations. 6. dont Hof95].com) . Il suppose cependant l'existence d'une telle fonction s'appliquant uniformement dans X . Contrairement a une distance. ils sont similaires. Nous verrons au chapitre 15 comment se traduit la notion de proximite dans un espace decrit par des attributs numeriques. et qu'il faut (( deformer )) (minimalement) pour pouvoir l'appliquer en un autre point 5. la notion de proximite mise en jeu dans l'analogie n'est pas symetrique. La fonction produisant la reponse peut ^tre di erente en x0 e Ce document est la propriété exclusive de nona nina (ninasbalka@gmail. Cette recherche met en avant des primitives ou des structures de description potentiellement interessantes parmi toutes les primitives et structures envisageables. 5. x’ f y ? ft y’= ? Fig.5 { Schematiquement. On parle alors vraiment d'analogies. Les mathematiciens seront tentes d'y reconna^tre la notion de covariance sur des varietes di erentielles. et corollairement ce qui est transporte d'une situation a l'autre n'est pas forcement la m^me chose dans un sens et dans l'autre. la notion de similarite doit faire intervenir des proprietes des redescriptions possibles et des theories qu'elles mettent en jeu. par exemple le blending FT98] ou l'e et tunnel cognitif CTC00].

C'est la aussi la source des di cultes de leur application. l'abstraction.27 Octobre 2009 à 09:30 Resume Des que l'on aborde des domaines complexes. par exemple a l'aide de macro-operateurs ou d'heuristiques de contr^le que rend possible l'apprentissage a partir d'explications. pour des raisons a la fois historiques (en particulier l'irruption du connexionnisme dans les annees quatre-vingt). Ce n'est pas parce que les auteurs les considerent comme negligeables. o en facilitant le transfert de connaissances et de solutions entre domaines.Chapitre 6 Reformulation et transfert de connaissances 205 6. en apprenant des connaissances permettant une exploration plus e cace des hypotheses. ( ) l'etude des methodes telles que l'apprentissage a partir d'explications. a fortement marque le pas ces dernieres annees. . Il ne fait cependant nul doute que dans dix ans un ouvrage sur l'apprentissage y consacrera une bien plus large place. Toutes ces techniques requierent une ou des theories du domaine fortes. or les systemes a base de connaissances demandent des developpements a beaucoup plus long terme) et economiques (il y a deja fort a faire avec l'exploration preliminaire de bases de connaissances ( nues ) telles que les bases de donnees genomiques ou les bases de donnees des entreprises).5 Bilan Cet ouvrage fait une place reduite aux apprentissages mettant en uvre beaucoup de connaissances ou des theories du domaine. scienti ques (il est tellement plus facile de faire des theoremes dans des espaces numeriques). Ce document est la propriété exclusive de nona nina (ninasbalka@gmail. l'analogie.com) . etc. par exemple en utilisant des raisonnements comme l'analogie. institutionnelles (le quantum d'action en science est souvent celui d'un travail de these. il faut faciliter les raisonnements et l'apprentissage : en contr^lant l'expression de l'espace des hypotheses. par exemple en realisant o des abstractions. Cependant. Au contraire. notre conviction est que l'apprentissage arti ciel ne pourra faire l'economie de l'etude des apprentissages utilisant des connaissances. C'est de la qu'elles tirent une grande puissance en permettant l'apprentissage a partir de peu de donnees.

Ce document est la propriété exclusive de nona nina (ninasbalka@gmail.com) .27 Octobre 2009 à 09:30 206 PARTIE 2 : Apprentissage par exploration. .

et un echantillon negatif (eventuellement vide). en particulier aux grammaires algebriques. De plus. ensemble ni de sequences n'appartenant pas au langage.com) . elle est l'objet de e nombreuses applications. un echantillon positif. en general in ni. C'est en e et dans ce cadre qu'ont ete menes la plupart des travaux jusqu'a ce jour. . c'est-a-dire a l'apprentissage des automates nis. On se place ici dans le cas d'un apprentissage de concept : l'ensemble d'exemples est donc forme de deux parties. Nous exposerons ensuite quelques extensions. Le probleme est d'extraire. La decision de l'appartenance d'une phrase inconnue a une grammaire est realisee par un algorithme d'analyse syntaxique. dont le r^le est de rendre une reponse binaire o a la question : (( telle sequence de symboles appartient-elle au langage engendre par telle grammaire? )) L'inference grammaticale a ete etudiee depuis le developpement (simultane) de la theorie des grammaires formelles et de l'intelligence arti cielle.27 Octobre 2009 à 09:30 Ce chapitre traite de l'apprentissage inductif de grammaires et d'automates a partir d'exemples.Chapitre 7 L'inference grammaticale Ce document est la propriété exclusive de nona nina (ninasbalka@gmail. a partir d'exemples (et eventuellement de contre-exemples). Cette discipline o re un grand inter^t theorique aux chercheurs en apprentissage. une grammaire capable d'engendrer un langage. c'est-a-dire un ensemble de sequences. sous-ensemble ni du langage de la grammaire que l'on cherche a apprendre. Nous consacrerons principalement ce chapitre a l'inference reguliere.

Mais comme ils n'ont pas la possibilite de se mettre d'accord.1 presente l'exemple de la strategie naturelle qui consiste a se deplacer (sortir de la cage) chaque jour quelle que soit l'action e ectuee la 1. le resultat n'est pas nalement le meilleur pour eux. La seconde est que CN conna^t la famille de la strategie que CB applique. chacun aurait plus a manger. trois pour chacun. Une fois qu'il l'aura induite du comportement de son adversaire. C'est le gardien qui va ^tre surpris. pour deux raisons.com) . e zoo vient d'acquerir deux cygnes. Que vont faire les cygnes? Le tableau suivant montre le resume de e la situation : le cygne noir est note CN et le blanc CB . C'est en e et ce que l'on observe la plupart du temps : confrontes a des situations de ce type 1 . Un jour sur quatre. Nous allons faire deux hypotheses. il lui sera facile de la dejouer et de manger plus. Le paradoxe apparent de la situation vient de ce que s'ils restaient tous deux dans leur cage.208 L Ce document est la propriété exclusive de nona nina (ninasbalka@gmail. il fait la m^me a e chose en echangeant les oiseaux. Ce probleme est souvent presente par une autre metaphore : le dilemme des prisonniers ( Axe97. si son camarade fait aussi le voyage. Faut-il attendre et esperer que l'autre animal a fait de m^me pour e recevoir les trois rations? Faut-il essayer d'en avoir cinq. ce qui penalise les deux? Le gardien a de bonnes raisons d'^tre optimiste. decide de les conditionner de la maniere suivante. ou ce dernier a la bonne surprise de trouver non pas trois. nous allons voir comment des cygnes doues de capacites a vrai dire rares dans cette espece peuvent mieux pro ter de la situation. La premiere est que cela m'assure de manger au moins deux rations et demi. Un jour sur quatre. Qui plus est. Le mieux est de representer cela graphiquement. il aura peut-^tre trois rations. il faut dresser les oiseaux. pense-t-il. Cependant. cela fera une attraction dans l'etablissement : e a une heure dite. Un jour sur quatre. La porte s'ouvre. Chaque jour. il va essayer d'apprendre aux a o cygnes a venir se servir eux-m^mes. Gir00]). Quelques semaines de conditionnement. il leur apporte trois rations chacun dans leur cage. Il sait aussi que s'il fait seul l'e ort de se deplacer. mais cinq rations de p^tee. e cinq rations seront peut-^tre pour lui. comme d'habitude. et l'experience est pr^te. le gardien CN CN CN CN et CB se deplacent tous les deux se deplace et CB ne se deplace pas ne se deplace pas et C B se deplace et CB ne se deplacent ni l'un ni l'autre CN CN CN CN et CB ont chacun 2. Il va donc l'apprendre au l des jours. il decide de se simpli er la t^che : plut^t que de transporter les rations. . au risque que l'autre cherche aussi a manger plus. il emmene les deux qui ont alors droit a deux rations et demi chacun. deux sujets choisissent la securite. Comme il a deja a s'occupper des ornithorynques et des rhinolophes. seul ou a deux. Del92. Avant de proposer le numero.5 rations a 5 rations et CB n'a rien n'a rien et CB a 5 rations et CB ont chacun 3 rations Chacun des cygnes a maintenant appris que s'il reste sur place. qui a de bonnes lectures. La seconde est que l'autre cygne va probablement penser comme moi et se deplacer aussi : il ne faut donc pas que je reste dans ma cage )). il laisse l'un des oiseaux dans sa cage sans rien lui donner et emmene l'autre a sa cabane. un noir et un blanc. Et chaque jour. La gure 7. La premiere est que CB possede une strategie qui permet chaque jour de prendre une decision en fonction de ce qui s'est passe les jours precedents. e Commencons par CB pour presenter dans quelle famille de strategies il se place. chaque cygne va e raisonner comme suit : (( je dois me deplacer.27 Octobre 2009 à 09:30 transporte de sa cabane a leur cage six rations de farines animales. selon ce que fera l'autre. il n'y e en aura que deux et demi pour chacun. La di culte vient de ce qu'aucun des deux cygnes ne sait ce que va faire l'autre. mais qu'il ne sait pas exactement laquelle. la porte s'ouvrira et les deux animaux quitteront leur cage pour se diriger vers leur repas. e peut-^tre aucune. Le reste du temps. Maintenant. Le gardien.

En realite.com) . qui s'est installe la veille dans un certain (( etat )) (un cercle du diagramme) emprunte au jour j l'arc qui porte l'action faite la veille par son adversaire et se retrouve dans un nouvel (( etat )).27 Octobre 2009 à 09:30 Fig. je pense qu'il va rester aujourd'hui et donc je sors )).2 et le tableau ci-dessous. L'hypothese de CB est ici est que si CN est sorti un jour. il peut decider de rester tous les jours dans sa cage. C'est sur cette analyse que compte le gardien. 7. tenir compte de ce que son partenaire CN a fait les jours precedents. CB s'y trouve. CB va emprunter un des deux arcs pour prendre sa decision : evidemment celle de sortir. Chaque jour. 2. Mais le cygne blanc peut aussi vraiment CN reste CN sort CB sort 209 Ce document est la propriété exclusive de nona nina (ninasbalka@gmail. et quelle que soit l'action de CN la veille. sauf si la veille CN est sorti. Pour cela. quelle qu'ait ete l'action de mon adversaire la veille )). Cette strategie est decrite par la gure 7. Ce qui s'est passe au jour j .1 { La strategie triviale pour le cygne blanc CB : (( je sors tous les jours. . Il s'agit ici du dilemme itere du prisonnier. le diagramme n'a qu'un etat. Dans ce cas.2 { Une strategie un peu plus complexe pour le cygne blanc CB : (( Je reste tout les jours dans ma cage. c'est la seule information observable 2. Comme dans cette strategie CB sort tous les jours. Chaque jour. 1 CB est reste et CN est sorti CB est reste et CN est reste CB est sorti et CN est sorti CB est sorti et CN est reste La decision de CB au jour j CB sort CB reste CB reste CB reste CN reste CB reste CN sort CN sort CN reste CB sort Fig. CB . il va rester tranquille le lendemain. sauf si mon adversaire est sorti hier. 7.Chapitre 7 L'inference grammaticale veille par CN . Par exemple. la decision consiste pour CB a se souvenir de ce que CN a fait la veille et a agir en consequence.

la sequence des actions e ectuee par le cygne noir les huit jours precedents conduit le cygne blanc (en suivant les eches marquees dans le graphe) dans l'etat en forme de rectangle. Le premier jour. comme les trois presentees ci-dessus. si son adversaire reste dans la cage. quelle que soit l'action du cygne noir le huitieme.1 { La sequence des actions journalieres de CB selon sa strategie. nous supposons donc que la strategie du cygne blanc s'ecrit sous la forme graphique dont nous avons deja donne deux exemples. Par contre.210 D'une maniere generale. le cygne blanc restera dans sa cage : il sera soit dans l'etat en forme de cercle.27 Octobre 2009 à 09:30 Fig. Comment CB utiliset-il ce dessin pour agir en fonction de ce qu'a fait l'adversaire les jours precedents? Appelons ( etats ) les trois n uds du graphe : l'un est en forme de cercle. donc chaque strategie. e Nous avons admis que le cygne blanc possedait une strategie dans la famille de celles que l'on peut representer par un automate ni.3 { La strategie du cygne blanc. mais la decision sera la m^me. jour action de CB action de CN 1 sortir sortir 2 sortir rester 3 rester sortir 4 sortir sortir 5 sortir rester 6 rester rester 7 rester rester 8 rester sortir 9 rester Tab. Ce genre de modele s'appelle un automate ni. la strategie passera dans l'etat rectangle. correspond a la description pour le cygne blanc du concept (( aujourd'hui. en fonction des couples d'actions commises par les deux animaux dans les jours precedents. le cygne blanc restera dans sa cage. il se deplacera encore. Il va donc sortir vers la cabane du gardien et observer ce que fait le cygne noir. Chaque automate ni. l'autre de carre et le dernier ( ) de losange. soit dans celui en forme de losange. 7. En e et. Le lendemain. la sequence donnee dans le tableau ci-dessus est conforme a la strategie du cygne blanc. 7. ce qui impose que le lendemain. le cygne blanc place sa strategie dans l'etat cercle.com) . Dans chacun est inscrite la decision a prendre. On a vu que cela . qui est marque (( CB reste )).3. CN sort CB sort CN reste CN sort CB reste CN reste CN sort CN reste CB sort Ce document est la propriété exclusive de nona nina (ninasbalka@gmail. je sors )) et de sa negation (( aujourd'hui je reste )). D'ou la decision prise par CB : rester. Supposons que la strategie utilisee par CB soit celle de la gure 7. Sur une duree un peu plus longue. qui ne depend que de ce que CN a fait les jours precedents. Si celui-ci se deplace. la strategie du cygne blanc reste dans le m^me etat : le e lendemain. le neuvieme jour. neuvieme jour.

3 a une description formelle de l'inference reguliere. Elle est vue comme un probleme de recherche explicite dans l'espace des hypotheses de generalisation de l'echantillon positif. l'inference grammaticale : est-il possible d'apprendre un concept represente sous la forme d'un automate ni quand on conna^t des exemples de sequences conformes au concept et d'autres non couvertes par ce concept? La reponse est globalement positive. de ni par Gold Gol67b. L'apprentissage de la strategie de l'adversaire par inference grammaticale lui a donc ete pro table. Le second point provient de la theorie des jeux (le cygne noir est particulierement savant). un jour sur deux. l'ensemble d'apprentissage est constitue des huit exemples et contre-exemples donnes ci-dessous dans le tableau 7. Sans detailler le cas general. deduite de celle de l'adversaire. mais il possede des facultes d'apprentissage qui vont lui permettre de dejouer celle de l'adversaire.2. e Le plan de ce chapitre Nous presentons a la section 7. la strategie de CB lui aurait dicte de faire de m^me et CN n'aurait eu que deux rations et demi par jour. Nous presentons en particulier le critere d'identi cation exacte d'un langage.. On a abrege (( CN sort )) en s et (( CN reste )) en r. rester.1 les notions de base qui nous permettent de de nir l'espace des solutions possibles de l'inference grammaticale reguliere. Nous introduisons aussi la notion de completude structurelle d'un echantillon relativement a un automate ni. il va apprendre quelle est la strategie du cygne blanc. la meilleure reponse du cygne noir a la strategie du cygne blanc est ici la suivante : rester dans la cage deux fois. Il n'a pas de strategie a priori. Il n'aura plus ensuite qu'a prendre la meilleure tactique. puisque s'il avait quitte sa cage chaque jour.27 Octobre 2009 à 09:30 211 Sequence des actions de CN Action de CB (premier jour) sortir s sortir s r s sortir s r s s sortir s r rester s r s s r rester s r s s r r rester s r s s r r r rester s r s s r r r r rester Tab. si on a la connaissance d'une strategie adverse sous forme d'automate ni. Nous consacrons la section 7. Un calcul simple montre que la quantite de rations que le cygne noir avale par jour tend rapidement vers 4. on peut en deduire la meilleure contre-strategie. sortir. Ce document est la propriété exclusive de nona nina (ninasbalka@gmail. en observant ses reactions quotidiennes. L'inference grammaticale est l'un des domaines de l'apprentissage automatique symbolique pour lequel la caracterisation et l'evaluation d'une methode ont ete le plus formalisees. Il se trouve que. Le premier point est le sujet de ce chapitre. Gol78b].com) . Placons-nous maintenant du point de vue du cygne noir. quel automate il utilise. l'espace de recherche a explorer est un ensemble d'automates structure construit sur l'echantilon positif.. puis alterner : rester. Compte tenu d'une limitation raisonnable des possibilites de generalisation. 7. un biais d'apprentissage qui assure d'une certaine maniere que cet echantillon est representatif de l'automate. comme on le verra.2 { L'ensemble des sequences d'apprentissage qui permet a CN d'apprendre la strategie de CB . la moyenne entre 3 et 5.Chapitre 7 L'inference grammaticale permet d'utiliser les actions passees de l'adversaire. Et comment? D'abord. . Dans ce cas. sortir.

La derniere section abordera certaines extensions et problemes ouverts de ce domaine.com) . Nous de nirons pour cela la notion d'ensemble frontiere (section 7.212 PARTIE 2 : Apprentissage par exploration. Mic90. l'inference peut ^tre plus precise et on e peut en particulier chercher a construire le plus petit automate compatible (coherent) avec les echantillons positif et negatif. appele alphabet et les lettres a b c ::: les elements de : On note . qui est a l'heure actuelle une veritable mine theorique et pratique pour les chercheurs. La section suivante traitera plus brievement du probleme de l'inference de grammaires algebriques. grammaires. De nition 7.1). c'est-a-dire des cha^nes ou phrases 3 de longueur denombrable sur . Ce document est la propriété exclusive de nona nina (ninasbalka@gmail. automates et partitions un ensemble ni. soit parce qu'ils n'identient pas avec certitude n'importe quel langage d'une classe de nie. Si on dispose egalement d'un echantillon negatif.3 . Nous presenterons ensuite quelques methodes d'inference.1 7. Un langage L est un sous-ensemble quelconque de lettres de . Ang82a.5.2 De nition 7. Soit u v w x des elements de u est un pre xe de v s'il existe w tel que uw = v. un probleme encore mal ma^trise. 3. Nous presentons a la section 7.1 De nitions et notations Notions de base De nition 7. D'autres d'algorithmes sont quali es ici d'heuristiques.1. Les elements de L sont des sequences de . Certains sont constructifs ou caracterisables au sens ou ils sont capables d'identi er avec certitude n'importe quel langage appartenant a une classe de nie (un sous-ensemble strict de langages reguliers de ni de maniere constructive). soit parce qu'il n'existe pas de caracterisation de la classe de langages qu'ils peuvent identi er.27 Octobre 2009 à 09:30 Notations utiles pour le chapitre Un alphabet (ensemble ni) Le mot vide L'ensemble de tous les mots sur + sauf le mot vide n Tous les mots sur de longueur inferieure ou egale a n 7.5. La plupart de ces algorithmes sont decrits dans les articles de synthese BF72a. On note la cha^ne vide de longueur nulle et juj la longueur de la cha^ne u.1 Langages. donc des cha^nes. Certains algorithmes d'inference reguliere n'utilisent que des echantillons positifs. Nous etudions le cadre formel de ce probleme a la section 7. Ces algorithmes utilisent un biais d'apprentissage heuristique pour guider la generalisation e ectuee a partir des donnees.4 quelques algorithmes constructifs ou heuristiques qui utilisent ce type de donnees. De nombreux algorithmes d'inference ont ete proposes. On dit aussi mots ou sequences. On y verra quelques exemples d'algorithmes heuristiques. Gre94a].

aaabbb S .! v0) 2 P La grammaire G derive v en k etapes de u si et seulement s'il existe k 1 et une suite (v0 : : : vk ) de mots de V + tels que : u = v0 v = vk vi se recrit en vi+1 pour 0 i k .! )g peut ainsi s'ecrire : Elle engendre le langage fan bn j n 0g.! aSb j 4.com) . aaSbb. Ce document est la propriété exclusive de nona nina (ninasbalka@gmail. e e La grammaire de nie par N = fS g.Chapitre 7 L'inference grammaticale Grammaires Une grammaire est un objet mathematique auquel est associe un processus algorithmique permettant d'engendrer un langage. On note : V = N .5 Deux exemples Quand il n'y a pas d'ambigu te. avec 2 V et 2 V N + V . Etant donne un alphabet V . ou que la grammaire G derive v de u en une etape si et seulement si on peut ecrire u et v sous la forme : u = xu0 y (avec eventuellement x = ou y = ) v = xv0 y avec : (u0 .! aSb et une de la regle S . soit : S . On le note L(G). De nition 7. aaaSbbb.! aSb) (S .! . ce qui signi e que comporte au moins un symbole non-terminal. En e et. Generation d'un langage par une grammaire Soit u 2 V + et 4 v 2 V . aSb. la sequence u : : : vi : : : v s'appelle une derivation de v par u. . est l'alphabet terminal de G. sur un exemple. disjoint de N . R (V N +V V ) est un ensemble ni de regles de production. 213 Une grammaire est un quadruplet G = (N P S ) dans lequel : N est un alphabet composant l'ensemble des symboles non-terminaux de G. Pour k 1. On dit qu'un mot v 2 est engendre par la grammaire G quand il peut se deriver a partir de l'axiome S de G. S 2 N est l'axiome de G. 1 La grammaire G derive v de u s'il existe un entier k tel que u derive v en k etapes. V designe l'ensemble de tous les mots sur V .! . alors que V + exclut le mot vide.27 Octobre 2009 à 09:30 De nition 7. son axiome S derive le mot aaabbb en quatre etapes : trois applications de la regle S .4 Une regle de production s'ecrit . Le langage engendre par la grammaire G est l'ensemble des mots de engendres par G. On dit que u se reecrit en v selon la grammaire G. on simpli e la notation d'une grammaire en ne representant que ses regles et en mettant toutes celles de m^me partie gauche sur la m^me ligne. = fa b cg et P = f(S .

! wB ou A . mais 1.4. c'est-a-dire une application de Q ! 2Q.! a4 j b1 2 . Nous allons maintenant les de nir rigoureusement. 7. = fa bg et P = f(1 . Deux types de grammaires 1 . A 2 N et B 2 N Un langage pouvant ^tre engendre par une grammaire reguliere (resp : algebrique) est appele e langage regulier (resp : langage algebrique). avec A 2 N et 2 V Type 3 : grammaires regulieres : A . La grammaire de nie par N = f1 2 3 4g.! a1) (2 .! b3) (1 .! w. est une fonction de transition.27 Octobre 2009 à 09:30 1 Fig. Ils sont d'un emploi beaucoup plus facile.! a3) (4 . Un automate ni est un quintuplet (Q q0 F ) ou Q est un ensemble ni d'etats. Les phrases qu'elle accepte sont composees d'un nombre pair de a et pair de b. 6. est un alphabet ni.! a1 j b4 4 . Un resultat classique de la theorie des langages est le suivant ( AU72]): Tout langage regulier peut ^tre engendre par un automate ni.! b1) (4 .! a2 j b3 j 3 . 5.214 PARTIE 2 : Apprentissage par exploration.1 Les automates nis De nition 7.! .! a3 j b2 Selon la forme de leur regles . Tout automate ni engendre un e langage regulier.! a4) (3 . les automates nis sont equivalents aux grammaires regulieres.! b4) (3 .! a2) (1 . on distingue les grammaires suivantes : Type 2 : grammaires algebriques 6 : A .com) .6 Comme l'assure le theoreme precedent.! . avec w 2 .! b2)g est exactement equivalente a l'automate ni de la gure 7. Les grammaires algebriques sont aussi appelees context-free ou hors-contexte.! ) (2 . Elle s'ecrit plus simplement 5 : b 2 b 4 b b 3 a a a a Ce document est la propriété exclusive de nona nina (ninasbalka@gmail. Theoreme 7. . L'axiome n'est pas note ici S .4 { Un automate ni acceptant les phrases composees d'un nombre pair de a et pair de b.

5. De nition 7. Les l + 1 etats sont dits atteints pour cette acceptation et l'etat ql est utilise comme etat d'acceptation.5 { Une representation de l'automate A1 . de nit une sequence. Par la suite.com) . Il s'agit ici d'un AFN (automate non deterministe) car il y a deux arcs etiquetes a a partir de l'etat 0 et deux etats initiaux. (0 a) = f1 2g: Une acceptation d'une cha^ne u = a1 : : : al par un automate A.4 est un AFD. pour 0 i l .7 Ce document est la propriété exclusive de nona nina (ninasbalka@gmail. 1. 7. = fa bg: Les etats initiaux sont 0 et 5.8 Par exemple.2 .27 Octobre 2009 à 09:30 L'automate ni de la gure 7. 215 De nition 7. les l transitions. Nous ne de nissons pas formellement ici ce terme. de l + 1 etats (q0 : : : ql ) telle que q0 2 Q0 . F = f3 4g: a 0 a a b 2 a 5 b 4 b 1 3 Fig. De plus. Si. sont dites exercees par cette acceptation.Chapitre 7 L'inference grammaticale Q0 2 Q est le sous-ensemble des etats initiaux et F 2 Q est le sous-ensemble des etats naux ou d'acceptation. Il comporte cinq etats. Le langage L(A) accepte par un automate A est l'ensemble des cha^nes acceptees par A. Le langage L est accepte par un automate A si et seulement si il peut ^te engendre par une grame maire reguliere. De facon similaire. un langage regulier peut ^tre represente par une expression reguliere 7 e 7. eventuellement non-deterministe. (q a) contient au plus un element (respectivement exactement un element) et si Q0 ne possede qu'un element q0 . Q = f0 1 2 3 4g: Il est de ni sur l'alphabet a deux lettres. pour tout q de Q et tout a de .9 Theoreme 7. nous utiliserons l'abreviation AFD pour (( automate ni deterministe )) et AFN pour un (( automate ni non-deterministe )). Langage accepte par un automate ni De nition 7. Un autre exemple d'automate ni est represente a la gure 7. la sequence des etats (0 1 3) correspond a une acceptation de la cha^ne aab dans l'automate A1 . En d'autres termes. ql 2 F et qi+1 2 (qi ai+1 ). eventuellement non unique. l'automate A est dit deterministe (respectivement complet). c'est-a-dire des elements de . Q0 = f0 5g et les etats 3 et 4 sont naux.

une partition est un ensemble de sous-ensembles de S non vides et disjoints deux a deux. est represente a la gure 7. Par la suite.5. A(L) est generalement appele automate deterministe minimal ou automate canonique de L On demontre que A(L) est unique AU72]. e De nition 7. De nition 7. ce qui correspond a l'expression reguliere L = a(aa) b(bb) : . Ce document est la propriété exclusive de nona nina (ninasbalka@gmail.7.6 { Automate canonique du langage de ni par l'expression reguliere L = a(aa) b(bb) . e 8. une partition j ssi tout bloc de j est un bloc de i ou est l'union de plusieurs blocs de i . Il n'existe pas d'automate deterministe comportant moins d'etats et acceptant ce langage. B (s ) designe l'unique element. Si s designe un element de S . dont l'union est S . Si A = (Q q0 F ) est un automate. ou bloc. l'automate A= = (Q0 aussi appele l'automate quotient A= .10 Pour tout langage regulier L. l'automate canonique represente a la gure 7. PARTIE 2 : Apprentissage par exploration. a 0 b 1 a b 2 b 3 Fig.11 Nous de nissons maintenant une relation d'ordre partiel sur l'ensemble des automates. Pour tout ensemble S . est de ni comme suit : Q0 = Q= = fB (q )jq 2 Qg. nous parlerons indi eremment de l'automate canonique ou de l'automate minimal deterministe de L. 2 = ff0 1g f2g f3 4gg: L'automate quotient A1 = 2 .5 et de nissons la partition de son ensemble d'etats.216 AU72].com) . 0 B (q0 ) F 0 ) derive de A relativement a la partition de Q.27 Octobre 2009 à 09:30 Par exemple. obtenu en fusionnant tous les etats appartenant a un m^me bloc de 2 . suivi d'un nombre impair de b 8 . Automates derives De nition 7. qui permettra un apprentissage par generalisation dans l'esprit de la methode de l'espace des versions. ou est plus ne que. Il s'agit du langage accepte egalement par l'automate A1 de la gure 7. Une partition i ra ne. 7.6 accepte le langage compose des phrases commencant par un nombre impair de a. de comprenant s. il existe un AFD note A(L) qui engendre L et possede un nombre minimal d'etats. 0 : Q0 ! 2Q0 : 8B B 0 2 Q0 8a 2 B 0 2 0 (B a) ssi 9q q0 2 Q q 2 B q0 2 B 0 et q0 2 (q a) Nous dirons que les etats de Q appartenant au m^me bloc B de la partition sont fusionnes. represente a la gure 7.12 Reprenons l'automate A1 . F 0 = fB 2 Q0jB \ F 6= g.

Chapitre 7 L'inference grammaticale 217 a b 0.7.1.27 Octobre 2009 à 09:30 Une propriete fondamentale de l'operation de fusion est la suivante : Si un automate A= j derive d'un automate A= i .5. alors que la phrase b est reconnue par A2 et pas par A4 . . En reprenant l'exemple A1 de la gure 7.8. alors le langage accepte par A= i est inclus dans celui accepte par A= j . 7.1 Par consequent. on a vu que le choix de la partition 2 = ff0 1g f2g f3 4gg permet de deriver l'automate quotient A2 = A1 = 2 . Elle permet de deriver un automate A3 . qui n'est ni moins ne ni plus ne que 2 .2 3. represente a la gure 7. la phrase abb est reconnue par A4 et pas par A2 .1 3. 0. Il existe sur cet ensemble une relation d'ordre partiel qui est coherente avec l'inclusion des langages que reconnaissent ces automates. on peut construire tous les automates derives de A en enumerant les partitions des etats de A. si on construit l'automate A4 ( gure 7.4 a b b 2 Fig. On sait donc que le langage reconnu par A2 inclut celui reconnu par A1 . on ne peut rien dire sur l'inclusion eventuelle des langages reconnus par A4 et A2 .4 La partition 3 est moins ne que 2 . Ce document est la propriété exclusive de nona nina (ninasbalka@gmail. en partant d'un automate A. Propriete 7. Par exemple.9) par derivation de A1 selon la partition 4 = ff0g f1 3g f2 4gg. 7. puisque ses blocs sont construits comme une union de blocs de 2 on peut donc assurer que l'automate A3 reconna^t un langage qui inclut celui reconnu par A2 .7 { L'automate quotient A1 = 2 . En revanche.com) . Prenons maintenant la partition 3 = ff0 1 2g f3 4gg. a b b Fig.8 { L'automate quotient A1 = 3 . On reconna^t ici la relation de generalite de l'espace des versions (voir le chapitre 4). represente a la gure 7.

com) .4 b Fig. Cet ensemble n'est pas un treillis au sens algebrique.9 { L'automate quotient A1 = 4 . Nous designons par I. l'automate universel. 10.13 Completude structurelle On de nit maintenant un biais d'apprentissage : on ne cherchera a inferer que des automates pour lesquels l'echantillon positif est d'une certaine maniere representatif (en termes techniques. Ce document est la propriété exclusive de nona nina (ninasbalka@gmail. l'Arbre Accepteur des Pre xes et l'Automate Universel 9.2 On retrouve donc ici la structure en treillis de l'espace des hypotheses. les notations I+ et I.3 a 0 a a 2. Propriete 7. De nition 7. appele echantillon negatif. l'echantillon I+ = faab ab abbbbbg est structurellement complet relativement a l'automate A1 : L'automate Canonique Maximal. b 1.27 Octobre 2009 à 09:30 L'ensemble des automates derives d'un automate A. . Tout element de F (l'ensemble des etats naux de A) soit utilise comme etat d'acceptation. en sont respectivement les elements minimal et maximal. L. Nous les employons donc dans ce chapitre a la place de S+ et S. qui est partiellement ordonne par la relation de derivation. s'il existe une acceptation AC (I+ A) de I+ telle que : Toute transition de A soit exercee.218 PARTIE 2 : Apprentissage par exploration. comme de nie au chapitre 4. mais l'usage a jusqu'ici fait prevaloir ce terme. appele echantillon positif. 7.1.2 Echantillons d'un langage et automates associes Nous designons 10 par I+ un sous-ensemble ni. On note ce treillis Lat(A). 7. Ce biais est conforme a un principe d'economie de type (( rasoir d'Occam )) ou principe MDL : il est inutile de rechercher des automates trop complexes. Un echantillon I+ est structurellement complet relativement a un automate A acceptant L. est un treillis 9. En inference grammaticale. De nition 7. sont des sous-ensembles nis et disjoints de . I+ et I.14 Par exemple. structurellement complet). Les automates A et UA. du langage complementaire . associee a une relation d'ordre de generalite. un sous-ensemble ni. d'un langage L quelconque. sont classiques.

MCA(I+ ) est generalement non-deterministe. PTA(I+ ) peut ^tre obtenu a partir du MCA(I+ ) en fusionnant les etats e partageant les m^mes pre xes.com) . L'abreviation PTA pour Pre x Tree Acceptor provient de la terminologie anglaise. 11. On designe par MCA(I+ ) = (Q 219 De nition 7. PTA(I+ ) est deterministe.Chapitre 7 L'inference grammaticale On a maintenant besoin de representer l'echantillon d'apprentissage dans l'univers des concepts.27 Octobre 2009 à 09:30 a 0 1 a b 2 b a 4 3 5 b 6 Fig. 7. 7. Le quali catif canonique se rapporte ici a un echantillon. Par construction.11 { L'arbre accepteur des pre xes PTA(I+ ). c'est-a-dire de de nir des automates qui ne reconnaissent que cet echantillon. L'automate represente a la gure 7.10). . Sa construction est facile a observer sur un exemple. L'abreviation MCA pour Maximal Canonical Automaton provient de la terminologie anglaise. Le MCA ne doit pas ^tre confondu avec l'automate canonique d'un e langage (voir def.11 est l'arbre accepteur des pre xes relatif a l'echantillon I+ = fa ab babg: a 0 1 b a 3 b 2 4 b 5 Fig.16 B (q I+ ) = B (q0 I+ ) ssi Pr(q) = Pr(q0 ). 12. Nous designons par PTA(I+ ) l'arbre accepteur des pre xes 12 de I+ Ang82a].10 est l'automate maximal canonique relatif a l'echantillon I+ = fa ab babg: Ce document est la propriété exclusive de nona nina (ninasbalka@gmail. L(MCA(I+ )) = I+ et MCA(I+ ) est le plus grand automate (l'automate ayant le plus grand nombre d'etats) pour lequel I+ est structurellement complet. Il s'agit de l'automate quotient MCA(I+ )= I+ ou la partition I+ est de nie comme suit : De nition 7. e A titre d'exemple. avec I+ = fa ab babg. l'automate represente a la gure 7.10 { L'automate maximal canonique de l'echantillon fa ab babg. En d'autres termes.15 q0 F ) l'automate maximal canonique 11 relatif a I+ Mic80a]. 7.

1). Nous designons par UA l'automate universel 13. Il s'agit donc du plus petit automate pour lequel tout echantillon de est structurellement complet.12.1 La speci cation d'un probleme d'inference grammaticale Si l'on veut de nir un cadre aussi general et productif que possible pour l'inference grammaticale.2. engendre un langage regulier (voir section 7. b a Ce document est la propriété exclusive de nona nina (ninasbalka@gmail. ou le langage des concepts. Un ensemble d'exemples. L'automate universel de ni sur l'alphabet = fa bg est represente a la gure 7. 13. un par un : : : La classe des methodes d'inference en consideration. pour chaque grammaire a inferer et un protocole de presentation de ces exemples. 14. c'est-a-dire L(UA) = . comme d'ailleurs pour tout probleme d'apprentissage inductif. L'abreviation UA pour Universal Automaton provient de la terminologie anglaise. il s'agit en general de l'espace des automates.17 PARTIE 2 : Apprentissage par exploration. Il s'agit en particulier du choix entre methodes constructives ou heuristiques (voir section 7. Pour les grammaires hors-contexte. c'est-a-dire l'ensemble des descriptions tel que chaque grammaire de la classe consideree possede au moins une description dans l'espace. Il accepte toutes les cha^nes de nies sur l'alphabet . ou grammaires hors-contextes. Rappelons qu'une grammaire reguliere. Comme on le verra en conclusion. de nis en section7.2 Les protocoles de l'inference : quelques resultats theoriques 7.27 Octobre 2009 à 09:30 0 Fig.12 { L'automate universel sur l'alphabet = fa bg. equivalente a un automate ni.4). Pour les grammaires regulieres.2.220 De nition 7. . 7.2. cinq points doivent ^tre e speci es : La classe de grammaires a inferer : grammaires regulieres 14 ou d'une de ses sous-classes.com) . l'espace de representation est en general directement celui de leurs regles. 7. Ce terme designe la facon dont les exemples sont presentes a l'algorithme d'apprentissage : tous a la fois. Les criteres d'une inference reussie. Une methode d'inference est alors un processus calculable qui lit des exemples conformement a un protocole et propose des solutions dans l'espace des hypotheses. L'espace des hypotheses. quelques autres familles de grammaires ont aussi ete etudiees.

Chapitre 7 L'inference grammaticale 221 7. La methode d'inference doit proposer une solution dans l'espace d'hypotheses apres chaque nouvel exemple lu. tel que : De nition 7. Soit h(Si ) l'hypothese proposee par la methode M apres avoir lu les i premiers exemples presentes.18 (presentation positive) Ce document est la propriété exclusive de nona nina (ninasbalka@gmail. Les elements d'une presentation negative sont appeles exemples negatifs ou contre-exemples. Une presentation complete d'un langage L est une sequence in nie de paires (x d). Une presentation positive d'un langage L est une sequence in nie de phrases de L comportant au moins une occurrence de chaque element de L. L comportant au moins une occurrence de chaque element de . En outre.20 (presentation complete) Le protocole d'identi cation a la limite est de ni comme suit. Pour chaque (x d).2. il existe un indice ni j . la seconde qu'elle converge vers une representation unique de la solution correcte. . La premiere condition impose que la methode converge a partir d'un indice ni. d = 1 si et seulement si x appartient a L. pour tout i j . de f0 1g telle que chaque x de L appara^t dans au moins une paire.22 Ce protocole s'interesse donc a l'identi cation exacte d'un langage. La methode d'inference M identi e a la limite pour la classe de langages L pour une classe de presentation P si pour tout L de L et tout p de P . Pit89]. L. nous presentons dans ce paragraphe un protocole de presentation et un critere de reussite de nis conjointement : l'identi cation a la limite.21 h(Si ) = h(Sj ). De nition 7. Nous notons Si le sous-ensemble ni des i premiers elements de S selon un certain protocole.2 L'identi cation a la limite d'une grammaire Pour illustrer les notions ci-dessus et presenter un cadre theorique de reference. si M identi e a la limite n'importe quel langage L de la classe C pour n'importe quelle presentation d'exemples de L. De nition 7. proposee par Gold Gol67b]. L(h(Sj )) = L. tant sur la possibilite d'identi er ou non un langage que sur la complexite calculatoire de ce processus d'identi cation Gol78b. d = 0 sinon. Une presentation negative d'un langage L est une sequence in nie d'elements de .27 Octobre 2009 à 09:30 De nition 7.com) . Une methode d'inference M identi e a la limite une classe C de langages.19 (presentation negative) De nition 7. Soit M une methode d'inference et S = (x1 d1 ) (x2 d2 ) : : : une presentation complete d'exemples d'un langage L. De nombreux resultats decoulent de ce critere. Les elements d'une presentation positive sont appeles des exemples. ces travaux constituent une justi cation theorique de la necessite d'utiliser un echantillon negatif.

3 . La classe des langages reguliers 15 n'est pas identi able a la limite a partir d'une presentation positive. L'algorithme peut aussi proposer une sequence et l'oracle lui repond si oui ou non elle appartient au langage a identi er. L'automate est fabrique aleatoirement par le serveur. dont une variante est la suivante : a chaque etape. que nous avons aussi appele automate canonique d'un langage L(7.4 une methode qui apprend des grammaires algebriques a l'aide d'un oracle (aux reponses un peu di erentes). C'est un synonyme de (( coherent )). D'un point de vue pratique. 7. La validite de l'inference peut ^tre e bien s^r veri ee par un ensemble de test. l'algorithme d'inference calcule une grammaire hypothese et la propose a l'oracle. u Il existe par exemple un serveur Internet nomme abbadingo LP97] qui fonctionne ainsi : l'auteur d'un algorithme d'inference reguliere demande a ce serveur une session de test. On se contente d'observer des exemples et de calculer une grammaire qui les generalise. car on ne peut pas savoir si les sequences engendrees aleatoirement sont independantes. et sinon. Le resultat de Gold est plus general. Etant donne un langage L. Ce probleme est connu sous le nom de recherche du plus petit automate compatible 17 . Ce document est la propriété exclusive de nona nina (ninasbalka@gmail. Il a ete demontre que dans ce cadre. donne un contre-exemple a l'hypothese proposee. 16.3 Deux proprietes de l'identi cation a la limite.4). Ici encore.4 Autres protocoles pour l'inference de grammaires. l'identi cation des automates deterministes est possible avec un nombre de questions a l'oracle polynomial en fonction de la taille de l'automate a trouver et de la taille du plus long contre-exemple. La classe des langages reguliers et celle des langages algebriques 16 sont identi ables a la limite par presentation complete.4 PARTIE 2 : Apprentissage par exploration. compatible signi e simplement que itoutes les phrases de I+ sont acceptees (donc que l'automate est correct et complet (voir au chapitre 3) et toutes celles de I. ce qui permet a l'algorithme de calculer une nouvelle hypothese. Le premier est donne a l'utilisateur. 15. On verra au paragraphe 7. Gold a un resultat plus puissant. l'automate ni deterministe minimal A(L). Celui-ci repond (( oui )) si l'hypothese est la bonne. Il est a noter que la validite statistique de ce test n'est pas assuree ici. La richesse theorique des l'apprentissage des grammaires formelles se traduit en particulier par la variete des protocoles proposes et les resultats demontres dans ces protocoles. ainsi que deux echantillons d'apprentissage et de test. Theoreme 7. mais cette version su ra ici. (( densite )) de l'echantillon. Quelques parametres sont precises : nombre d'etats de l'automate canonique.2. rejetees.com) . on doit en general admettre que les protocoles de l'identi cation a la limite ou de l'intervention d'un oracle sont inutilisables.27 Octobre 2009 à 09:30 7. qui fait tourner son algorithme et renvoie une grammaire en reponse. 17.6. Citons par exemple la technique par oracle. Le serveur l'utilise pour analyser l'echantillon de test et retourne la matrice de confusion (voir au Chapitre 3 le paragraphe 3. On conna^t un theoreme (decevant) sur la recherche de l'automate ni (( optimal )).10).222 Propriete 7. identi er A(L) a partir d'exemples positifs et negatifs est un probleme NP -di cile.3 Propriete 7.2. taille de l'alphabet.

dans cette version. Le critere classiquement utilise pour mesurer la taille d'un DFA est le nombre de ses etats.2.1 Apprentissage PAC Le cadre PAC original propose par Valiant Val84c] a subi de nombreuses adaptations et extensions depuis sa creation BEHW89.2. en particulier 2 3 4. Valiant a formalise cette notion intuitive en creant le critere PAC : Probablement Approximativement Correct. Soit h un concept appris sur L. pour tout mot u de . Lorsque le temps d'apprentissage n'est pas pris en compte.23 (Identi cation PAC Pit89]) Soit M un DFA de taille 20 n.com) . Cette premiere version ne prend pas en compte la complexite temporelle et spatiale necessaire a l'inference. Nous presentons ici la version proposee par Pitt Pit89] qui est adaptee a l'inference de langages reguliers (plus particulierement. Nous rappellons ici une description informelle du modele PAC.5. Nous gardons ici provisoirement ( correct ) pour faire la transition avec l'apprentissage PAC . Soient et deux reels strictement positifs. Rappelons que ce concept a ete decrit au chapitre 2. 19. 18. Nous allons presenter d'autres resultats dans le cadre PAC (voir le chapitre 2). ce critere est trop permissif et considere que l'apprentissage d'algorithmes triviaux est satisfaisant. Dans les autres chapitres. Soit une distribution de probabilites D de nie sur les cha^nes de de taille au plus p. Nous allons donner maintenant la version formelle de l'apprentissage PAC polynomial (aussi appelee poly-PAC) comme l'a de ni Pitt Pit89]. Bien que tres contraignant 18 . Un algorithme d'apprentissage est correct (respectivement approximativement correct) si pour tout langage L de ni sur . 223 7. KV89]. On dit qu'un algorithme d'apprentissage est probablement approximativement correct si la probabilite qu'il apprenne un concept approximativement correct est grande. le concept qu'il apprend est correct (respectivement approximativement correct) pour L. Pitt considere que les langages reguliers sont representes par des automates nis deterministes (DFA)).27 Octobre 2009 à 09:30 7. KV89. . le mot (( coherent )) a ete employe.Chapitre 7 L'inference grammaticale C'est-a-dire qu'il n'existe vraisemblablement pas d'algorithme qui puisse resoudre ce probleme en un temps polynomial en fonction du nombre d'etats de A(L). On dira que h est approximativement correct si la probabilite qu'il classe mal un mot est (( petite )). par exemple). ce cadre est interessant car il possede des versions a aiblies dans lesquelles l'approximation des langages reguliers est possible polynomialement par presentation complete. ( ) 20. Ce cadre est contraignant dans le sens ou il impose des resultats quelle que soit la distribution de probabilites selon laquelle les exemples sont distribues. Mais cela n'emp^che pas de e chercher des heuristiques qui permettent de trouver en un temps raisonnable un automate de bonne qualite (au sens du protocole abbadingo. h arrive a dire si u appartient ou non a L. On dit que h est correct 19 pour L si.5 L'inference grammaticale et l'apprentissage PAC Nous avons vu dans la section precedente les resultats negatifs concernant l'identi cation a la limite proposee par Gold. Pit89. Hau88. puis nous en donnons une version adaptee a l'inference grammaticale. Ce document est la propriété exclusive de nona nina (ninasbalka@gmail. Soit L un langage de ni sur . De nition 7.

p. existe-t-il un DFA comportant au plus nk etats compatible avec les donnees. 7.5. puisque la taille des phrases est bornee par p. AFD. l'identi cation doit se faire pour toute presentation.2 Comparaison de l'apprentissage PAC et de l'identi cation a la limite Quelques points de comparaison entre ces deux methodes peuvent ^tre soulignes : e L'identi cation a la limite impose de retrouver exactement une representation du langage cible. et d'une borne sur la plus grande cha^ne. Le cadre PAC pour sa part se contente d'une approximation de la cible. avec n la taille du plus petit automate compatible. Il impose cependant que l'approximation soit garantie quelle que soit la distribution D alors que dans le cadre de l'identi cation a la limite. Le resultat qui va nous interesser principalement a ete demontre par Kearns et Valiant KV89] : ils ont prouve que la PAC -identi cation polynomiale.4 ( PW93]) . 21. Pitt et Warmutt ont montre que le probleme qui consiste a retrouver un automate polynomialement plus grand que le plus petit DFA compatible avec les donnees etait NP-di cile. En n. etc. 1 .2. quel que soit D. Ce document est la propriété exclusive de nona nina (ninasbalka@gmail.224 PARTIE 2 : Apprentissage par exploration. Le symbole designe la di erence symetrique de deux langages et j j est la taille de l'alphabet. j j = 2. 22. Un resultat supplementaire sur les automates nis permet de considerer ce cas comme raisonnable dans un contexte d'approximation : pour tout > 0. A produit un DFA M 0 en temps polynomial en n. 1 . quel que soit m. le critere de Valiant amene la notion de distribution de probabilites des exemples qui n'existait pas dans le critere de Gold.6 Resultats PAC pour les langages reguliers Il existe nombre de resultats negatifs concernant l'identi cation PAC. grammaire. L'identi cation a la limite ne pose aucune contrainte sur la complexite calculatoire des algorithmes alors que l'approximation PAC demande la polynomialite de l'inference en fonction de la precision. Soit l le nombre d'exemples obtenus par A. L'identi cation a la limite ne garantit d'aucune maniere la vitesse de convergence alors que l'approximation PAC impose que la precision de l'inference soit dependante de la quantite de donnees. l. L'apprentissage independant de la representation consiste a laisser a l'algorithme le choix de la representation : AFN . 7. Ils montrent de plus que la taille du vocabulaire prend part a la di culte de l'inference : Le probleme suivant est NP-di cile : etant donne une constante k et des exemples positifs et negatifs de nis sur un alphabet . X x2L(M ) L(M 0 ) PrD (x) < > 1 . quel que soit M . j j tel que 21 : Pr . Theoreme 7.27 Octobre 2009 à 09:30 On est ici dans le cas de l'apprentissage d'un concept sur un ensemble ni.2. A PAC -identi e les DFA si. independamment de la representation 22 de la classe des automates nis deterministes acycliques de taille est un probleme NP-di cile.com) . il existe un entier p tel que la probabilite qu'une cha^ne de longueur superieure a p soit tiree est inferieure a . de la tolerance imposee au resultat ainsi que de la taille de la cible et celle de . Soit un algorithme (eventuellement aleatoire) A qui prend en entree un ensemble de mots tires conformement a la distribution D et etiquetes correctement par M .

le lecteur pourra consulter LV97]. DDG96] a pour but de donner a l'algorithme d'apprentissage des exemples qui sont en adequation avec la cible. Plus formellement. ) log log n . etaient probablement exactement identi ables dans le modele PACS. 23. Ce peut ^tre fait soit en de nissant un professeur qui choisit les exemples en fonction de la cible.Chapitre 7 L'inference grammaticale Si l'on considere que la taille de l'alphabet n'est pas donnee mais fait partie du probleme. Deux idees qui vont dans ce sens ont ete proposees par Denis et al. il n'existe pas d'algorithme polynomial permettant de determiner s'il existe un automate compatible avec les donnees de taille n(1. La premiere approche se conforme au principe qui stipule que les exemples les plus simples doivent ^tre preferes. Nous allons presenter maintenant ces deux approches. 7. DDG96] d'une part et par Denis et Gilleron DG97] d'autre part. Par ailleurs. La faiblesse principale de ce cadre de travail est qu'il suppose la possibilite du calcul de la complexite de Kolmogorov (voir le chapitre 17). . Sa deuxieme faiblesse est la di culte d'interdire une collusion entre oracle et apprenant. Un autre professeur (( adversaire )) ou arbitre ajoute ensuite des exemples de son choix a l'ensemble d'apprentissage a n d'eviter une collusion complete entre l'enseignant et l'apprenant. certains des auteurs se sont tournes vers une approche plus realiste en pratique. Ce resultat est plus fort que la PACS-apprenabilite au sens ou l'identi cation de l'automate cible peut se faire avec une grande probabilite.5. si on note K ( jr) la complexite de Kolmogorov 23 du mot etant donne r. c'est-a-dire le codage de l'hypothese dissimule dans les exemples. Le systeme demeure cependant d'une certaine maniere potentiellement collusif.2. etant donne une cible r. C'est donc un cadre purement theorique. Il sera question en detail de cet algorithme au paragraphe 7. Resultats Denis et al.4. N connu et xe. Ils de nissent donc un professeur qui construit un ensemble d'apprentissage en fonction de la cible. DDG96] ont montre que dans ce modele les langages k-reversibles (voir au paragraphe 7. Conscients de ce probleme. Plus precisement. Le deuxieme point de vue propose que l'enseignant choisisse des e exemples a n de faciliter l'apprentissage. Parekh et Honavar PH97] ont montre que les DFA de taille N .4.27 Octobre 2009 à 09:30 Les principales variations du cadre PAC portent sur des restrictions sur la classe des distributions des exemples.com) . lorsque l'on se place dans le cadre PACS ayant pour critere de con ance . Le principe est de donner a l'algorithme de (( bons )) exemples. ils ont montre que l'echantillon caracteristique necessaire a l'identi cation a la limite de l'algorithme RPNI 24 etait present avec une probabilite superieure a 1 . soit e en imposant des contraintes sur la distribution de probabilites : l'algorithme est alors presque assure de travailler avec des donnees caracteristiques de la cible.1) etaient identi ables. on a : Quelle que soit la constante > 0. l'ensemble d'apprentissage r de ni pour un DFA r sera : Ssimple = f 2 : K ( jr) < log(jrj)g.5 ( PW93]) Ce document est la propriété exclusive de nona nina (ninasbalka@gmail. . 24. Pour une etude de la complexite de Kolmogorov. Dans ce modele. (c'est-a-dire les exemples simples) sont ceux qui ont une complexite de Kolmogorov etant donne r faible.7 Apprentissage PACS : PAC Simple Le modele PACS (PAC Simple) propose par Denis et al. ou est une constante. 225 Theoreme 7. les exemples donnes a l'algorithme d'apprentissage.

Nous revenons maintenant a un protocole de presentation tout a fait classique : l'algorithme d'apprentissage dispose de l'ensemble des exemples positifs et negatifs et tout renseignement supplementaire par un oracle est interdit. Informellement.8 Apprentissage PAC avec distributions bienveillantes Denis et Gilleron ont propose DG97] une adaptation de cadre PAC : l'apprentissage PAC avec des distributions bienveillantes. Cette approche a aiblit le cadre PAC en operant une restriction sur l'ensemble des distributions de probabilites selon lesquelles les exemples sont tires. 7. Etant donnee l'hypothese supplementaire de completude structurelle de I+ relativement a l'automate A. Ce document est la propriété exclusive de nona nina (ninasbalka@gmail.3 L'espace de recherche de l'inference reguliere 7.2.226 PARTIE 2 : Apprentissage par exploration. on peut supposer que plus les exemples auront une probabilite faible.1 un certain nombre de de nitions et de notions formelles. plus l'inference sera di cile a realiser. Le second est un automate derive du premier. Si on ne fait aucun presuppose sur la pertinence des exemples (cadre PAC classique). Si on propose de donner des exemples pertinents (cadre PACS et cadre PAC sous distributions bienveillantes) on ne peut eviter le probleme de la collusion. nous allons maintenant preciser la de nition de ce probleme comme une exploration dans un ensemble structure construit sur I+ .3. A partir d'un echantillon positif I+ . 7. Par ces deux approches. Rappelons-les rapidement avant de les utiliser pour construire cet ensemble structure.1. sur la distribution de probabilites sur les exemples. Une distribution bienveillante est une distribution telle que tous les exemples utiles ont une probabilite non nulle. C'est pourquoi les auteurs ajoutent un parametre de complexite au modele PAC : l'algorithme d'inference devra ^tre polynomial en e l'inverse de plus petite probabilite des exemples rencontres.1 Le point de la situation Nous avons de ni l'inference reguliere comme la recherche d'un automate A inconnu a partir duquel un echantillon positif I+ est suppose avoir ete genere. on peut construire deux automates particuliers qui n'acceptent que lui : MCA(I+ ) et PTA(I+ ). Nous avons vu au paragraphe 7. n xe et connu. le cadre est trop contraignant et des algorithmes qui inferent correctement en pratique n'apprennent pas dans ce cadre.27 Octobre 2009 à 09:30 Resultats Denis et Gilleron montrent DG97] d'une part que la classe des DFA de nis sur n. Elle consiste a construire un echantillon d'apprentissage a partir d'un enseignant et a montrer qu'un tel ensemble d'apprentissage contient probablement l'echantillon caracteristique.com) . La classe de distributions bienveillantes est de nie en fonction de la cible que l'algorithme doit identi er. on apprehende maintenant mieux la di culte de de nir la notion d'apprentissage d'un automate. est PAC -identi able sous distributions bienveillantes. . Par ailleurs. La preuve est basee sur la propriete d'identi cation a la limite de l'algorithme RPNI OG92a]. Le probleme consiste a poser des contraintes sur les exemples que l'on donne a l'apprenant et a travers lui. un exemple utile est un exemple dont la taille est polynomiale en la taille de la cible.

sous le biais de la completude structurelle. si un automate A appartient a Lat(MCA(I+ )) alors I+ est structurellement complet relativement a A.3.14. nous pouvons enoncer une propriete d'inclusion entre ces deux treillis: a 1 b 2 Fig. Le second theoreme assure que l'on peut reduire l'espace de recherche si on cherche l'automate canonique d'un langage. Reciproquement. Ce document est la propriété exclusive de nona nina (ninasbalka@gmail. De plus. 0 Propriete 7.2 Deux proprietes fondamentales Theoreme 7. En guise d'illustration. Pour cette raison. l'echantillon I+ = fabg n'est pas structurellement complet relativement a l'automate A de la gure 7.7 Lat(PTA(I+)) Lat(MCA(I+ )) Cette propriete decoule directement de la de nition 7. Theoreme 7. l'ensemble des hypotheses compatibles avec l'echantillon est exactement le treillis construit sur MCA(I+ ).com) . Un automate derive de A reconna^t un langage qui inclut L(A). rechercher une solution dans Lat(PTA(I+ )) au lieu de Lat(MCA(I+ )) permet de considerer un espace de recherche plus restreint. L'etat 1.13 { Un automate pour lequel l'echantillon fabg n'est pas structurellement complet.13. Conformement a la de nition 7. Nous disposons maintenant de tout le materiel technique pour de nir l'ensemble de toutes les solutions d'un probleme d'inference reguliere. Si I+ est structurellement complet relativement a A(L) alors A(L) appartient a Lat(PTA(I+ )). Soit I+ un echantillon positif d'un langage quelconque regulier L et soit A n'importe quel automate acceptant exactement L. 7. l'automate A ne peut pas ^tre derive du e . L'ensemble des automates derives d'un automate A forme le treillis Lat(A).27 Octobre 2009 à 09:30 227 7. Un echantillon est structurellement complet par rapport a un automate s'il est representatif du langage qu'il accepte.Chapitre 7 L'inference grammaticale A partir d'un automate A quelconque.16 du PTA(I+ ) qui est un automate quotient du MCA(I+ ). qui est nal. Soit I+ un echantillon positif d'un quelconque langage regulier L et soit A(L) l'automate canonique acceptant L.6 Un premier theoreme nous assure que. ou q1 et q2 sont des etats d'acceptation.5 De plus. on peut construire d'autres automates par l'operation de derivation : chaque etat d'un automate derive de A est la fusion d'un certain nombre d'etats de A. Si I+ est structurellement complet relativement a A alors A appartient a Lat(MCA(I+ )). comme le treillis Lat(PTA(I+ )) est generalement strictement inclus dans le treillis Lat(MCA(I+ )). n'est l'etat d'acceptation d'aucune phrase de I+ . considerons l'exemple suivant.

En particulier. par la propriete 7.2. aucun exemple positif ne peut contredire cette solution.com) . que n'importe quel automate derive du MCA(I+ ) accepte un langage incluant I+ . Au contraire. Nous detaillons ci-apres les principales notions necessaires a la de nition de cette methode d'inference. n'importe quel automate appartenant a Lat(MCA(I+ )) constitue une generalisation possible de l'echantillon positif. En d'autres termes.24 r F I ) d'un automate A = (Q r (q I F ) est de ni comme 8q 2 Q 8a 2 a) = fq0 2 Qjq 2 (q0 a)g: . Nous savons. e 7. alors nous pouvons deriver A pour une certaine partition de l'ensemble des etats du MCA(I+ ). donc. deux approches sont classiquement utilisees. le propre des methodes heuristiques. aucun exemple positif ne peut eviter une surgeneralisation eventuelle de l'inference. jP (20)j = 51013 . En ce sens. En particulier. L'automate inverse Ar = (Q suit : De nition 7. Pour eviter le risque de surgeneralisation.4.4 L'inference reguliere sans echantillon negatif Etant donne un echantillon positif I+ d'un langage regulier L..1. La seconde possibilite consiste a utiliser une information a priori pour guider la generalisation recherchee.1 Une methode caracterisable : l'inference de langages k-reversibles Angluin a propose une methode d'inference qui identi e a la limite a partir d'une presentation positive la classe des langages k-reversibles. ne generalisent pas l'information contenue dans les donnees d'apprentissage. A titre d'exemple.27 Octobre 2009 à 09:30 7. Nous pouvons des lors considerer l'inference reguliere comme un probleme de recherche de la partition . l'echantillon fab ag est structurellement complet relativement a l'automate A qui peut donc ^tre derive du MCA. jP (10)j = 105 . Conformement au resultat de Gold presente a la section 7. c'est-a-dire PTA(I+ ) ou MCA(I+ ): Ce nombre cro^t plus qu'exponentiellement en fonction de N .228 PARTIE 2 : Apprentissage par exploration. nous avons a de nir le critere qui guidera la recherche de l'automate A acceptant I+ .3. Il n'est pas possible de de nir une partition de l'ensemble des etats QMCA telle que A corresponde a MCA(I+ )= avec q1 2 FMCA= .. MCA(I+ ) et evidemment pas non plus du PTA(I+). La premiere possibilite consiste a rechercher la solution dans une sous-classe particuliere des langages reguliers il s'agit alors d'une methode caracterisable. le MCA(I+ ) et le PTA(I+) acceptent tous deux l'echantillon positif. nous savons qu'il n'est pas possible d'identi er la classe entiere des langages reguliers a partir d'un echantillon positif seulement. jP (30)j = 8:5 1023 . Ce document est la propriété exclusive de nona nina (ninasbalka@gmail. ils n'acceptent aucune autre phrase du langage L et.3 La taille de l'espace de recherche Gr^ce aux resultats presentes a la section 7. si une solution proposee par un algorithme d'inference correspond a un langage incluant strictement le langage a identi er. pour k quelconque mais xe a priori Ang82a]. Mais l'exploration de cet espace n'est pas un probleme facile : sa taille est le nombre de partitions jP (N )j d'un ensemble a N elements ou N est ici le nombre d'etats de l'element nul du treillis.2. 7.3.2. nous savons que si nous disposons d'un a echantillon positif I+ d'un langage inconnu L. Cependant. avec I+ structurellement complet relativement a un automate inconnu A acceptant exactement L. ou du PTA associes a cet echantillon.

Un automate A est k-reversible s'il est deterministe et si son inverse Ar est deterministe avec anticipation k. Nous presentons a la gure 7. La generalisation aux automates comportant un ensemble d'etats d'entree est triviale. b c 0 2 229 b a c 5 5 b 4 a c 4 b 2 c a 0 a 1 b b 3 b 3 Ce document est la propriété exclusive de nona nina (ninasbalka@gmail.26 De nition 7. De nition 7. l'automate canonique du plus petit langage k-reversible incluant I+ . La fonction k-reversible (A= ) renvoie V RAI si l'automate quotient A= est k-reversible.25 q0 F ) est deterministe avec anticipation k si 26 8q 2 Q 8x 2 jxj > k j (x q)j 1: Par consequent. 26. Angluin Ang82a] a demontre que cet algorithme permettait d'identi er la classes des langages k-reversibles et qu'il produisait. de la fonction de transition : 27.14 un exemple d'automate et son inverse. La fonction deriver (A 0 ) renvoie l'automate quotient de A conformement a la partition 0 : 25. L'abreviation k-RI provient de la terminologie anglaise pour k-Reversible Inference. Nous presentons a la gure 7. Un langage L est k-reversible s'il existe un automate k-reversible qui l'accepte. pour I+ et k xe.27 Octobre 2009 à 09:30 b 1 Fig. designe l'extension classique a Q ! 2Q . tels que la condition de k-reversibilite ne soit pas veri ee pour les deux etats associes dans A= .14 est deterministe avec anticipation 1. un automate est deterministe avec anticipation k si.14 { L'automate A et son inverse Ar . l'automate inverse Ar est obtenu en inversant les etats 25 d'entree et de sortie de l'automate original A. les automates nis comme comprenant un seul etat d'entree et un ensemble d'etats de sortie.27 L'algorithme k-RI 27 consiste a partir de l'accepteur des pre xes de l'echantillon positif puis a fusionner des etats. Un AFD est deterministe avec anticipation 0. 7. L'automate Ar de la gure 7. c'est-a-dire a de nir un nouvel automate quotient.Chapitre 7 L'inference grammaticale Par consequent. il existe au plus un etat auquel cette acceptation peut mener en anticipant de k lettres par rapport a la position courante dans la cha^ne. Un automate A = (Q De nition 7.com) . lors de l'acceptation d'une cha^ne quelconque. et en inversant egalement le sens des transitions de A. . Ces automates permettent de representer un langage regulier quelconque. elle renvoie FAUX sinon. tant que la condition de k-reversibilite est violee. Nous avons de ni a la section 7.1.15 un exemple d'execution de l'algorithme k-RI avec I+ = fab bb aab abbg et k = 1. La fonction non-reversible (A= ) renvoie deux blocs distincts de .

Algorithme 7.1 Algorithme k-RI Entree : k. 7.com) . un automate canonique acceptant le plus petit langage k-reversible incluant I+ fN designe le nombre d'etats de PTA(I+)g ff0g f1g : : : fN .2 Une methode heuristique : l'algorithme ECGI Propriete 7.4.7 1. Nous illustrons egalement son fonctionnement a l'aide de la representation equivalente en automates. La representation utilisee est celle des grammaires regulieres. non deterministe. Le langage accepte par la grammaire inferee inclut I+ ainsi que d'autres cha^nes obtenues par concatenation de sous-cha^nes des elements de I+ .6 P S ) reguliere.7 a 1 a 4.4. l'echantillon positif Sortie : Ak . L'algorithme ECGI produit une grammaire G = (N 7. Cet algorithme est incremental. Nous reprenons la description de l'algorithme ECGI tel qu'il a ete formellement presente dans RV88.27 Octobre 2009 à 09:30 2 b 3 b b b b 2.230 b 0 2 PARTIE 2 : Apprentissage par exploration. RPV89a].15 { Exemple d'execution de l'algorithme k-RI. L'algorithme ECGI est une methode d'inference heuristique concue pour extraire l'information sur la longueur de sous-cha^nes des elements de I+ et de la concatenation de ces sous-cha^nes. sans .6.5. c'est-a-dire qu'il mesure une (( distance )) entre un nouvel exemple et le modele existant et adapte le modele conformement.3 a 0 b b Fig.6. 1gg fUn bloc par etat du PTA(I+ )g A PTA(I+ ) tant que :(k-reversible (A= )) faire (B1 B2 ) non-reversible (A= ) nfB1 B2gU fB1 UB2g fFusion du bloc B1 et du bloc B2 g A= n tant que Rappelons qu'il est prouve que cette methode identi e a la limite la classe des langages k-reversibles pour k donne. b b a 3 5 a 1 4 b b 7 0 b a 1 2 b b 5.6 6 b a b 0 Ce document est la propriété exclusive de nona nina (ninasbalka@gmail.7 a 3 b 4. avec I+ = fab bb aab abbg. I+ . l'ordre du modele.5.

28 Ce document est la propriété exclusive de nona nina (ninasbalka@gmail. 231 De nition 7. avec I+ = faabb abbb abbab bbbg.16 { Exemple d'execution de l'algorithme ECGI. 28. la derivation corrective optimale est calculee et la grammaire est etendue conformement a cette derivation 29 . 7. En d'autres termes. b 0 3 b b 4 a 1 a 2 b 3 b 0 a 1 b a 2 5 4 a b 0 3 2 b b 4 a 5 b 6 b b 4 a 5 b 6 0 a 1 a 1 b 3 b a 2 b b Fig. L'algorithme ECGI construit d'abord la grammaire canonique acceptant la premiere cha^ne de I+ .com) . pour chaque nouvel exemple . avec x 2 + . En pratique. aucune phrase engendree a partir de A n'est de la forme xA.27 Octobre 2009 à 09:30 De nition 7. Cela permet d'associer les terminaux aux e etats plut^t qu'aux arcs de l'automate equivalent. cela revient a dire que l'automate correspondant ne comporte pas de boucle et donc que le langage engendre est ni. le m^me lettre de l'alphabet terminal est associee avec toutes les produce tions ayant le m^me non-terminal en partie droite. 29. Une grammaire est sans cycle si quel que soit le non terminal A. sont associes les regles d'erreur suivantes : Insertion de a : A ! aA 8(A ! bB ) 2 P 8a 2 Substitution de b par a : A ! aB 8(A ! bB ) 2 P 8a 2 A ! a 8(A ! b) 2 P 8a 2 Suppression de b : A ! B 8(A ! bB ) 2 P 8a 2 A ! 8(A ! b) 2 P 8a 2 La grammaire etendue G0 = (N 0 d'erreurs a P . Elle produit la sequence optimale de regles correctes (celles deja presentes dans la grammaire) et de regles d'erreur pour l'acceptation de . conformement a la grammaire G0 et qui utilise un nombre minimal de regles d'erreurs.29 De nition 7. Les etats et transitions en pointilles correspondent a l'extension de la grammaire a chaque etape.Chapitre 7 L'inference grammaticale cycle 28 et qui veri e la condition suivante : 8A B C 2 N 8b a 2 si (B ! aA) 2 P et (C ! bA) 2 P alors b = a. o A toute production dans P .30 P 0 S ) de G est la grammaire obtenue en ajoutant les regles La derivation corrective optimale de 2 est la derivation de . . Ensuite. Nous presentons a la gure 7.16 un exemple d'execution de l'algorithme ECGI prenant en entree l'echantillon I+ = faabb abbb abbab bbbg et en representant chaque grammaire par un automate associe. Cette derivation est obtenue par une procedure d'analyse corrective qui constitue une application de l'algorithme de programmation dynamique (voir le chapitre 3 pour les generalites et le chapitre 13 pour une application particuliere de la programmation dynamique: l'algorithme de Viterbi).

1g fAn. du langage inconnu L. Cependant.1 ) renvoie la derivation corrective optimale de la cha^ne x conformement a la grammaire Gi. Nous avons vu qu'il n'existe pas d'algorithme polynomial resolvant ce probleme dans tous les cas.1 .2. nous pouvons chercher une solution plus generale sous le contr^le de l'echantillon o negatif. Si nous choisissons la simplicite de l'automate infere comme critere de generalite et que nous restreignons la recherche a des automates deterministes.5. Supposons que nous disposions desormais d'un echantillon negatif I. en general.3). Deux autres algorithmes seront abordes ensuite. A n de comparer ces trois algorithmes et d'etudier le probleme du plus petit AFD compatible. \L(A) = . Il existe un grand nombre d'automates compatibles appartenant a Lat(MCA(I+ )). c'est-a-dire tel que I+ L(A) et I. nous poursuivons la caracterisation de l'espace de recherche introduite a la section 7. Donnees d'entree : I+ Sortie : Une grammaire G compatible avec I+ et veri ant la propriete 7. Par consequent.2 Algorithme ECGI PARTIE 2 : Apprentissage par exploration.27 Octobre 2009 à 09:30 Retourner G n pour Gi n pour G La fonction deriv optim (x Gi. MCA(I+ ) satisfait ces conditions mais ne generalise pas l'echantillon positif.1 ! ang S A0 G1 (N P S ) pour i = 2 a jI+j faire i G Gi. Nous detaillons cet algorithme a la section 7. Dans ce cas.1 x I+ P 0 deriv optim (x Gi. nous savons que nous pouvons.4. deja evoque plus haut (paragraphe 7.6 1 x I+ n jxj N fA0 : : : An. . en principe. la solution cherchee est alors l'AFD compatible et comportant le nombre minimal d'etats. La fonction etendre gram (G pj ) renvoie la grammaire etendue conformement a la regle d'erreur pj .1 g fa1 : : : ang P f(Ai ! aiAi) i = 1 : : : n . de trouver une solution quasi exacte.2). identi er a la limite au moins n'importe quel langage regulier (voir section 7.232 Algorithme 7.3. Il s'agit du probleme du plus petit AFD compatible.com) .2.1 ) pour j = 1 a P 0 faire G etendre gram (G pj ) Ce document est la propriété exclusive de nona nina (ninasbalka@gmail. L'inference peut ^tre alors consideree comme e la decouverte d'un automate A compatible avec les echantillons positif et negatif. on peut trouver un algorithme polynomial qui permet.

qui ne sont autres que les elements de l'ensemble frontiere : G = BSMCA(I+ I. Cet algorithme procede par enumeration des automates derives du MCA(I+ ). dans ce treillis. L'ensemble frontiere BSMCA(I+ I. Une anticha^ne AS dans un treillis d'automates est un ensemble d'automates tel qu'aucun element de AS n'est relie par la relation de derivation avec un autre element de AS . le probleme du plus petit AFD compatible se ramene a decouvrir le plus petit AFD appartenant a l'ensemble frontiere du treillis construit sur PTA(I+ ). Etant donne des echantillons positif I+ et negatif I.com) . D'autre part. par un algorithme nomme RIG 30 MdG94].5.5. donc tel que toute fusion de deux de ses etats conduise a l'acceptation d'exemples negatifs.27 Octobre 2009 à 09:30 Un automate A est a une profondeur maximale dans un treillis d'automates s'il n'existe pas.4. L'abreviation RIG provient de la terminologie anglaise pour Regular Inference of Grammars. donc que S = fPTA(I+ )g. . Ce document est la propriété exclusive de nona nina (ninasbalka@gmail. le treillis des solutions est un cas particulier de l'espace des versions decrit au chapitre 4. De nition 7.5 L'inference reguliere sous contr^le d'un echantillon negatif o 7. le 30. C'est donc une heuristique de simplicite qui est adoptee. . de construire completement BSMCA (I+ I. ).7) et au principe MDL. il existe plusieurs solutions plus generales. conformement au principe du rasoir d'Occam (voir au chapitre 3 le paragraphe 3.31 De nition 7.7 Par consequent.3 Les algorithmes RIG et BRIG . 7. tel que A0 puisse ^tre derive de A et tel que e L(A0 ) \ I. c'est-a-dire des partitions dans Lat(MCA(I+ )). L'ensemble frontiere BSPTA(I+ I. il est facile. un echantillon negatif.32 La notion d'ensemble frontiere permet de de nir un sous-espace interessant de solutions a un probleme d'inference avec contre-exemples. Tout element du treillis qui peut se transformer en element de BS par fusion d'etats est une solution. On peut considerer simplement que le PTA(I+ ) est l'unique generalisation la plus speci que. ) est l'anticha^ne dont chaque element est a une profondeur maximale dans Lat(MCA(I+ )). d'automate A0 .Chapitre 7 L'inference grammaticale 233 7.33 Propriete 7.1 L'ensemble frontiere De nition 7. L'inference grammaticale ajoute un biais pour trouver une des solutions de l'espace des versions : chercher un automate sur BS . En revanche. ). Il s'agit d'une enumeration en largeur a partir de l'element nul du treillis des partitions. l'ensemble frontiere du treillis construit sur MCA(I+ ) est l'ensemble des automates les plus generaux compatibles avec l'echantillon positif et l'echantillon negatif. = .5.2 Le lien avec l'espace des versions 7. di erent de A. Compte tenu de sa construction a partir de I+ puis de son elagage par I. ) contient l'automate canonique A(L) de tout langage regulier L dont I+ est un echantillon positif et I.

234 PARTIE 2 : Apprentissage par exploration. e MCA(I+ ). L'algorithme BRIG est clairement de nature heuristique car il n'existe pas de caracterisation de la classe de langages qu'il identi e (son caractere aleatoire implique que di erentes executions partant des m^mes donnees ne conduisent e pas necessairement au m^me resultat). 7.5. l'algorithme RPNI est particulierement e cace.1. il a ete observe experimentalement que la complexite de RIG reste non polynomiale en fonction de N . chacun de ses etats correspond a un pre xe unique et les pre xes peuvent ^tre tries par ordre lexicographique 32 <.1 Une exploration e cace du treillis . Finalement. Si l'automate deterministe ainsi obtenu est correct pour I. un surlangage de l'AFN dont il provient. Par construction du PTA(I+ ) (voir de nition 7.com) . qui consiste a eliminer tous les automates a la profondeur i + 1 qui derivent d'au moins un automate non compatible a la profondeur i. c'est-a-dire s'il n'en accepte aucun echantillon. l'algorithme RIG explore tout le treillis des partitions. Cet ordre s'ape plique donc egalement aux etats du PTA(I+ ): L'algorithme RPNI procede en N . 1 etapes ou N est le nombre d'etats du PTA(I+ ): La partition a l'etape i est obtenue en fusionnant les deux premiers blocs. dans le treillis. une version heuristique. L'automate quotient A= 0 peut ^tre non deterministe. Dans ce cas. le nombre d'etats du MCA(I+) MdG94]. qui a pour objet de produire un AFD acceptant le m^me langage AU72]. l'ensemble frontiere est obtenu en memorisant tous les automates compatibles et qui ne possedent aucun derive compatible. La fonction determ fusion (A= 0 ) realise e la fusion pour determinisation en renvoyant la partition 00 obtenue en fusionnant recursivement tous les blocs de 0 qui creent le non-determinisme 33. Cette selection aleatoire permet de garantir. Pour conserver 31. la partition 00 est egale a la partition 0 . une complexite polynomiale et de construire un sous-ensemble du BS .16). L'ordre lexicographique sur les cha^nes de . de la partition a l'etape i . correspond a un ordre par longueur des cha^nes et. nous pouvons e ectuer un elagage par heritage. Ensuite. de plus. les automates restant a la profondeur i +1 subissent un elagage direct qui consiste a eliminer les automates non compatibles a cette profondeur. Sous cette hypothese. Cette enumeration ne conserve que les automates compatibles a chaque profondeur Ce document est la propriété exclusive de nona nina (ninasbalka@gmail. alors RPNI est relance a partir de cette solution provisoire. 32. les premieres cha^nes dans l'ordre lexicographique sont : a b aa ab ba bb aaa aab : : : 33. Nous savons que l'identi cation d'un langage regulier L par exploration du treillis des partitions du PTA(I+ ) n'est envisageable que si l'on suppose la completude structurelle de I+ relativement a l'automate canonique A(L). l'AFD obtenu par fusion des etats d'un AFN accepte. pour l'alphabet fa bg.27 Octobre 2009 à 09:30 7. a ete proposee MdG94]. La solution proposee par l'algorithme RIG est. Elle consiste a ne considerer qu'une petite proportion des partitions. le premier automate deterministe rencontre a la profondeur maximale de l'ensemble frontiere. pour une longueur donnee. par exemple. . mais l'algorithme RIG peut egalement fournir comme solution tout l'ensemble frontiere (comme le ferait l'algorithme de l'elimination des candidats dans la methode de l'espace des versions).4. nomme BRIG.4 L'algorithme RPNI L'algorithme RPNI OG92b] e ectue une recherche en profondeur dans Lat(PTA(I+ )) et trouve un optimum local au probleme du plus petit AFD compatible. a l'ordre alphabetique. n'est e ectue. Par exemple. Malgre un elagage e ectif par l'echantillon negatif. L'operation de fusion pour determinisation d'un AFN ne doit pas ^tre confondue avec l'algorithme classique e de determinisation d'un AFN. Si A= 0 est deterministe. La complexite de RIG etant non polynomiale 31.5. Dans le pire des cas. donne lieu a un automate quotient compatible. 1 et qui. generee aleatoirement. par ordre lexicographique. e Conformement a la propriete 7. en pratique. aucun elagage par I .1 d'inclusion des langages. Par la propriete 7. en general.

5. dans ce cas particulier. 1 ou k est le nombre des etats de l'automate cible alors. lorsque les donnees d'apprentissage sont su samment representatives. la decouverte de l'automate canonique du langage a identi er est garantie. La procedure de fusion pour e determinisation est donc appellee. est O((jI+ j + jI. l'identi cation est garantie. De plus.com) . il prend alors le rang de l'etat du PTA de rang le plus faible dans ce bloc. puisque l'etat f0 1g mene desormais a lui-m^me et a l'etat 2 par une transition a. = faa baa aaabg. quand un etat est fabrique par fusion et correspond donc a un bloc d'etats du PTA. 1 faire pour j = 0 a i . Il possede dix etats.5. Mais cette propriete est ne : si l'ensemble d'apprentissage contient toutes les cha^nes sauf une partie in me de l'ensemble caracteristique. Cependant. Les auteurs ont demontre que la taille d'un echantillon caracteristique propre a cet algorithme est O(n2 ) . j) jI+ j2 ). cet automate est egalement la solution du probleme du plus petit AFD compatible. L'automate PTA(I+) est represente sur la gure 7.). formellement de ni dans OG92b].1. alors. Mais ceci amene deux autres indeter- . { Elle fusionne d'abord l'etat f0 1g avec l'etat 2. il ne s'agit du plus petit AFD compatible que si les donnees d'apprentissage satisfont une condition supplementaire. c'est-a-dire contiennent un echantillon dit caracteristique. Il est de plus demontre TB73b] que si l'echantillon d'apprentissage contient toutes les cha^nes de longueur inferieures a 2k . La complexite calculatoire de l'algorithme RPNI.27 Octobre 2009 à 09:30 Retourner A n si n pour n pour 00 A= l'ordre lexicographique.4.Chapitre 7 L'inference grammaticale Algorithme 7. Sortie : Une partition du PTA(I+ ) correspondant a un AFD compatible avec I+ etI. En l'absence d'autre indication les etats 0 et 1 sont choisis. La solution proposee par l'algorithme RPNI est un automate deterministe appartenant au BSPTA(I+ I.3 Algorithme RPNI Entree : I+ I. Ceci conduit a un indeterminisme. en haut. dans sa derniere version publiee. En d'autres termes.17. ) alors 235 Ce document est la propriété exclusive de nona nina (ninasbalka@gmail. 7. fN designe le nombre d'etats de PTA(I+ )g ff0g f1g : : : fN . l'identi cation n'est plus garantie Ang78b]. L'algorithme RPNI commence par fusionner deux etats. Par la propriete 7.2 Un exemple Partons des ensembles I+ = f ab aaa aabaa aaabag et I.ou n est le nombre d'etats de l'automate cible OG92b]. 1gg A PTA(I+ ) pour i = 1 a N . nous savons qu'il s'agit de l'automate canonique pour le langage qu'il accepte. 1 faire 0 nfBj Bi gU fBi UBj g fFusion du bloc Bi et du bloc Bj g 00 determ fusion (A= 0 ) si A= 00 correct(I.

7. Au centre. avec I+ = f ab aaa aabaa aaabag. { Elle fusionne derechef ces deux derniers etats.5 Variantes et extensions RPNI .6. = faa baa aaabg. La faiblesse de celui-ci est en e et d'imposer un ordre arbitraire aux essais successifs des fusion d'etats du PTA (ceux-ci sont ranges dans l'ordre lexicographique du pre xe correspondant dans le PTA). En bas.4} b {3. Le langage reconnu peut s'exprimer comme (( l'ensemble des phrases dont le nombre de a moins le nombre de b vaut 0 modulo 3 )). en bas).2. minismes : f0 1 2g mene a 4 et a lui-m^me par a.236 PARTIE 2 : Apprentissage par exploration. la fusion de 0 et 3. au milieu). l'automate obtenu comme solution. . En revanche. Ici aussi. a a 0 a 1 b 3 a 4 b 6 a 8 2 b 5 a 7 a 9 Ce document est la propriété exclusive de nona nina (ninasbalka@gmail. L'echantillon a ete choisi comme l'un des plus petits possibles qui soit caracteristique de ce langage.5} a b {2. l'automate obtenu accepte une phrase de I.7} a b {4. e { Elle poursuit en fusionnant f0 1 2g avec 4 et en fusionnant 5 avec 3.1.5. mene a un automate coherent avec I+ et I.8} a {9} {0. dont on sait qu'il est sur le BS .5.17. .3} a b {1.27 Octobre 2009 à 09:30 {0. PTA(I+ ).17 { Exemple d'execution de l'algorithme RPNI. On doit donc remettre en question la fusion initiale des etats 0 et 1. Cet automate n'est pas une solution puisqu'il accepte au moins une phrase (ici. . les trois) de I.17.6} a {7.com) . C'est cette solution qui est retenue ( gure 7.8. L'etape suivante est de fusionner les etats 0 et 2. ce qui explique qu'on puisse l'inferer avec si peu d'information. puis de proceder a la fusion par determinisation. Il reste un nouvel indeterminisme : f0 1 2 4g mene par b a f3 5g et 6. Cet automate accepte la phrase aa dans I. le resultat de la fusion des etats 0 et 1 suivie de la procedure de fusion pour determinisation. mais aussi a 5 et 3 par b. l'etape suivante. En haut. Les algorithmes plus e caces fusionnent de preference les deux etats les plus La plupart des algorithmes e caces d'inference reguliere sont actuellement des variations sur . 7. ce qui mene a un automate deterministe ( gure 7.9} Fig.

S ! a.6. Ce n'est pas le cas de l'apprentissage des grammaires algebriques. 7. l'echantillon d'apprentissage est constitue de phrases structurees par un parenthesage representant leur arbre de derivation AU72]. soit en enrichissant la presentation des exemples par un oracle (voir le chapitre 2). ou l'inference par ssion (en partant de l'automate universel). 7. presque systematiquement utilisee pour l'inference reguliere. 34. en introduisant un nombre minimal de concepts en consequence. par le biais d'operateurs speci ques de mutation et de croisement. Une technique analogue est aussi evoquee dans ce m^me chapitre : les strategies d'evolution. mais il existe des heuristiques experimentalement e caces pour le de nir. Citons egalement ici. possedant (si l'on admet le biais de la completude structurelle) un cadre algorithmique clair. pour anticiper sur le chapitre 8 un algorithme heuristique. La bibliographie de ce chapitre renvoie a des references plus completes sur ce sujet di cile. Ce second point est relie au fait que la representation en automates nis.27 Octobre 2009 à 09:30 7. Un certain nombre d'autres possibilites ont ete developpees. c'est-adire a la profondeur maximale. . n'a pas d'equivalent commode pour les grammaires algebriques. Cette famille de methodes CR71]. L'espace de recherche d'un concept a partir d'exemples est donc beaucoup plus grand pour ces dernieres.1 Presentation Comme on l'a vu aux paragraphes precedents. soit en de nissant des sous-classes de grammaires algebriques ou l'on pourra appliquer des algorithmes du type de ceux utilises pour les grammaires regulieres. nomme GIG 34 . L'abreviation GIG provient de la terminologie anglaise pour Grammatical Inference by Genetic search. Les algorithmes qui ont ete proposes visent donc pour la plupart a contourner ces problemes. la grammaire G : 1. Cette hypothese forte permet de mettre en uvre un algorithme qui produit une grammaire compatible avec l'echantillon. Plus precisement.2 L'apprentissage a partir d'echantillons structures. qui gerent e des populations d'automates. Ce terme est evidemment empirique. Ce document est la propriété exclusive de nona nina (ninasbalka@gmail.6 L'inference de grammaires algebriques. Nous presenterons brievement une methode de chaque type. Sak90] suppose que l'echantillon d'apprentissage (positif seulement) est compose non seulement de phrases. Il fait evoluer dans Lat(PTA(I+ )) une population d'automates derives du PTA(I+ ).com) .Chapitre 7 L'inference grammaticale ( ( 237 prometteurs )) avant d'appliquer la fusion pour determinisation. On ne dispose pas pour les grammaires algebriques d'une relation d'ordre qui permettrait de parcourir un treillis ni de solutions et de pratiquer un elagage systematique.6. l'inference des grammaires regulieres est un probleme bien formalise. mais egalement pour chacune d'elles d'indications sur la facon dont la phrase a ete engendree par la grammaire a trouver. qui optimise par un algorithme genetique la recherche d'une solution optimale. Par exemple. On peut donner deux raisons a cet etat de fait : Les grammaires regulieres sont un (( tout petit )) sous-ensemble des grammaires algebriques. l'espace de recherche est implicitement restreint et les grammaires trouvees appartiennent a une stricte sous-famille des langages algebriques. comme le travail dans un espace d'automates non deterministes. On trouvera les details dans LPP98].

ce qui amene la grammaire suivante : S . alors B = C De nition 7. cette phrase s'ecrit : x = (a + (a + (a))) Cette contrainte sur l'echantillon revient a supposer que chaque partie droite de regle de la grammaire qui a engendre cet echantillon est encadree par une paire de parentheses.! c C . et A.! AB A . et de V : s'il y a dans P deux regles A . Pour preserver la nature reversible de la grammaire inferee.! EF F . B et C et toutes sequences .34 Nous donnons cet algorithme sur un exemple. C 0 et E sont fusionnes en A. alors A = B .! cB S .! c C .! C .! AF .27 Octobre 2009 à 09:30 S a regle 1 Fig.! c A . les non-terminaux B . S ! a + S engendre la phrase : x = a + a + a par l'arbre de derivation de la gure 7. et donc qu'elle appartient a un sous-ensemble des grammaires algebriques ce sous-ensemble est strict. pour tous non-terminaux A.18 { L'arbre de derivation de la phrase a + a + a par la grammaire G.238 PARTIE 2 : Apprentissage par exploration.! CD D . 2.! ab S .! cF 0 F 0 .! ab D0 .! b F .! CD C 0 .! c E .! aAb S .! . On va proceder a une generalisation par fusion de non-terminaux. et s'il y a dans dans P deux regles A . D0 et F 0 sont fusionnes en B . L'algorithme que nous presentons Sak90] infere des grammaires algebriques reversibles.! aC 0 b D . structuree. Soit : I+ = f((ab)(c)) ((a(ab)b)(c(c))) ((ab)(c(c)))g La grammaire suivante est d'abord produite : elle ne genere que l'echantillon.! et B .! ab S . 7.! cD0 S .! ab B .! AB B .! B et A .com) . Sous forme !S !!!#ccc # regle !!!## !2 c a + S ##ccc regle # c #2 a + Ce document est la propriété exclusive de nona nina (ninasbalka@gmail.18. dont la de nition formelle est la suivante : Une grammaire algebrique G = (V P S ) est reversible quand.

Il n'a pas ete presente ici. D'autres travaux cherchent a utiliser toute la puissance de la methode generale de l'espace des versions et menent a des resultats plus generaux Gio93]. Ces methodes fonctionnent en reduisant implicitement a chaque etape l'ensemble des solutions restantes par modi cation directe des regles de la grammaire solution courante chaque etape correspond a la presentation d'un element de l'un des ensembles d'apprentissage. et dans la grammaire resultante. La di culte est de disposer d'operateurs de modi cations des regles qui soient coherents avec cette demarche. la combinatoire de decomposition est beaucoup plus 35.! ab A .4 Une methode avec oracle. a ceci pres que l'espace de recherche n'est pas de ni en pratique de maniere aussi structuree que le treillis des automates nis.Chapitre 7 L'inference grammaticale De nouveau. capable de repondre par oui ou non a la question posee par le programme au cours de l'inference : (( Soit la phrase x appartient-elle au langage engendre par la grammaire a trouver? )) A partir de ces deux hypotheses. compte tenu de deux problemes : d'une part. montre comment leurs operateurs permettaient de trouver la grammaire cherchee (si un echantillon su sant etait presente) et traite les aspects principaux de l'enumeration des solutions dans l'optique de l'espace des versions (chapitre 4) mais les exemples d'applications qu'ils citent sont tres simples. Sa complexite depasse de beaucoup celle de son analogue en grammaires regulieres 35 . on obtient : 239 S .com) .6.6.! cB Cette grammaire reconna^t le langage fam bm cn j m n 1g. et donc inferer des regles recursives de la forme Pour reduire l'espace de recherche. A . Cette methode utilise une propriete des grammaires algebriques : le lemme de la double etoile.3 Les methodes par exploration.4). 7. Une premiere approche a ete proposee par VanLehn et Ball VB87] : ils ont de ni un espace de recherche. il faut fusionner trois non-terminaux : D et F et B en B . Ce document est la propriété exclusive de nona nina (ninasbalka@gmail.27 Octobre 2009 à 09:30 Une autre tactique consiste a de nir un espace de solutions et a y proceder par cheminement heuristique. en raison de la nature elementaire des operateurs de modi cation employes. un algorithme a ete presente par Gonzales et Thomason GT78]. Finalement. On peut l'enoncer informellement comme suit : uvwyz telle que : Pour toute phrase x assez longue d'un langage algebrique L . voir par exemple la reference Mic76a].! AB A . on suppose avoir a sa disposition un oracle (voir le paragraphe 7. il existe une decomposition x = Propriete 7.! aAb B .2. 7.! c B . encore fusionner A et C en A. C'est tout a fait comparable aux methodes d'inference reguliere sans echantillon negatif.! vAz j w .1 8k 0 uvk wyk z 2 L Le principe de la methode est donc de supposer que l'echantillon possede assez de phrases longues pour aider a decouvrir les sous-cha^nes v et y.

La famille de ces langages algebriques est strictement superieure a celle des langages reguliers.1 Les grammaires stochastiques Nous avons traite jusqu'ici des algorithmes d'apprentissage de concept sous la forme d'une grammaire. 7.ensemble regulier C 2 P tel que L soit engendre par GL sous le contr^le de C.com) .27 Octobre 2009 à 09:30 Une grammaire lineaire equilibree est caracterisee par des regles de la forme : A ! uBv j w avec : u v w 2 A B 2 N et : j u j=j v j Un langage lineaire equilibre est tel qu'il existe une grammaire lineaire equilibree qui l'engendre.6. Le sous-ensemble C peut ^tre vu comme un langage sur P : il peut donc ^tre regulier. importante (ce qui n'est qu'en partie corrige par l'usage d'un oracle) d'autre part.36 P formant un element de C . Elle partage avec elles deux caracteristiques fondamentales : la recherche des recursions comme heuristique de base et l'utilisation d'un oracle. et utilise la propriete suivante : Pour tout langage lineaire equilibre L.35 Citons maintenant un algorithme qui concerne une sous-classe des grammaires algebriques. L'espace de representation est donc partage en deux par un concept grammaire. o Propriete 7.2 Le probleme de l'inference d'une grammaire lineairement equilibree peut alors se ramener a celui de la construction d'un ensemble de contr^le eventuellement in ni. Pour toute phrase sur . La methode construit d'abord une certaine grammaire GL. la decouverte d'une recursion n'induit pas directement la grammaire.5 L'inference de grammaires lineaires equilibrees Ce document est la propriété exclusive de nona nina (ninasbalka@gmail. Takada Tak88] utilise la notion suivante : Un langage est dit engendre par une grammaire G = (V S P ) sous le contr^le d'un o sous-ensemble C 2 P quand toutes ses phrases se derivent de S par une suite de regles de De nition 7.7. il existe un unique sous.240 PARTIE 2 : Apprentissage par exploration. etc. 7.7 Quelques extensions 7. Cette methode est une generalisation et une actualisation des (( anc^tres )) de l'inference grame maticale. on sait decider si elle appartient ou non au langage engendre par une grammaire reguliere ou algebrique. e e algebrique. De nition 7. . lineairement equilibree universelle (autrement dit telle que L(GL ) = X ). l'algorithme de Chomsky et Miller CM57a] pour les langages reguliers et son extension aux langages algebriques par Solomono Sol59]. mais regulier Takada o propose un algorithme general d'inference de ces grammaires dont la partie inductive peut ^tre e composee a partir de n'importe quel algorithme d'inference reguliere. Une extension de l'inference grammaticale consiste a etudier l'apprentissage de grammaires stochastiques.

2] b [0. De m^me.4] F Fig. la phrase abbb ne peut ^tre acceptee par l'automate e 0 :8 0:6 0:6 0:4 de la gure 7.8] S A a [0. .19 b [0. la grammaire suivante est reguliere stochastique : e 241 Elle correspond a l'automate ni stochastique de la gure 7. a une probabilite nulle : e bb 0].19 que par la succession de transitions S .27 Octobre 2009 à 09:30 S S A A 0:8 . sur toutes les facons possibles que cette phrase a d'^tre emise par la grammaire. Sous certaines conditions.! 0:6 . chaque non-terminal ayant une probabilite totale de 1 d'^tre applique. le langage engendre peut s'ecrire : fa 0:2]g fabn 0:8 0:6n.! 0:4 . Par exemple.! F : il n'y a qu'une seule facon de l'emettre. Toujours dans notre exemple. Un echantillon d'inference stochastique est constitue d'un ensemble de phrases muni de frequences d'apparition. 36. Par exemple. l'inference consiste donc a apprendre un automate ni stochastique a partir d'un tel echantillon d'inference. 7.Chapitre 7 L'inference grammaticale Une grammaire stochastique est constituee comme une grammaire ordinaire. le multiensemble: fa ab ab ab abb abb abbbbg peut se recrire : 1 fa 7 ] ab 3 ] abb 2 ] abbbb 1 ]g 7 7 7 Pour en rester au cas regulier.! A . mais a chaque regle est associee une probabilite d'application. du produit des e probabilites des regles utilisees.com) . c'est-a-dire qu'elle de nit une distribution de probabilites sur . On peut donc aussi le considerer comme un multiensemble de sequences. La probabilite d'une phrase par rapport a une grammaire se calcule comme la somme.! A . Par exemple.1 0:4] j n 1g On peut veri er que la grammaire proposee est consistante.6] Ce document est la propriété exclusive de nona nina (ninasbalka@gmail. la phrase bb.! aA a bA b a [0. non acceptee par l'automate.! A . On la notera ici : abbb 0:0069]. L'emploi de ce mot est ici sans ambigu te. on peut assurer qu'une grammaire stochastique est consistante 36 .! 0:2 .19 { Un automate ni stochastique. Sa probabilite est : 0:8 0:6 0:6 0:6 0:4 = 0:0069.

Ceci permet de representer des concepts aussi complexes que des modeles de la langue ecrite. Le developpement des algorithmes d'inference stochastiques a parallelement permis l'apprentissage . il faut recalculer les probabilites associees a ses transitions de sortie de maniere a garantir la consistance du langage accepte. TD]). les reseaux connexionnistes recurrents.2 Le point de vue connexionniste Terminons cette section en ouvrant un apercu sur un certain nombre de travaux qui portent sur l'utilisation de reseaux connexionnistes en inference grammaticale. Parmi les nombreuses variantes. Comme il n'y a pas de contre-exemple. l'arr^t du processus doit se faire par un critere empie rique. Quand deux etats sont fusionnes. les probabilites associees aux productions de la grammaire peuvent ^tre mises a jour par comptage de la frequence d'utilisation des regles lors de l'analyse e corrective de chaque nouvelle cha^ne. Notes historiques et sources bibliographiques L'inference grammmaticale est desormais a la convergence de plusieurs domaines qui se sont developpes plus ou moins independamment : l'algorithmique d'apprentissage pour la reconnaissance structurelle des formes Fu74] la theorie de l'apprentissage Pit89] les sciences cognitives . Cependant une equivalence theorique entre certains reseaux connexionnistes et les automates nis deterministes a ete demontree. L'idee est d'utiliser l'apprentissage par reseaux connexionnistes (voir le chapitre 10) ayant pour entrees des sequences et non plus des vecteurs de IRd . qui etablit un compromis entre la complexite de l'automate infere et son adequation avec l'echantillon. Le choix des deux etats a fusionner se fait par exemple en cherchant a maximiser la ressemblance entre la distribution de probabilites sur l'echantillon et celle donnee sur par l'automate obtenu ou sur un test statistique. Le principe de cet apprentissage ne correspond pas au cadre classique de l'inference tel que nous l'avons presente. qui est une generalisation de la technique RPNI (sans exemples negatifs) expliquee au paragraphe 7. Nous ne rentrerons pas ici dans le detail des methodes. Les algorithmes actuels sont tres puissants. JP98]. habituellement a partir d'echantillons positif et negatif. Une bonne reference recente sur ces sujets est SG98].242 PARTIE 2 : Apprentissage par exploration.4. Notons qu'il existe une extension stochastique de l'algorithme ECGI qui permet d'inferer une grammaire reguliere stochastique par une procedure incrementale en une seule passe sur l'echantillon positif CM99]. Car97]. On construit le PTA stochastique.7. Ce document est la propriété exclusive de nona nina (ninasbalka@gmail. Il faut pour cela utiliser des architectures plus complexes que celles des reseaux multicouches.27 Octobre 2009 à 09:30 7. Donnons le principe commun a plusieurs d'entre elles ( CO94].com) . RPNI et ses derives sont capables d'apprendre des automates de plusieurs centaines de milliers d'etats a partir d'echantillons de tres grande taille. En e et. et les reseaux d'ordre 2 ont ete utilises pour approcher le comportement d'automates nis. Des extensions de ces modeles ont ete proposees a n d'approximer les automates a piles qui sont equivalents aux grammaires algebriques. Le processus de generalisation est la fusion d'etats. qui genere au maximum de vraisemblance l'echantillon d'apprentissage stochastique.5.

Citons en vrac comme domaines d'application : les biosequences ( AM97].com) . Osherson. etc.univ-st-etienne.fr/eurise/gi/gi. etc. dans un registre voisin. ( OSW86]) qui s'interessent a l'apprentissage de fonctions recursives.27 Octobre 2009 à 09:30 Resume L'inference grammaticale apprend un concept a partir d'exemples positifs et negatifs de sequences. Les deux articles Sak97] et Lee96] decrivent particulierement l'inference de grammaires algebriques. On trouvera dans les articles bibliographiques des references a des techniques du m^me e type qui permettent l'apprentissage de transducteurs (des automates nis qui transforment des sequences en d'autres sequences). tandis que TD99] est assez complet sur l'inference stochastique. P. Les performances des algorithmes sont detailles dans LPP98]. Il renvoie en particulier a des bibliographies thematiques et a des textes de presentation. certains types de transducteurs et des modeles grammaticaux plus complexes. L'analyse algebrique de l'espace de recherche a ete decrite dans DMV94]. Une partie du texte de ce chapitre est repris de DM98] et de Dup96]. La theorie de l'inference grammaticale reguliere est particulierement bien decrite dans Pit89]. comme les grammaires d'arbres. a des grammaires d'arbres. Adriaans. a des grammaires de formes bidimensionnelles. BC97]) la structure des textes electroniques ( AMN94]. Les applications sont desormais d'une grande variete et d'une grande e cacite. La theorie et les algorithmes de l'inference grammaticale sont des themes riches et actifs en apprentissage. ces concepts sont des automates nis : ce sont des modeles simples.Chapitre 7 L'inference grammaticale de concepts qui ressemblent a celui dont l'echantillon provient. 243 Ce document est la propriété exclusive de nona nina (ninasbalka@gmail. refyoun99) le traitement du langage naturel ( Vid94a]) la traduction automatique ( CGV94]) la reconnaissance de la parole (( CM99]) l'etude des styles musicaux ( CAVR98]) la reconnaissance des caracteres manuscrits ( LVA+ 94]) la compression de donnees ( NMWM94]). . Des extensions existent pour les automates stochastiques.html est tres complet sur l'inference grammaticale. les travaux de D. En general. On doit aussi citer. Le site internet : http://www. mais tres utiles.

com) .Ce document est la propriété exclusive de nona nina (ninasbalka@gmail. .27 Octobre 2009 à 09:30 244 PARTIE 2 : Apprentissage par exploration.

comme c'est le cas lorsque l'on peut utiliser une relation de generalite entre hypotheses. et que la fonction d'evaluation y est generalement irreguliere. on peut aussi voir ces algorithmes o comme des methodes d'exploration guidees car elles decouplent l'espace d'hypotheses en l'espace d'hypotheses proprement dit et un espace (( genotypique )) dans lequel des operateurs d'evolution guident la recherche de meilleures hypotheses. soit de connaissances a priori sur le domaine permettant de contraindre la recherche. on peut considerer o qu'il s'agit la d'une sorte de methode de gradient stochastique utilisant une population plut^t qu'une seule hypothese.27 Octobre 2009 à 09:30 La recherche d'une bonne hypothese est generalement tres di cile car les espaces d'hypotheses sont de taille considerable. souvent in nie. Le principe est de faire une recherche dans l'espace H en utilisant une population d'hypotheses que l'on fait evoluer selon les recettes de l'evolution naturelle : en utilisant des operateurs genetiques de croisement et de mutation. Les algorithmes evolutionnaires occupent une place intermediaire. A defaut de quoi. C'est pourquoi il est avantageux de disposer soit d'une structure forte sur H.com) . Cette dualite les rend tres attrayantes et importantes a conna^tre. et en selectionnant les meilleurs individus pour engendrer la generation suivante d'hypotheses. . De l'autre.Chapitre 8 Apprentissage par evolution simulee Ce document est la propriété exclusive de nona nina (ninasbalka@gmail. Elles sont d'un large emploi dans les applications. C'est en raison de ces deux visages que nous avons place l'expose de ces methodes a la charniere de la partie sur l'apprentissage par exploration (guidee) et de la partie sur l'apprentissage par optimisation (utilisant des methodes de gradient). telle les methodes de gradient plus ou moins sophistiquees (comme le recuit simule). on est condamne a recourir a des methodes d'exploration plus faibles. D'un c^te.

de Coureur indien brun et blanc et peut-^tre d'Orpington. etant donne un animal cible. qui la crea en 1901 a partir de canard sauvage. . A. soit par l'utilisation de proprietes analytiques. des techniques d'evolution de code. essentiellement par des croisements visant a ameliorer tel ou tel critere sur l'oiseau : sa qualite gustative.) La cane est utilisee en croisement avec des m^les Pekin pour la production de canards dits Nantais. En quoi cette constatation peut-elle ^tre utile a l'apprentissage? D'abord. la quantite de sa ponte ou certains aspects de son apparence. Les sujets les mieux huppes ont ete selectionnes par des eleveurs seduits par cette singularite a n de creer un standard. ont connu un grand succes dans l'optimisation de fonctions compliquees et peu regulieres. on peut se demander si une modelisation informatique de ce code et la programmation d'une technique singeant l'evolution naturelle ne seraient pas une bonne technique d'optimisation. On voit donc que l'homme peut utiliser avec succes les principes darwiniens de la selection pour optimiser sa production domestique. On attribue a une eleveuse. Mrs Campbell.com) . Mme Flamencourt.. comme on l'a vu. les algorithmes dits genetiques. Le but de ce chapitre est de presenter un point de vue uni e sur ces techniques et d'en montrer la puissance et l'inter^t pour l'apprentissage arti ciel. e l'apprentissage arti ciel est etroitement relie a l'optimisation. en utilisant des croisements et en pro tant des mutations naturelles. Nathan. les eleveurs (( creent )) des races par des manipulations genetiques naturelles. a Canard Huppe. Plus interessant pour l'apprentissage. soit sous la forme de l'exploration d'un espace structure. au prix cependant d'un temps important de calcul. Restons donc sur l'idee que. Il est moins certain que l'on puisse considerer l'evolution naturelle comme une optimisation. Ensuite. les e premieres selections francaises dans les annees 1920. e es canards ne sont pas tous sauvages. Voici deux exemples de ce que l'on peut lire dans une encyclopedie recente des animaux domestiques 1 : Canard Kaki Campbell. fondes sur l'idee precedente. au sens informatique cette fois. 1993. ont ete developpees. C'est ce que l'on appelle la programmation genetique. D'abord. volailles. non pas parce que les especes existantes sont ratees.27 Octobre 2009 à 09:30 ns alimentaires ou esthetiques. Pour ce faire. mais parce que le critere que la Nature chercherait a optimiser est di cile a formuler et peut-^tre e inexistant. de plus en plus independamment de la metaphore biologique. puisqu'il est possible de modi er avec une grande rapidite (quelques dizaines de generations) le code genetique d'animaux complexes dans une direction choisie.(. animaux familiers et de rapport).. Cette question a ete posee des les annees 1960 et la reponse a ete positive sous plusieurs angles.246 L Ce document est la propriété exclusive de nona nina (ninasbalka@gmail. Raveneau : Inventaire des animaux domestiques en France (bestiaux. Cette race doit son nom a une eleveuse anglaise du Gloucestershire. Mutation du canard fermier. il est parfois possible de fabriquer un animal proche de cette cible. Certains sont domestiques et modi es a des 1.

on preferera souvent un apprentissage de regles plut^t qu'un apprentissage par reseau connexionniste.27 Octobre 2009 à 09:30 247 8. correspondant au monde a decrire et a interpreter. a l'exception du chapitre 6. bonne(s) description(s) du monde X dans H. mais expressif et intelligible.1 Trois espaces au lieu de deux Jusqu'a present.Chapitre 8 Apprentissage par evolution simulee Notations utiles pour ce chapitre pmut pcrois PH (t) PG (t) N Probabilite de mutation d'un bit Probabilite de croisement Population d'hypotheses dans H a l'instant t. ou plusieurs. Il doit aussi correspondre a un langage d'expression des hypotheses LH aussi intelligible que possible s'il est desirable qu'un expert humain puisse interpreter ce qui est appris. quand c'est possible. Il doit realiser un biais adequat. pour des raisons de similarite avec les mecanismes de l'evolution naturelle. L'idee est la suivante : a l'espace des hypotheses H est associe un autre espace appele. espace (( genotypique )) . l'exploration se fait par modi cau tion des hypotheses courantes par l'emploi d'operateurs syntaxiques simples operant sur l'expression des hypotheses dans le langage LH . u Ce prerequis a ete largement analyse dans le chapitre 2. Population de genomes dans G a l'instant t. Le probleme est de trouver des operateurs permettant d'atteindre n'importe quel point de H a partir de n'importe quel autre point (propriete de completude) et conduisant naturellement aux regions de H les plus prometteuses. l'espace des hypotheses est charge de trois missions : 1. C'est pourquoi. L'objectif de l'apprentissage se traduit souvent par une fonction de risque permettant d'evaluer la qualite de la description apprise du monde { l'espace des hypotheses H. tout en possedant des proprietes syntaxiques favorisant l'exploration. Il n'est generalement pas facile de trouver un langage LH a la fois limite du point de vue du biais inductif. De ce fait. Finalement. 2. c'est-a-dire pouvoir decrire les modeles du monde performants dans l'application visee. correspondant a l'espace des descriptions du monde ou encore des modeles ou theories. y compris pour orienter le systeme apprenant. 3. c'est-a-dire telle qu'elle permette d'atteindre une hypothese ou une combinaison d'hypotheses quasi optimale avec un co^t d'exploration limite. Ces trois missions ne sont pas forcement faciles a remplir simultanement. Taille de la population PG La fonction de performance ( tness function) t Le nombre d'individus participant a un tournoi L La longueur des cha^ne de bits des genomes de G n(s t) Nombre de genomes representants le schema s dans la population PG (t) Ce document est la propriété exclusive de nona nina (ninasbalka@gmail. l'apprentissage a ete aborde comme un jeu entre deux espaces : { l'espace des exemples X . Le but de l'apprentissage est de trouver une. Pourquoi alors ne pas decoupler ces objectifs? C'est ce que realisent les algorithmes d'evolution simulee. En general. o dont le resultat est plus di cile a interpreter.com) . il doit posseder une topologie favorisant une exploration e cace. tout en etant su samment limite dans son expressivite pour que l'induction soit possible et peu co^teuse en terme de taille d'echantillon de donnees.

Cette ecole preconise l'utilisation de IR pour l'espace genotypique.1). promeut l'usage d'un espace d'arbres decrivant des programmes dans un langage adequat (par exemple des expressions du langage Lisp). Se distinguent : { Les algorithmes genetiques developpes par John Holland a partir des annees 1960 et analyses en profondeur en 1975 Hol75]. chacune a rmant avoir identi e le bon espace G avec ses operateurs associes. { La programmation evolutive. x h = π(g) + + + - + + + - + + + H - + - - - X x g Ce document est la propriété exclusive de nona nina (ninasbalka@gmail. Lorsqu'il faut changer d'hypothese ht dans H. Si les applications et les idees de developpement sont foisonnantes pour l'ensemble de ces approches. y compris eventuellement a une a autre passe d'apprentissage en partant de conditions initiales di erentes (voir la gure 8.248 PARTIE 2 : Apprentissage par exploration. Holland a ainsi propose une analyse theorique. Ce cycle d'evaluation des hypotheses dans H et de modi cation via G se deroule jusqu'a ce qu'une bonne hypothese soit trouvee ou qu'il soit decide de consacrer les ressources computationnelles a d'autres t^ches. Plusieurs ecoles se sont developpees en concurrence depuis les annees 1960. et note G . Les references a la metaphore de l'evolution naturelle sont les plus explicites dans ce travail et le principe general de ces algorithmes a servi de standard pour les autres approches. et en n l'espace (( genotypique )) G dans lequel s'e ectuent les operations permettant l'exploration de H. defendue avec force par Koza depuis 1992. { Les strategies d'evolution developpees par Rechenberg et Schwefel en 1965 pour la resolution de problemes d'optimisation de structures mecaniques. etudie l'exploration d'un espace d'automates a etats nis (FSA) pour decrire certains types de fonctions et de programmes. { La programmation genetique.com) . Beaucoup reste donc a faire dans ce domaine.1 { L'induction est ici realisee par un jeu entre trois espaces : d'abord l'espace des exemples X . les arguments theoriques expliquant leur fonctionnement et demontrant la superiorite de l'une d'entre elles sur les autres sont encore au stade exploratoire. developpee par Fogel a partir de 1966. le ( theoreme des schemas ) . Le probleme est d'identi er les espaces G appropries. 8. ensuite l'espace des hypotheses H dans lequel est cherchee une description adequate de X . . Le decouplage des missions devolues a l'espace des hypotheses avec un espace special dedie a la mission d'exploration est une idee interessante. on prend l'expression genotypique associee gt dans G a laquelle on fait subir des operateurs de modi cation pour obtenir de nouvelles expressions gt+1 correspondant a de nouvelles hypotheses ht+1 qui sont alors testees pour mesurer leur performance dans le monde X .27 Octobre 2009 à 09:30 G Fig. montrant selon lui la superiorite d'un espace genotypique decrit ( ) dans un langage de cha^nes de bits.

selon nous. On a alors le processus schematise dans la gure 8. Nous considerons desormais que l'espace des hypotheses H est couple a un espace genotypique G . en fonction des performances des hypotheses de la population PH (t) associee. Nous devons avertir le lecteur que cela est original et qu'en general on parle plut^t o d'algorithmes d'evolution simulee (ES).27 Octobre 2009 à 09:30 8.2 Un modele formel simpli e de l'evolution Cette section introduit les concepts fondamentaux communs aux algorithmes operants sur le genotype ainsi que l'algorithme d'apprentissage general. ce chapitre etudie brievement tour a tour les quatres familles de methodes decrites ci-dessus. l'espace genotypique. plut^t que sur la o recherche d'une hypothese unique. aux donnees d'apprentissage fournies dans X . tandis que l'acronyme AG est reserve a l'approche des algorithmes genetiques. Ce phenomene est appele (( coevolution )). du passage par un espace dedie a la mission d'exploration. A n de souligner l'idee essentielle. 8. Ce chapitre se termine par sa description et par les perspectives ouvertes vers le developpement d'(( ecologies )) d'hypotheses.2 et dont les etapes du cycle general sont les suivantes : . appelee ici mesure de performance ( tness function). Quelle est la nature de ce couplage? Notons la relation liant G a H. c'est-a-dire des theories (au sens de fragments de connaissance organises). par l'intermediaire d'une fonction de risque.2.1 Le jeu entre H et G 8. la repartition des r^les est la suivante : o { La mesure de performance s'e ectue dans H : on mesure la valeur d'une hypothese donnee en la confrontant. il n'y a pas necessairement injection : plusieurs elements g pouvant ^tre projetes sur une m^me hypothese h.2. H). determine une nouvelle population PG (t + 1) a l'etape suivante. il ne s'agit pas d'une bijection qui associe a chaque h un unique g. C'est pourquoi on quali e souvent l'espace H de phenotypique : celui ou s'expriment les traits des individus dont le genotype est decrit dans G . On notera cette fonction de performance : : H X ! IR. 249 Ce document est la propriété exclusive de nona nina (ninasbalka@gmail. nous appellerons ces familles de techniques (( algorithmes operant sur le genotype )) ou encore AG.com) . En general. Dans cette dualite (G . Une idee interessante qui s'impose naturellement avec ces approches d'evolution simulee est celle de populations d'hypotheses se developpant en symbiose. mais ce sera par abus de langage que l'on parlera de couple (g h). Par ailleurs. { La variation concommittante a l'apprentissage s'e ectue dans G . Dans ce cas.Chapitre 8 Apprentissage par evolution simulee Apres une description generique de ces approches. le systeme calcule un ou plusieurs nouveaux elements gt+1 correspondant a une ou plusieurs nouvelles hypothese(s). S'il y a en e et toujours surjection : chaque hypothese h est l'image par d'au moins un element g 2 G (H etant le plus souvent de ni par reference a G : H = (G )). on considere une o population PG (t) d'elements de G a l'instant t qui. les methodes d'apprentissage issues de cette metaphore utilisent souvent une population d'individus pour realiser l'apprentissage plut^t qu'un individu unique. En reponse a la mesure de performance attachee a (gt ) = ht . On parlera donc a raison de dualite e e entre G et H.2 L'apprentissage comme processus d'evolution d'une population Ce processus d'apprentissage par jeu entre un espace H d'individus se mesurant a l'environnement et un espace G responsable du calcul de nouveaux individus a ete en grande partie in uence par la metaphore de l'evolution des especes telle que decrite par Darwin en 1859 Dar59].

com) . en general par une evaluation individuelle de chaque hypothese. Etape 3 Selection d'une operation de variation de PG (t) : en fonction de l'evaluation de la population PH (t). Ph(t) = π(Pg(t)) x + + Ph(t-1) x + x + - + + Ph(t+1) - + + + P(H) x x Ce document est la propriété exclusive de nona nina (ninasbalka@gmail. Cela evalue implicitement la population PG (t).27 Octobre 2009 à 09:30 + - - - - X Pg(t-1) Pg(t) x Pg(t+1) P(G) Fig. De ce fait. la dualite entre un espace genotypique charge des operations de variation d'une generation a la suivante et un espace phenotypique dans lequel se produit la selection . Dans ce travail. ou jusqu'a ce qu'une borne de ressources computationnelles soit atteinte.3 Les algorithmes genetiques Les algorithmes genetiques ont ete popularises par John Holland en 1975 gr^ce a son livre a Adaptation in natural and arti cial systems (reedite en 1992) Hol75]. dans ce schema. Holland met en avant quatre principes: 1. gr^ce a la fonction qui utilise les a donnees d'apprentissage. 8. Ce cycle est repete jusqu'a ce qu'une population PH (t) obtienne une evaluation jugee satisfaisante (par exemple la meilleure hypothese h 2 PH (t) ne change plus ou tres peu du point de vue de sa performance). Etape 4 Variation : l'operation de variation selectionnee a l'etape precedente est appliquee a PG (t) pour obtenir la nouvelle population PG (t + 1). Ces populations evoluent en cours de recherche. Etape 2 Mesure de la performance : la population d'hypotheses est evaluee. Holland cherche a utiliser la metaphore de l'adaptation naturelle des especes par variation et selection dans le but de realiser automatiquement une adaptation optimale a l'environnement. Etape 1 Expression : une population PG (t) 2 G est projetee dans l'espace phenotypique H par l'application : PH (t) = (PG (t)). Nous allons illustrer ce processus general en etudiant le cas des algorithmes genetiques. 8.2 { Le processus general d'apprentissage par l'utilisation d'un espace genotypique. le systeme selectionne l'operation de variation qui va transformer la population PG (t). A cet e et.250 PARTIE 2 : Apprentissage par exploration. Nous avons note ici P (H) et P (G ) des espaces de populations d'hypotheses et de genomes. il faut comprendre Ph(t) et Pg(t) respectivement comme une population d'hypotheses a l'instant t et une population de genomes a l'instant t.

le concept de primitives (building blocks) dans le code genetique qui se combinent pour assurer des interactions complexes necessaires a la construction d'hypotheses sophistiquees. Tant que le critere d'arr^t n'est pas satisfait. 8.3. . Il est dans ses grandes lignes decrit par les etapes de l'algorithme 8.3. retour en 2. chaque hypothese de H pourrait ^tre associee a un genome e de longueur 12 bits. Tournonsnous maintenant vers le probleme du codage utilisant un alphabet binaire. Nous avons decrit l'idee fondamentale de dualite dans l'introduction de ce chapitre. 6. 5. Modi cation des procreateurs par des operateurs genetiques et obtention de (( descendants )). Initialisation de la population PG (0). en particulier sexues 4. engendrer des genomes ne corespondant a aucune hypothese valide.1.3. La question est de savoir comment choisir la representation adequate pour le probleme etudie.6) revendique une justi cation theorique de l'emploi de representations binaires.com) . Le theoreme des schemas (voir section 8.4). Du point de vue pratique. e Nous allons aborder ces di erentes etapes une par une. 4. un codage des elements de G par un alphabet discret. Remplacement de la population courante par les individus resultant des operations genetiques de l'etape 4. evidemment) utilisent une representation dans l'espace des genotypes G . ou encore des genomes. 3. Par exemple. l'inter^t de ce type de representation est qu'il se pr^te a des operateurs de modi cation simples e e (voir section 8. Evaluation de la population courante PG (t) par un calcul de la performance de chaque hypothese h associee a chaque genome g 2 PG (t). 1. par des cha^nes de bits de longueur xe. dans la mesure ou il faut eviter qu'un operateur puisse. en (( cassant )) les primitives du codage. 2.2 L'algorithme generique L'algorithme genetique standard regle l'evolution d'une population de genomes sous la pression selective des performances des hypotheses correspondantes dans H.6) 3.Chapitre 8 Apprentissage par evolution simulee 2. a l'instar de l'alphabet a quatre lettres de l'ADN (Holland milite pour un alphabet binaire pour des raisons theoriques qui seront etudiees a la section 8.3. Generalement. permettant ainsi de representer 212 individus. Selection des meilleurs genomes de PG (t) qui vont devenir les (( procreateurs )) de la generation suivante PG (t + 1). Ce document est la propriété exclusive de nona nina (ninasbalka@gmail.1 Algorithme genetique standard. Algorithme 8. plus le nombre d'hypotheses representables est eleve.1 La representation dans l'espace genotypique Les algorithmes genetiques standards (car il y a des mutants. le choix du codage par des bits est lie a celui des operateurs de e u modi cation des genomes.27 Octobre 2009 à 09:30 251 8. une variation entre generations assuree par des operateurs genetiques. Cela implique un choix delicat de la taille de la representation : plus celle-ci est grande.3. mais plus aussi l'exploration de G et donc de H peut ^tre co^teuse.

252 PARTIE 2 : Apprentissage par exploration. 8. On distingue le croisement a un point et le croisement multipoint. 8. La variete des operateurs imaginables est in nie.3. ensuite. quelle est la taille optimale de la population pour favoriser l'exploration e cace de G . C'est a la fois un des charmes des travaux exploratoires dans ce domaine. Inversement. Il prend donc deux genomes et produit deux nouveaux genomes.4 Les operateurs Dans le cadre des algorithmes operant sur le genotype. si des connaissances a priori sont disponibles sur le probleme. { Dans le croisement a un point.3. l'idee essentielle est de combiner des caracteristiques des parents dans l'espoir d'obtenir des descendants bene ciant du meilleur des deux parents. Dans le cas d'une representation par cha^ne de bits de longueur xe. Cela est aussi souhaitable pour conserver une bonne diversite a la population.4. En e et. permettant ainsi d'echapper aux optima locaux. Il faut cependant se me er de ne pas pour autant trop amoindrir la diversite genetique necessaire a l'exploration par evolution simulee. et la mutation par erreur de recopie ou par alteration due a un agent exterieur (par exemple des rayons cosmiques).27 Octobre 2009 à 09:30 La plupart des algorithmes operant sur le genotype organisent l'exploration de l'espace G (donc indirectement de H) en s'appuyant sur une population d'individus qui evoluent en essayant de maximiser la performance mesuree dans H. sous peine de ne pas pouvoir repeter su samment les etapes necessaires a l'evolution de la population. il est possible de biaiser la population initiale en selectionnant des individus representant des hypotheses prometteuses. le croisement consiste a selectionner des sous-cha^nes de chaque genome et a les intervertir. De maniere analogue au croisement (cross-over) de la genetique naturelle. mais aussi une source d'agacement car bien souvent seul le concepteur d'un nouvel operateur en voit clairement l'inter^t ! John Holland a propose de suivre les recettes e de l'evolution naturelle en adoptant les deux principaux operateurs connus vers le mileu du XXe siecle 2 : la reproduction sexuee impliquant un croisement entre genomes. on tire d'abord au hasard un point entre deux bits de 2. le choix de la population initiale s'e ectue souvent par un tirage aleatoire sur chaque bit des cha^nes constituant les individus de G .1 Les operateurs de croisement Un operateur de croisement est une application de : G G ! G G .com) . . 8. comment initialiser les individus de la premiere generation PG (0)? Aucune de ces deux questions n'a de reponse theorique bien etablie. La taille de la population de genomes.3. est frequemment de l'ordre de plusieurs centaines d'individus dans les algorithmes genetiques.3 L'initialisation de la population Ce document est la propriété exclusive de nona nina (ninasbalka@gmail. et le choix de ces deux parametres est donc souvent le resultat de jugements plus ou moins eclaires sur la nature du probleme etudie. Depuis. Par ailleurs. les considerations pratiques de co^t compuu tationnel militent pour l'emploi de populations de taille limitee. Cependant. les recherches sur la genetique ont devoile d'autres operateurs qui semblent guider l'evolution et permettre par exemple une adaptation plus rapide quand des changements de milieu qui ont deja ete rencontres dans le passe surviennent (voir par exemple le livre de Christopher Wills La sagesse des g^nes)et le livre de science ction e L'echelle de Darwin (Darwin's radio) de Greg Bear pour un roman base sur ces idees. Deux questions decoulent de cette technique : d'abord. les justi cations theoriques de ces algorithmes indiquent qu'il faut des populations tres grandes (idealement in nies) pour que l'algorithme fonctionne optimalement. generalement xe au cours du deroulement de l'algorithme et notee N . on appelle operateurs des applications de nies sur G permettant le renouvellement de la population a chaque generation.

puis en prenant les deux genomes parents.3 0 0 pmut = 0. On parle alors de croisement uniforme.3 (b)). les sous-cha^nes echangees sont reduites a un bit.2 Les operateurs de mutation Un operateur de mutation est une application de : G ! G . Il prend en entree un genome (une cha^ne de bits) et retourne une autre cha^ne de bits. Chaque bit a alors e une certaine probabilite. on tire d'abord au hasard plusieurs points entre bits de la representation par cha^ne. (Voir gure 8. juste su sante pour assurer la mutation de quelques genomes dans la population PG (t). 8. suivant une probabilite pmut . En (b) un exemple de croisement multipoint. 1 0 0 0 1 1 0 1 0 0 1 1 0 1 1 Ce document est la propriété exclusive de nona nina (ninasbalka@gmail. on echange leurs sous-cha^nes a partir de ce point.4).27 Octobre 2009 à 09:30 253 (a) 1 0 0 0 1 0 0 1 0 1 1 1 1 0 1 0 0 1 0 1 1 0 1 0 0 1 1 0 1 1 0 0 1 0 1 0 0 1 0 1 1 1 1 0 1 1 0 0 0 1 1 0 1 0 0 1 1 0 1 1 0 0 1 0 1 0 0 1 0 1 1 1 1 0 1 (b) 1 0 0 0 1 0 0 1 0 1 1 1 0 1 1 0 0 1 0 1 1 0 1 0 0 1 1 1 0 1 1 0 0 0 1 1 0 1 0 0 1 1 0 1 1 0 0 1 0 1 0 0 1 0 1 1 1 1 0 1 (c) 1 0 1 0 1 0 0 1 0 1 1 1 1 1 1 0 0 0 0 1 1 0 1 0 0 1 1 0 0 1 Fig.5. En general la probabilite pmut est faible.4 { Un exemple d'operation de mutation sur une cha^ne de bits. Un operateur de mutation fonctionne en changeant aleatoirement. d'^tre echange avec le bit correspondant e de l'autre genome. 8. 8. En (c) un exemple de croisement uniforme. (Voir gure 8. 0 pmut = 1 0 0 0 0 0 0 0 0 0 pmut = 0.3 { En (a) un exemple de croisement a un point. .1 0 0 0 0 0 0 0 0 0 0 0 0 Fig. chaque bit de la cha^ne passee en argument dont la valeur est inversee ((Voir gure 8. on echange les sous-cha^nes correspondantes. la transformation n'a ecte que quelques bits de la cha^ne.com) .4.3 (c)). puis en prenant les deux genomes parents. Mais la proportion ideale de mutations est sujette a debats. { Dans le croisement multipoint.3. (Voir gure 8. souvent proche de 0. On parle de (( mutation )) pour indiquer qu'a l'instar des mutations genetiques rencontrees dans la nature.Chapitre 8 Apprentissage par evolution simulee la representation par cha^ne.5 0 0 0 0 0 0 0 0 0 0 0 0 pmut = 0. { Dans le cas extr^me.3 (a)).

Ce qui est interessant est d'essayer d'identi er les types de problemes pour lesquels chaque methode est la plus performante. Il en resulte que chaque methode est adaptee a certaines classes de problemes et inoperante pour d'autres classes de problemes.254 PARTIE 2 : Apprentissage par exploration. o conserve un taux de renouvellement. La controverse entre partisans d'une forte proportion d'operations de croisement et ceux favorisant l'usage de la mutation est donc sterile. Par combinaisons successives de blocs de plus en plus grands. En revanche. par exemple sous la forme d'un gradient local. Ce genre de strategie conduit le plus souvent a des optima locaux. cet operateur. Il est donc necessaire de disposer d'un autre operateur introduisant des nouveautes dans ce stock de primitives. elle est entierement soumise aux aleas du tirage et ressemble a une marche aleatoire. des genomes. L'exploration teste des solutions ailleurs que dans le voisinage immediat de la solution courante. Ce theoreme a rmant qu'aucune methode inductive n'est meilleure qu'une autre independamment d'une classe de problemes donnee a une contrepartie pour ce qui concerne les methodes d'optimisation par recherche dans un espace de solutions (voir Wol97]).3. il semble que l'usage important de l'operation de croisement soit interessant lorsque la fonction a optimiser est relativement continue. aucune methode d'optimisation n'est meilleure en moyenne sur tous les problemes d'optimisation possibles. La recherche en genetique laisse supposer que l'echange de materiel genetique entre individus joue un grand r^le dans l'evolution des organismes avances. en n'exploitant pas l'information acquise. implementent un compromis entre l'exploitation et l'exploration (voir aussi certaines methodes d'apprentissage par renforcement (chapitre 16)). Dans l'etat actuel des connaissances. C'est egalement le cas des algorithmes genetiques par l'usage des operateurs de croisement et de mutation. 8. pour modi er l'estimation courante. combine avec le processus de selection qui elimine des individus.27 Octobre 2009 à 09:30 . nous conseillons de consulter Ce document est la propriété exclusive de nona nina (ninasbalka@gmail. le croisement permettrait ainsi l'evolution vers des organismes de plus en plus performants tendant a ^tre retenus par le proe cessus de selection naturelle. par la modi cation aleatoire de bits. Le principe en serait que ce o croisement permet une recombinaison de primitives deja testees (blocs d'ADN ou sequences de bits) ouvrant la possiblite de combinaisons encore plus performantes entre ces primitives. tend a appauvrir le stock de primitives disponibles. les promoteurs des strategies d'evolution ont le discours inverse. Ici aussi. L'operation de mutation ne serait la que pour conserver une source de diversite necessaire. parfois par tirage aleatoire. Cette seconde strategie permet d'explorer plus largement l'espace de recherche et d'echapper ainsi aux optima locaux. Il s'agit la d'une sorte d'exploitation des informations contenues dans la population courante de genomes. Pour John Holland. ce qui revient a implementer une sorte d'algorithme de gradient stochastique. De tels algorithmes font face au dilemme classique (( exploitation contre exploration )).4.3 Debat : le r^le des operateurs o Une maniere d'envisager les algorithmes genetiques est de les considerer comme des algorithmes d'optimisation par recherche dans un espace de possibilites.com) . La mutation joue ainsi un r^le d'exploration. L'exploitation utilise l'information acquise. l'operation de croisement est fondamentale puisqu'elle permettrait l'emergence progressive de primitives de plus en plus interessantes dans le contexte de l'environnement courant. comme le recuit simule. Qui a raison? Il est utile de se reporter au no-free-lunch theorem qui sera debattu dans le chapitre 17. En revanche. C'est le r^le de l'operateur de mutation qui. A ceux que cette caracterisation tres qualitative ne satisfait pas. Certaines methodes de recherche. En revanche. o La proportion de ces deux operateurs dans l'etape de modi cation d'une generation PG (t) pour passer a la suivante est sujette a controverse. ne presentant pas trop de discontinuites. donc de diversite. minimisant le r^le du croisement pour se concentrer sur celui o de la mutation.

ou dans la recherche d'un programme de commande de robot). une approximation de la fonction d'evaluation pour accelerer le calcul.Chapitre 8 Apprentissage par evolution simulee les travaux recents portant sur la notion de (( ruguosite )) du paysage de la fonction a optimiser (voir par exemple Ang98]).5 La selection Ce document est la propriété exclusive de nona nina (ninasbalka@gmail. si c'est possible et avec circonspection. Si en e et celle-ci est trop elevee. il faut decider quelles hypotheses meritent attention et peuvent servir pour le calcul de la generation suivante. Pour terminer sur ce probleme. Il faut cependant regler avec soin la pression selective. 255 8. Conformement a la theorie darwinnienne de l'evolution. comme c'est frequemment le cas (par exemple dans la recherche d'une structure u mecanique devant remplir un certain cahier des charges. D'un certain c^te. on parle de fonction d'evaluation ou de fonction de performance quand on n'adopte pas directement le terme anglais de tness function. e l'etape la plus exigeante en ressources computationnelles. Dans ce cas. o 8.27 Octobre 2009 à 09:30 Les operateurs etudies dans la section precedente fonctionnent dans l'espace G des genotypes. avec l'espoir de la conduire dans les regions les plus interessantes. Orientant l'exploration de G . c'esta-dire ceux qui transmettront du materiel genetique. on peut utiliser. surtout pour les premieres generations. la selection doit tendre a favoriser les meilleurs individus d'une population pour en faire les (( parents )) de la generation suivante.3. Dans le contexte des algorithmes operant sur le genotype. alors l'evaluation d'une population d'hypotheses peut ^tre.5. Inversement. il a reste a decider quels individus seront selectionnes pour le calcul de la generation suivante par l'utilisation d'operateurs genetiques. qui consiste a calculer la nouvelle population d'hypotheses. l'etape de selection joue un r^le de methode d'exploitation puisqu'elle o o utilise l'information rendue disponible par l'evaluation de la population courante des hypotheses pour decider ou doit porter l'attention dans la generation suivante. il est a noter que les techniques les plus recentes utilisent une adaptation dynamique de la proportion de chaque operateur en fonction des informations glanees lors de l'exploration de l'espace de recherche. une phase de selection proprement dite ou l'on ne retient qu'une partie de la population courante d'hypotheses. et une phase de remplacement qui remplace la population courante PH (t) par une nouvelle population PH (t + 1). ils contr^leront o aussi l'exploration de H. . C'est le r^le de l'etape de selection. le risque est grand d'une perte de diversite dans la population d'hypotheses. Il est tentant d'evacuer rapidement la phase d'evaluation des hypotheses. On peut y distinguer trois phases : une phase d'evaluation dans laquelle chaque hypothese h 2 H est evaluee (par exemple en mesurant son risque empirique). Apres tout il n'y a rien la de nouveau : il s'agit seulement d'evaluer la qualite ou la performance de chaque hypothese dans le contexte des donnees d'apprentissage. Cela facilite aussi l'adaptation dans des environnements changeant avec le temps.com) . ce qui conduit a une convergence prematuree. Nous voulons cependant souligner l'importance de cette etape dans le contexte des algorithmes operant sur le genotype. c'est-a-dire la tendance a ne conserver que les meilleurs individus. s'e ectue dans l'espace H sous la pression de l'environnement decrit dans l'espace des entrees X . ce qui signi e que le plus souvent de tres nombreuses hypotheses doivent ^tre testees. Une fois que toutes les hypotheses de la population courante ont ete evaluees. et quels individus seront conserves ou au contraire elimines. En e et. ces algorithmes impliquent generalement l'evolution de populations d'hypotheses.3. La selection. et de loin. C'est ce que realise l'etape de selection.1 L'etape de selection Une fois que la qualite des individus est determinee gr^ce a la fonction de performance . Si l'evaluation d'une hypothese e est co^teuse.

256 PARTIE 2 : Apprentissage par exploration. Dans la selection par roulette proportionnelle au rang (second camembert). Par exemple. 1. Dans ce cas. Le tirage au hasard selon la roulette donne une esperance de tirage de chaque individu proportionnelle a ce nombre. une pression selective insu sante ne conduit pas a une convergence. Pour eviter ce risque de perte de diversite prematuree.27 Octobre 2009 à 09:30 Selon la selection proportionnelle a la performance. L'e et _ (N . les individus sont ordonnes dans l'ordre de leurs performances respectives. Plusieurs techniques ont ete proposees pour regler ce compromis.5). 8.com) . h 1 h 2 h 3 h 4 h 5 h 6 h 7 h 8 h 9 h 10 400 300 200 100 0 h 1 h 2 h 3 h 4 h 5 h 6 h 7 h 8 h 9 h 10 h5 h4 3 h h2 h1 h6 h7 h8 h 10 h9 h 4h 3 h 2 h5 h6 h7 h8 h1 h 10 h9 Fig. Le tirage au hasard selon la roulette donne une esperance de tirage de chaque individu proportionnelle a sa performance absolue. Chaque hypothese h 2 PH (t) est evaluee par la fonction de performance (phi comme tness). a chaque individu est associe un rayon de la roulette dont l'angle est proportionnel a sa performance absolue. Un inconvenient de la selection proportionnelle a la performance est que si un ou plusieurs (( superindividu(s) )) apparaisse(nt). Par analogie avec la roulette des casinos. ou N est la taille de la population. on parle souvent de selection par roulette (voir gure 8. tandis qu'elle est au contraire accentuee si la variance est faible (voir gure 8. de performance tres superieure aux autres. le dernier de un. La selection proportionnelle a la performance mesuree.5 { On considere ici une population de dix hypotheses dont la performance est guree dans le graphique de gauche.5). on utilise une roulette dans laquelle chaque individu est h) associe a une part proportionnelle a Nrang(1)i=2 . la probabilite qu'un individu soit selectionne pour participer a la production de la generation suivante est egale a sa performance proportionnelle prop(h). le second de ce nombre moins un. . a chaque individu est associe un rayon de la roulette dont l'angle est proportionnel a son rang dans la population. et la probabilite de participer a la construction de la prochaine generation est determinee par le rang et non directement par la performance. on utilise souvent la selection proportionnelle au rang. le meilleur individu etant credite du plus grand nombre. Il arrive alors frequemment que la population stagne dans un optimum local. La selection proportionnelle au rang. Dans la selection par roulette (premier camembert). Nous en presentons ici trois parmi les plus classiques. ils risquent de completement monopoliser le pool genetique dont sera issu la prochaine generation. obtenu est celui d'une pression selective adoucie lorsque la variance des performances est grande. La performance proportionnelle de chaque hypothese est alors de nie comme : prop(hi ) = P hj 2PH(t) (hi ) (hj ) Ce document est la propriété exclusive de nona nina (ninasbalka@gmail. 2.

µ N λ N PG(t) PG(t+1) Fig. e tandis que les individus selectionnes sont utilises pour l'operation de mutation. Bien s^r ces proportions peuvent varier. Les methodes de selection decrites ci-dessus exigent l'evaluation de toutes les hypotheses de la population. Chaque generation n'implique . Une methode extr^me consiste a remplacer entierement la generation precedente par les e descendants calcules. Un autre atout de cette methode est qu'elle est peu sensible aux erreurs de la fonction de performance .com) . l'idee est alors d'organiser tournois de t N individus chacun. le croisement n'est pas employe. on utilise souvent des valeurs de k comprises entre 2 et 10. L'inconvenient de cette methode est qu'elle risque de perdre des individus excellents d'une generation et de les remplacer par des individus plus mediocres.27 Octobre 2009 à 09:30 8. Une autre methode peut eviter cela. Une alternative a ces methodes impliquant le remplacement d'une generation par la suivante est la technique de generation par remplacement local (steady-state).6 { Le schema general du remplacement d'une population par la suivante. Plusieurs variantes sont possibles suivant que des individus de la population precedente sont admis a perdurer dans la nouvelle population ou non. ils sont utilises comme entrees des operateurs genetiques a n de calculer des individus neufs. La taille k de ces tournois est un parametre permettant de contr^ler la pression o selective : plus k est grand. sachant qu'en general la taille N de la population reste xe. en respectant une population totale constante. On parle alors de remplacement ( ) ou les individus de la generation suivante (ici = N ) sont les meilleurs des individus obtenus par les operateurs genetiques.Chapitre 8 Apprentissage par evolution simulee 3. qui de plus se pr^te bien a une parallelisation des calculs. plus celle-ci est grande.5. Supposons que individus aient ainsi ete retenus : un cas typique est d'utiliser environ =2 individus pour des croisements. Dans la pratique. Supposons que l'on ait besoin de e selectionner individus pour engendrer la generation suivante. Le principe consiste a selectionner une sous-population de la population totale puis de determiner par roulette ou par tournoi un ou des parents dans cette sous-population pour engendrer les remplacants de cette sous-population. il faut decider de quels individus sera composee la population suivante. On retient alors le meilleur individu de chaque tournoi. Ainsi dans les strategies d'evolution.3. qui consiste a tirer les N nouveaux individus parmi les parents selectionnes plus les descendants calcules. 8. le remplacement ( + ). 257 Ce document est la propriété exclusive de nona nina (ninasbalka@gmail.2 L'etape de remplacement Apres que la selection a retenu parents et que ceux-ci ont produit descendants. C'est pourquoi une autre methode est plus souvent employee. Une fois que les individus les plus aptes ont ete selectionnes. parents sont selectionnes dans la population courante pour engendrer individus qui gureront dans la population suivante. u et m^me considerablement. La selection par tournoi. Le reste des individus necessaires a la completion de la population est obtenu par des methodes variees. =20 pour de la mutation et le reste pour une simple recopie.

on recherche une hypothese optimale via l'exploration de l'espace des genomes G . un schema est une primitive de construction dans la mesure ou le trait qu'il code dans H corres- Ce document est la propriété exclusive de nona nina (ninasbalka@gmail. qui correspondent chacune a des proprietes particulieres des hypotheses associees. Ces travaux utilisent principalement des modelisations par cha^nes de Markov. En e et. a savoir que le nombre de tests necessaires a l'obtention d'un optimum global par une recherche aleatoire cro^t exponentiellement avec la dimension L de l'espace de recherche quelle que soit la fonction de performance cible. Qu'est-ce qui fait alors la di erence avec des algorithmes utilisant le genotype? Qu'est-ce qui peut expliquer leur puissance apparente? L'une des motivations de John Holland etait de montrer pourquoi l'operateur de croisement est essentiel dans le fonctionnement des algorithmes genetiques. L'hypothese fondamentale de Holland est qu'un genome optimal est une superposition de parties de genomes qu'il appelle des schemas. ou des concepts tels que la rugosite de l'espace de recherche.1).4. Le croisement permettant la combinaison de ces primitives en superprimitives conduirait alors a l'emergence de superindividus. plusieurs travaux de recherche importants ont ete dedies a l'etude theorique du fonctionnement des algorithmes operant sur le genotype (voir par exemple Cer95. une primitive peut ^tre n'importe e quelle sous-sequence de cha^ne de bits qui se presente dans la population. par martingales. Cependant.com) . les algorithmes operant sur le genotype ont ete testes sur de tres nombreux domaines d'application et revendiquent des succes parfois spectaculaires sur des problemes reputes di ciles. Nul doute que ces travaux defrichent un terrain qui se revelera fecond et qu'un specialiste des algorithmes operant sur le genotype doit conna^tre. Plus formellement. il nous semble interessant de consacrer l'espace limite de ce chapitre a une analyse theorique deja ancienne : le theoreme des schemas d^ a Holland en 1975. L'inter^t de cette technique est de se pr^ter aisement a une implementation asynchrone et e e decentralisee.6 Le theoreme des schemas : une explication de la puissance des AG? Les algorithmes operant sur le genotype decouplent le probleme de l'expression des hypotheses de celui de son exploration en deleguant celui-ci a un autre espace dote d'operateurs propres : l'espace des genotypes. Depuis leur conception. Vos99] .27 Octobre 2009 à 09:30 . Rud97. Il est temps de s'interroger sur la source de la puissance de ces algorithmes. Dans le cadre des algorithmes genetiques.. L'idee fondamentale est que les genotypes associes a des hypotheses contiennent dans leur code des primitives de construction (building blocks). donc que le remplacement de certains individus et non le remplacement de toute la population. de mieux cerner les familles de problemes pour lesquels ils sont les plus adaptes. ces individus tendent a ^tre davantage selectionnes pour la reproduction de la nouvelle generation e et par consequent ces primitives tendent a se multiplier et a se repandre dans la population (le theoreme des schemas montre que cet accroissement des bonnes primitives est exponentiel en cours d'evolution). Ainsi. m^me si elle a ete depuis l'objet de nombreuses etudes critiques u e et semble depassee sur certains points. elle est encore la source de profondes interrogations.258 PARTIE 2 : Apprentissage par exploration. ce qui devrait permettre aussi.3. L'hypothese est que la possession dans leur code genetique de bonnes primitives augmente la performance des individus qui en sont dotes (comme la possession d'un c ur augmente notablement le domaine d'action des organismes qui en sont dotes). ce qui revient a chercher un genome optimal. dans l'esprit du no-free-lunch theorem (voir 17. Depuis quelques annees.. Mais cette notion s'etend aussi aux algorithmes utilisant d'autres types de representations : des sous-arbres dans le cas de la programmation genetique ou des portions d'automates dans le cas de la programmation evolutive. De ce fait. Ces algorithmes ont egalement une source d'inspiration dans les modeles de l'evolution. Le point de depart de cette etude theorique reside dans un resultat de la theorie de Markov. Kal99.). 8.

*1** (dimension 3). ajoute encore des contraintes sur ces schemas si l'on veut que les algorithmes operant sur le genotype fonctionnent. une cha^ne de bits g est appariable a plusieurs schemas : tous ceux qui correspondent aux sous-espaces de G contenant g. Soit L la longueur des cha^ne de bits de G . La discussion qui suit s'applique aux algorithmes genetiques qui operent sur des cha^nes de bits de longueur xe. Par exemple.27 Octobre 2009 à 09:30 De nition 8. 0*0* (dimension 2) ou encore 01*0 (dimension 1). Appelons n(s t) le nombre de schemas s representes par une population de genomes a l'instant t. Il est crucial de noter que cette hypothese fondamentale est nullement triviale et correspond en fait a une contrainte tres forte sur la relation entre H et G . L'evolution de la population dans un algorithme genetique depend de l'etape de selection. Nous allons voir que le theoreme des schemas. dont par exemple **** (dimension 4).Chapitre 8 Apprentissage par evolution simulee pond a une propriete mesurable et que c'est l'addition de telles proprietes qui rend une hypothese performante. puis des operations de croisement et de mutation. dont les traits correspondants sont exprimes dans l'hypothese h associee a g. le schema s =0*10 de ni sur un espace de cha^nes de bits de longueur 4 est appariable a l'ensemble des cha^nes de bits contenant exactement 0010 et 0110.1 (Schema) Par exemple. L'extension a d'autres types de representations a fait l'objet de travaux mais se heurte a des di cultes que nous soulignerons dans les sections correspondantes. Trouver un tel code n'est generalement pas une t^che aisee. la probabilite pour un genome Pr(gi) = P (gi ) (gj ) = N (t) gj 2PG (t) (gi ) (8. Inversement.com) . qui decoule de cette hypothese fondaa mentale. Considerons d'abord l'e et de la selection. Il y a par consequent 3L shemas de nis sur G 259 Ce document est la propriété exclusive de nona nina (ninasbalka@gmail. la cha^ne de bits 0100 est contenue dans 24 schemas (c'est-a-dire dans les sous-espaces de G associes).1) . Exemple 8. On peut donc considerer qu'un individu g de G est representatif d'un certain nombre de schemas. quand en toute rigueur il s'agit de la performance mesurable de l'hypothese associee h. la superposition de deux schemas etant associee a l'addition de deux proprietes mesurables dans H. Le theoreme des schemas decrit l'esperance de n(s t + 1) en fonction de n(s t) et d'autres proprietes de la population et des parametres de l'algorithme. Un schema s est une cha^ne sur f0 1 gL ou la signi cation du symbole est 0 ou 1.1 Un schema correspond ainsi a un sous-espace projete de G . Cela signi e en e et que le codage des hypotheses dans G respecte une independance entre les proprietes pertinentes (pour la performance) des hypotheses. on parlera de la performance (g) d'un genome g. Par abus de langage. Soit donc (t) la performance moyenne des individus de la population PG (t) a l'instant t : 1 (t) = N X g2PG (t) (g) gi d'^tre selectionne est : e D'apres la regle de selection proportionnelle a la performance.

3 (Longueur caracteristique d'un schema) .3) (t) Si l'on regarde seulement l'e et de la selection d'une generation a la suivante. alors qu'il represente un sous-espace de dimension 4 de f0 1 g5 et le schema 10 11 d'ordre 4 . l'e et des algorithmes genetiques devrait ^tre de reveler et de favoriser les primitives de construction interessantes pour e la t^che courante.2) Ce document est la propriété exclusive de nona nina (ninasbalka@gmail. La probabilite que cela arrive depend du nombre de bits de nissant un schema. d'ou la valeur e de l'esperance : E n(s t + 1)] = (s t) n(s t) (8. La probabilite de selectionner un genome representatif d'un schema s est alors : X (g) (s t) Pr(g 2 s) = = n(s t) N (t) N (t) g 2 s\PG (t) (8. C'est aussi le nombre de caracteres dont la valeur est speci ee dans s. le nombre de bits entre le symbole non egal a * le plus a gauche dans la cha^ne et celui le plus a droite. un genome peut ne plus appartenir a un schema donne. On appelle longueur caracteristique d(s) d'un schema s. a c^te de leurs eventuels o e ets bene ques. L'esperance d'appartenance au schema s pour l'ensemble des individus de la population PG (t) resulte de N fois le m^me tirage independant.260 PARTIE 2 : Apprentissage par exploration.3 montre que l'esperance du nombre de genomes representatifs d'un schema s a l'instant t + 1 est proportionnelle a la perfomance moyenne de ce schema a l'instant t et inversement proportionnelle a la performance moyenne de la population de genomes a l'instant t.27 Octobre 2009 à 09:30 L'equation 8. ont aussi des e ets destructeurs. C'est ainsi que le schema 0 est d'ordre 1. il nous faut donc deux de nitions exprimant des caracteristiques des schemas importantes lorsque les operateurs genetiques sont employes. Une operation de croisement (ici on ne considere que les croisements a un point) peut de la m^me maniere produire des descendants n'appartenant plus a un schema e donne. cet e et selectif n'est pas su sant pour construire des superindividus. ou (s t) est la performance moyenne des genomes de la population PG (t) representatifs du schema s : P (g ) s (s t) = g 2 n\PG (tt)) (s De nition 8. les schemas associes a des performances mediocres devraient tendre a dispara^tre. On appelle ordre o(s) d'un schema s le complement a L de la dimension du sous-espace correspondant.com) . l'equation 8. De fait.2 De nition 8.2 (Ordre d'un schema) Exemple 8. Il faut tenir compte des operateurs de croisement et de mutation. Les schemas dont la valeur moyenne est superieure a la performance moyenne generale devraient donc voir le nombre de leurs representants augmenter au cours des generations. augmente de 1. dans sa representation comme une cha^ne de L caracteres de l'alphabet f0 1 g. Or ceux-ci. Globalement. Inversement. Il su t pour cela que le point de croisement se trouve situe (( a l'interieur )) du schema considere. Pour enoncer completement le theoreme des schemas. sous l'e et d'une mutation. a Cependant.2 vaut pour un genome.

plus la probabilite qu'un operateur de croisement detruise l'appartenance a ce schema d'un descendant est grande. Si c'est la e ectivement la source de puissance des algorithmes genetiques. conformement a l'equation 8. qui signi e que certaines parties du genome peuvent avoir une in uence sur l'expression d'autres parties du genome. d(10 1 ) = 3 et d( En notant pcrois la probabilite d'utilisation de l'operateur de croisement et pmut la probabilite de mutation d'un bit. Une idee profonde de Holland est que les algorithmes genetiques. Exemple 8. Il faut donc maximiser le nombre de schemas qui sont representes par une population de genomes de taille donnee. Plus la longueur caracteristique d'un schema est grande. Les detracteurs de ce theoreme se sont ingenies a concevoir des problemes dits (( trompeurs )) (deceptive problems) qui ne satisfont pas les codages usuels et mettent donc les algorithmes genetiques en defaut. lesquels se trouvent ainsi a mis en competition.com) . (t) Ce document est la propriété exclusive de nona nina (ninasbalka@gmail.1 (Le theoreme des schemas (Holland. Une autre source d'insu sance du theoreme des schemas reside dans son incapacite a prendre en compte ce que l'on appelle l'epistasie. en calculant des populations successives de genomes. Holland en conclut que l'e et des algorithmes genetiques est de favoriser l'apparition des representants des schemas les plus performants. Malheureusement. Le deuxieme decrit l'e et destructeur du croisement.4) Le premier terme de droite decrit l'e et de la selection. ont propose des operateurs d'inversion permettant le rearrangement dans l'espace des schemas a n de pouvoir reduire leur longueur caracteristique et de les soustraire aux e ets destructeurs du croisement. 3. en particulier ceux concernant le croisement qui permet la combinaison de plusieurs schemas en superschemas. l'ideal serait de disposer d'un codage des genomes tel que les primitives utiles soient decrites par des cha^nes de bits courtes. Ainsi les e ets destructeurs des operateurs de croisement et de mutation s'accroissent avec l'ordre et la longueur caracteristique des schemas. 4.Chapitre 8 Apprentissage par evolution simulee C'est ainsi que d(1 261 0 ) = 1. alors il faut favoriser cette recherche implicite qui se realise gr^ce a l'appartenance des genomes a plusieurs schemas. on obtient alors l'equation suivante. d( 0 1 ) = 2. Le troisieme terme correspond a l'e et destructeur des mutations. Plus generalement.27 Octobre 2009 à 09:30 (8. pmut )o(s) . pcrois L (s)1 (1 . il ne traduit pas leurs eventuels e ets bene ques. e ectuent de fait une recherche implicite dans l'espace des schemas. Plusieurs remarques peuvent ^tre faites : e 1. pour decouvrir les plus interessants. c'est-a-dire les proprietes du probleme que l'on cherche a resoudre. D'apres ce theoreme. et ceci d'autant plus que ceux-ci sont courts (ordre et longueur caracteristique faibles). L'esperance du nombre de genomes representants un schema s suit l'equation : Theoreme 8. appelee aussi theoreme des schemas. Cette remarque conduit a preferer les . Cette etude-la en est encore a ces prolegomenes. toutes les non-linearites dans le fonctionnement ou l'expression du genome echappent a l'analyse par schemas. cela revient a conna^tre a l'avance le codage adequat. dont la probabilite depend de l'ordre du schema considere. Le theoreme des schemas est insu sant car. 2. bien qu'il prenne en compte l'e et destructeur des operateurs genetiques.3. inspires aussi par la biologie. Il exprime la probabilite de survivance a l'e et d'un operateur de croisement. On pourra noter ici que certains auteurs. 1975)) d E n(s t + 1)] = (s t) n(s t) 1 .3 1) = 4.

Fog99]). la cha^ne 0101 est representative de 2 que le nombre total de schemas est de 3L . De cette maniere.262 PARTIE 2 : Apprentissage par exploration.27 Octobre 2009 à 09:30 8. 0. Les developpements recents de cette technique ont elargi les recettes employees. d'ou le choix de la representation pr^nee par Holland. 1. Dans leur version originale.8 illustrent l'evolution d'une population de cinquante automates a etats nis ayant au maximum vingt etats sur une t^che de predition de la sequence : a La gure 8. e mais il existe plusieurs propositions tres interessantes d'algorithmes utilisant des representations alternatives et qui ont ete largement testees sur de nombreux problemes. ch. mais en conservant la mutation comme seul operateur genetique (voir Fog98. Les gures 8.6 pour les details). Les descendants de la generation courante sont calcules a partir des parents selectionnes en leur appliquant des mutations qui peuvent ajouter des etats. par o 4 schemas dans un alphabet binaire. En e et. alphabets binaires. Tres souvent. Owens et Walsh dans les annees 1960 (voir FOW66]). la performance de chacun d'eux etant mesurable par test dans un environnement representatif des 3. l'espace H des hypotheses deviendrait un espace de programmes. 1. L'evaluation de l'automate tient compte de l'accord ou non de la prediction faite alors par l'automate par rapport au caractere suivant de la sequence. la generation suivante est obtenue par un procede de remplacement elitiste consistant a conserver la meilleure moitie de la generation courante et en completant par les descendants obtenus a partir de cette meilleure moitie.7 et 8. 1. en retirer. tandis que la gure 8. L'etude decrite ci-dessus concerne des representations sequentielles de taille xe.7 montre la population initiale.com) .5 La programmation genetique Est-il possible d'envisager de produire automatiquement des programmes par un mecanisme d'evolution simulee? Ici.4 Les strategies d'evolution La technique dite des (( strategies d'evolution )) a ete initiee par Fogel. 0. 1. 1. On voit que l'exporation implicite permise par une population de taille donnee est ainsi plus e cace dans le cas d'un alphabet binaire. les strategies d'evolution furent utilisees pour des t^ches a de prediction de sequences. Dans un alphabet n-aire. La methode demarre en produisant une population initiale d'automates a etats nis. 0. Elle consiste a utiliser une representation par automates a etats nis 3 pour l'espace G des genotypes et l'operateur de mutation pour modi er les expressions de cet espace. la cha^ne 0101 est toujours representative de 24 schemas. chaque automate est evalue en fonction de la sequence entiere a predire. alors exemple. Voir le chapitre 7. La selection utilise une roulette proportionnelle a la performance.8 montre l'evolution du meilleur automate toutes les dix generations depuis la generation 10 jusqu'a la generation 200. Souvent aussi. 1. changer l'etat initial et changer les caracteres de sortie. (Voir Jac01]. 1. changer les transitions entre etats. tandis que leur nombre total est de n4 . Ce document est la propriété exclusive de nona nina (ninasbalka@gmail. 0. . Que se passe-t-il dans le cas de l'utilisation de representations dont la taille peut varier et dont les primitives peuvent ^tre rearrangees dans le genome? On a encore beaucoup de mal a l'analyser. Ceux-ci sont parcourus en fonction de l'etat courant et de l'entree correspondant au caractere courant de la sequence. le taux de mutation est reduit au fur et a mesure des generations. 1 8.

5 0. 20 0. 9 0. 9 0. 8.com) . 12 0. 7 0. 7 0. 5 0. 4 0. 8 0. 10 0. 14 0. 14 0. 12 0. 13 0. 5 0. 16 0. 2 0. 5 0. 7 0. 12 0. . 7 0. 2 0.5 6 0. 2 Fig.625 6 0.Chapitre 8 Apprentissage par evolution simulee 263 0. 20 0. 13 0. 6 0. 8 0.7 { La generation 0 d'automates a etats nis. 16 Ce document est la propriété exclusive de nona nina (ninasbalka@gmail. 9 0. 3 0. 9 0. 20 0. 14 0. 10 0. 15 0. 17 0. 8 0. 16 0. 4 0. 10 0.27 Octobre 2009 à 09:30 0. 9 0. 14 0. 4 0. 3 0. 2 0. 16 0.

1 1 13 9 0 0 1 1 1 1 1.com) .27 Octobre 2009 à 09:30 0 1 06 0 0 0 1 17 0 1. Des la generation 70.1 0 0 1 0 0 12 1 0 1 0 1 1.1 1 0 0 1 0 3 1 1 0 1 1 0 1 1 3 0 1 2 3 0 1 2 1 1 1 0 0 0 1 1 1 1 1 1 0 0 0 1 0 0 1 1 1 1 4 0 1 4 0 1 6 0 1 4 1 1 1 1 1 1 6 0 1 0 1 0 1 6 1 1 6 4 Fig. le meilleur automate predit parfaitement la sequence. .1 1 8 0 1 2 0 1 1 1 3 0 1 1 0 0 0 0 1 1 1 0 1 0 1 0 1 5 4 1 0 7 1 0 1 1 4 1 0 5 0 0 0 06 1 1.1 1 1 1 1 1 1 0 0 1 1 0 0 1 0 0 0 0 1 0 1 0 1.1 1 16 4 150 1 1 1 5 1 1 0 0 1 1 3 2 1 1 1 0.1 0 8 0 1 0 0 0 0 0 0 13 0 0 0 0 0 1 0 0 13 0 0 1 0 1 1 0 0 15 1 0 0 6 0 1 0 1 0 0 14 1 14 0 1 0 0 13 1 19 1 1 1 0 1 0 10 12 1 0 1 111 0 0 1 1 11 1 0 7 9 1 1 1 1 5 1 1 0 0 6 0 0 0 1 7 0 0 10 1 0 1 1 6 0 0 0 1 2 3 1 1 1 0.0 1 4 1 0 1 1 0 1 0 0 151 0 0 15 6 0 1 1 0 0 1 1 1 1 1 5 0 1 6 0 1 0 1 1 1 6 1 1 0 1 0 1 1 4 0 0 1 4 4 0 1 1 1 1 1 1 0 1 0.0 1 0 1 3 0 1 1 1.0 1 1 0 3 3 1 0 0 14 1 0 1 1 1 0.0 1 1 15 3 1 1 0 2 1 04 1 00.0 1 4 1 0 1 1 2 Ce document est la propriété exclusive de nona nina (ninasbalka@gmail.0 0 2 1 1 1 1 10 PARTIE 2 : Apprentissage par exploration.0 0 2 1 1 8 1 1 7 1 1 3 1 1 4 1 0 5 0 0 6 0 1 0 1 1 0 1 0 9 1 01 1 0 0 7 8 1 10 1 7 1 1 1 1 0 1.0 1 1 1 1 1 0 0 1 0 0 1 1 1 1 2 3 3 2 0 1 1 0 1 1 3 0 1 2 1 1 1 0 0 0 1 1001 6 0 1 2 2 2 2 3 0 1 1 0 0 0 1001 1 1 3 0 1 1 0 1 0 0 1001 1 1 3 0 1 1 0 1 0 0 1000 1 1 3 0 1 1 0 1 1 1 0 0 1 0 1 1 1 1 1 1 1 1 1 4 0 1 1 1 6 0 1 4 0 0 1 1 6 0 1 4 0 1 1 1 6 0 1 0 1 4 0 0 6 0 1 1 1 2 2 3 0 1 1 0 0 0 1 0 1 1 1 0 0 0 0 1 0 0 0 1 0 0.8 { Le meilleur automate toutes les dix generations de la generation 10 a la generation 200.0 1 1 0 1 0 0 14 1 0 1 1 4 2 1 1 1 0. 8.1 0 8 1 1 9 1 0 10 11 0 0 1 1 12 0 1 0 0 11 0 1 10 1 1 0 0 0 1 6 0 0 0 0 1 4 1 1 0 5 1 1 0 0 1 1 1 1. Le reste de l'evolution conduit a une simpli cation du meilleur automate.264 0 1 1 1 1 0.1 1 0 1 1 0 0 1.0 0 0 1 0 0 0 1 13 1 3 21 1 0 0 1 0.

mais des modules fonctionnels (a la Lisp) representes par des arbres.com) . elle semble cependant completement irrealisable. Qualitativement. L'idee est seduisante. Cette idee. ou presque. a propose une nouvelle approche qui a ete testee de maniere prometteuse sur une grande variete de problemes. toute une ecole de chercheurs. tandis que les fonctions correspondent aux n uds internes.Chapitre 8 Apprentissage par evolution simulee t^ches a realiser.1 La representation des programmes La di erence essentielle entre les algorithmes genetiques et la programmation genetique est que dans ces derniers les structures de programmation ne sont pas codees par des genomes lineaires. Certains pensent m^me que cela ouvre des perspectives radicalement nouvelles par rapport a la biologie e dont le materiel genetique est code sur des chromosomes lineaires. De nition 8.5. deja largement exploitee par Douglas Lenat dans son programme AM (Automated Mathematician Len78]). de l'espace des expressions possibles pourrait parvenir a produire un programme valide. L'idee fondamentale est de s'appuyer sur une representation des programmes par arbres et d'utiliser des langages de programmation dont la syntaxe est simple et telle que des manipulations syntaxiques egalement simples produisent encore des programmes licites. En general ces terminaux sont constitues des valeurs numeriques rencontrees dans l'echantillon .1 L'ensemble des terminaux et des fonctions En programmation genetique. Les adaptations possibles e des structures de programmes sont ainsi potentiellement illimitees. Une telle representation conduit a une rede nition des operateurs genetiques. Ainsi. la taille des genomes n'est plus xee ni m^me en principe limitee en taille ou en profondeur. les primitives de representation sont maintenant des termes (feuilles de l'arbre) ou des soustermes (sous-arbres) qui peuvent ^tre soit remplaces (mutation) soit echanges entre des arbres e representant des programmes (recombinaison). Koz94. cela ouvre des possibilites inedites.4 (Ensemble des terminaux) Les terminaux retournent une valeur numerique sans recevoir d'arguments en entree. En intelligence arti cielle.27 Octobre 2009 à 09:30 8. Les terminaux correspondent aux feuilles des arbres.1. dire e ceci revient evidemment a enoncer une tautologie. En comparaison avec les algorithmes utilisant des genomes lineaires. on peut dire que les terminaux fournissent des valeurs au programme tandis que les fonctions traitent ces valeurs.5. et qui plus est e cace?! Encore une fois la solution reside dans une representation adequate des programmes se pr^tant bien a l'utilisation d'operateurs d'exploration e caces. Par exemple. L'ensemble des terminaux est constitue par les entrees des programmes. Les unites objets de mutation ou de recombinaison ne sont plus des caracteres ou des sous-sequences de cha^nes. alors comment une exploration au hasard. conduit a s'interesser a des langages de programmation tels que Lisp ou des derives comme Scheme ou Mathematica. correspondant a de grandes variations tant dans la semantique que dans les aspects algorithmiques des programmes. Cependant. les constantes de nies a priori et les fonctions d'arite nulle ayant des e ets de bord calcules en cours d'execution. KA99]. a la suite de pionniers tels que Cramer Cra85] et Koza Koz92. les fonctions et les terminaux sont les primitives servant a decrire les programmes. Personne n'a de recette pour trouver une telle representation ni les operateurs associes. 265 Ce document est la propriété exclusive de nona nina (ninasbalka@gmail. 8. mais par des termes ou des expressions symboliques correspondant a un langage de programmation. encore plus d'un programme solution. Tout a programmeur a deja eu l'occasion de pester contre une virgule ou un point-virgule mal place responsable du plantage d'un programme.

Les avocats de la programmation genetique estiment par consequent que la representation et les operateurs dont ils disposent sont e caces directement dans H. e L'ensemble des fonctions est constitue des declarations. Une autre propriete est necessaire : la propriete de cl^ture. Exemples : AND. DO. Exemples : PLUS.4 Initialisation d'une population de programmes Au debut d'un cycle d'evolution simulee. OR. DIVIDE { Fonctions transcendantales. Dans le cas de la programmation genetique cependant.. Exemples : Fonctions trigonometriques et logarithmiques..3 Phenotypes et genotypes en programmation genetique Les algorithmes utilisant le genotype pour la recherche d'une bonne solution ou hypothese decouplent les problemes d'expressivite du langage de representation (ceux de co^t memoire u ou d'execution qui sont propres a l'espace H des phenotypes) des problemes de recherche dans l'espace des programmes (qui sont du ressort de l'espace G des genotypes). La propriete de cl^ture est plus facile a veri er avec des langages dont la syntaxe est uniforme comme c'est le o cas de Lisp. MULTIPLY. e { Fonctions boolennes. Il doit ^tre assez riche pour permettre l'expression d'une solution au probleme. D'autres valeurs numeriques pourront ^tre calculees par l'usage de fonctions prenant des terminaux en argument.. MINUS. Exemples : IF .4 Ce document est la propriété exclusive de nona nina (ninasbalka@gmail. Il est souvent speci e une profondeur limite ou un nombre maximal de n uds que .5. par exemple en reponse a un probleme speci que.5.2 Le choix de l'ensemble des terminaux et des fonctions Le choix de l'ensemble des terminaux et des fonctions doit obeir a quelques criteres.5. Le domaine des fonctions utilisables est en fait bien plus considerable que les fonctions prede nies d'un langage et peuvent inclure n'importe quelle primitive de nie par le programmeur. WHILE.1.1. elle exige cependant une certaine attention.5 a propos d'un robot simule. d'apprentissage en plus de constantes jugees utiles par le concepteur. et la recherche par evolution simulee s'opere directement dans l'espace H des programmes executables et testables.. Il ne faut pas que cela provoque un arr^t du e programme (comme cela peut arriver si une division par zero est demandee). la distinction entre les deux espaces n'existe generalement pas. 8. Chaque fonction de o l'ensemble des fonctions doit en e et pouvoir traiter toutes les valeurs qu'il peut recevoir en entree.5 (Ensemble des fonctions) Exemple 8. Voici quelques exemples de fonctions qui peuvent ^tre utilisees en programmation genetique. De nition 8. e u il est preferable de commencer avec un ensemble restreint et de l'enrichir si l'experience en fait sentir le besoin. Exemples : boucles REPEAT.266 PARTIE 2 : Apprentissage par exploration. operateurs et fonctions disponibles pour le systeme.. ELSE { Structures iteratives. 8. THEN . NOT. il faut produire une population initiale de programmes. Mais il ne doit pas e l'^tre trop sous peine de rendre trop co^teuse l'exploration de l'espace de recherche. Ceci est tres important car les entrees d'une fonction donnee peuvent varier enormement au cours de l'evolution simulee de programmes. Cela est generalement realise par un tirage aleatoire d'arbres representant des programmes...27 Octobre 2009 à 09:30 8.5. { Formes conditionnelles. { Sous-routines.1. Nous en verrons un exemple dans la section 8.com) . XOR { Fonctions arithmetiques. En general.

La performance d'un genome est de nie comme la performance mesuree de la solution correspondante dans H. 8. Nous renvoyons le lecteur par exemple a BNKF98] pp.5. (Voir gure 8. Plusieurs methodes de generation d'arbres ont ete etudiees.Chapitre 8 Apprentissage par evolution simulee les arbres produits aleatoirement ne peuvent depasser. le croisement et la reproduction.com) .1.5. Le croisement est un operateur de ni de G G ! G G produisant deux genomes a partir de la donnee de deux genomes en entree. C'est un operateur de ni de G ! G operant donc sur un seul genome et produisant un autre genome par alteration aleatoire du premier. la mutation sur une representation par arbre opere en selectionnant au hasard un sousarbre et en le remplacant par un autre sous-arbre engendre aleatoirement. Le processus de creation des arbres est recursif. Il selectionne au hasard un sous-arbre dans chacun des genomes fournis en entree et les echange pour produire deux nouveaux genomes (voir gure 8.27 Octobre 2009 à 09:30 Mutation Mult Add Mult Add b c a c b c Div c a 2 Fig. Il est evident que cette operation doit respecter la propriete de cl^ture de nie plus haut (8. les trois operateurs les plus employes en programmation genetique sont : la mutation.118122. une feuille de l'arbre est atteinte. avec a chaque pas la creation d'un n ud de l'arbre par selection aleatoire d'une fonction ou d'un terminal.9 { Exemple d'une operation de mutation. Mult Mult Ce document est la propriété exclusive de nona nina (ninasbalka@gmail.9).4 Le fonctionnement Le fonctionnement de la programmation genetique suit les m^mes etapes que les algorithmes e genetiques. 1. Dans ce dernier cas. La reproduction consiste simplement en une recopie d'un individu d'une generation a la suivante. . 2. en respectant les limites de profondeur ou de taille de nies pour l'initialisation de la population. o 3. La mutation.3 Evaluation et selection L'evaluation des genomes et leur selection suit les m^mes principes que ceux des algorithmes e genetiques.2 Les operateurs genetiques sur les programmes Comme pour les algorithmes genetiques.10).5. e 8.5. 8.2). 267 8. Plus precisement. La selection des individus utilises pour produire la generation suivante se fait egalement selon les m^mes methodes.

Un ensemble de points de X tires aleatoirement sont alors etiquetes par comparaison avec la fonction separatrice. De plus. cos sin :::. -.14 Croisement Mult Mult Ce document est la propriété exclusive de nona nina (ninasbalka@gmail.5 Illustrations Nous illustrons brievement le fonctionnement de la programmation genetique sur deux problemes. . 8.5.268 If-Then-Else PARTIE 2 : Apprentissage par exploration. -. Cet algorithme utilise un jeu de terminaux incluant des constantes et des variables representant les descripteurs (qui ne font pas tous forcement partie de la fonction cible : ce sont des descripteurs non pertinents) et un ensemble de fonctions incluant par exemple : +. Une fois que l'algorithme a . etant donne un echantillon d'exemples et de contre-exemples decrits dans un espace numerique X = IRd . Il s'agit. Le principe de l'experience est le suivant : une fonction de separation cible est choisie aleatoirement par combinaison d'un certain nombre xe de descripteurs en utilisant un repertoire de fonctions fourni a priori.com) . Par exemple. La fonction de performance mesure le risque empirique. un terme de penalite a ete introduit dans la fonction de performance.27 Octobre 2009 à 09:30 Mult Add Add Add b c a c Mult b a c a 3. une fonction de co^t u quadratique ou simplement le nombre d'exemples mal classes.14 Fig.1 Induction d'une separatrice entre deux classes L'experience rapportee dans cette section concerne l'induction d'une surface separatrice dans un espace d'exemples appartenant a deux classes et decrits par des descripteurs numeriques. Le second probleme concerne l'induction du programme de contr^le d'un robot simule (cense modeliser une fourmi) dans un o environnement simpli e dans lequel se trouve de la (( nourriture )). On obtient ainsi un ensemble d'apprentissage qui est utilise par un algorithme d'apprentissage utilisant la programmation genetique. il est possible de produire la separatrice : f (x) = x1 +x2 . 8. de trouver l'equation d'une separatrice entre les deux classes d'objets. tous les points pour lesquels f (x) 0 sont etiquetes '+'.5.5. par exemple par un critere entropique (voir les arbres de decision dans le chapitre 11). pour favoriser l'obtention d'expressions simples. Par exemple.10 { Exemple d'une operation de croisement. Le premier est un probleme d'induction classique. If-Then-Else Equal b Add Equal b Mult a c Mult b a c b c a 3. 8. prenant en compte le nombre de n uds dans les arbres produits. en xant le nombre de descripteurs a deux et le jeu de fonctions x1 x2 a : +.

500 fonctions de decision en competition dans la population) { Nombre de generations : 50 (pour chaque execution) { Nombre d'executions : 1000 { Profondeur maximale des arbres : 8 p { Ensemble de fonctions : + .5.27 Octobre 2009 à 09:30 exp(x) .com) . on evalue son risque reel en comptant le nombre d'exemples mal classes sur un echantillon de test. Le travail decrit succinctement dans cette e section est tire du livre de Christian Jacob Illustrating evolutionary computation with Mathematica Jac01].2 Induction d'un programme de contr^le de robot simule o Nous voulons simplement ici montrer comment un programme de contr^le simple en roboo tique peut ^tre produit par programmation genetique.e.5. Pour cela un robot est equipe d'un senseur qui fournit des informations sur la case qui se trouve directement devant : (( mur )). sin(z ) y 269 Ce document est la propriété exclusive de nona nina (ninasbalka@gmail. (cos sin exp log ) { Taux des operateurs : { reproduction: 10 % { croisement: 45 % { mutation: 45 % Une execution de l'algorithme peut ainsi produire une sequence de populations de fonctions separatrices dont la meilleure evolue comme suit a di erents instants : logz(z) + x . (( pheromone )) ou (( poussiere )). (( nourriture )). les parametres avaient les valeurs suivantes : { Taille de l'ensemble d'apprentissage : 200 exemples generes aleatoirement { Taille de l'ensemble de test : 10000 exemples generes aleatoirement { Taille de la population : 500 (i. Le but du robot est d'essayer de visiter toutes les cases contenant de la nourriture en quatre-cents actions maximum.11. puis de plus en plus de cases intermittentes de pheromones qui aident a orienter le robot fourmi. sinon c'est l'action B qui est executee. On s'interesse a un robot place dans un univers bidimensionnel consistant en une grille de 18 18 cases tel que celui de la gure 8. . Quarante-quatre cases de nourriture ou de pheromones sont distribuees sur la grille. z y psin(z) x z y + x p y x z x:y y +z 8.B] : l'action A est executee si le robot est devant une case correspondant a signal.Chapitre 8 Apprentissage par evolution simulee trouve une separatrice. Ces cases sont organisees suivant un chemin avec d'abord des sequences de nourriture ininterrompues. Les actions disponibles sont au nombre de quatre : { advance : avancer d'une case en avant { turnLeft : tourner de 90o a gauche { turnRight : tourner de 90o a droite { nop : pas d'action Un robot peut egalement determiner son action en fonction des conditions environnantes. Cela autorise deux commandes conditionnelles : { ifSensor signal] A] : l'action A est executee si le robot est devant une case correspondant a signal { ifSensor signal] A. Dans les experiences realisees ( BTC96]).

Exemple de programmes ifSensor Par exemple. Le robot s'arr^te s'il a trouve toutes les cases contenant de la nourriture ou e s'il a depasse le nombre maximal d'actions autorisees. Sinon. Ce type de programme de simpli cation est essentiel dans la programmation genetique.15 donnent une idee du genre de programmes qui peuvent ^tre obtenus e dans un processus d'evolution jouant sur une population d'individus de cinquante programmes. Les gures 8. Ind. ainsi que des deletions. dh Les operateurs genetiques utilises dans les experiences decrites par Ch.11 { Le monde du robot fourmi. celles en gris clair a des traces de pheromones. il existe un programme de simpli cation des proe grammes obtenus qui est applique a chaque generation. en comptant aussi les requ^tes au senseur.seq nop]] ( n+1 si dh dmax .com) . Ces operateurs sont de nis par des moules (templates) qui speci ent quels motifs dans un programme peuvent ^tre remplaces et par quoi. Le meilleur individu de la cinquieme generation va droit devant avant d'^tre arr^te par le mur. celles en gris fonce a de la nourriture.12) le meilleur programme ne di ere du meilleur de la generation . Par ailleurs. Chaque action ou commande.270 PARTIE 2 : Apprentissage par exploration. 8.13 et 8. Un programme est represente par une sequence de commandes ou d'actions qui peuvent eventuellement correspondre a des iterations si les commandes stop et again sont incluses. La performance d'un programme de contr^le de robot h est mesuree par le nombre n de cases o de nourriture visitees pondere par un terme prenant en compte la complexite du programme. des permutations. la boucle est quittee et le robot continuera d'executer les commandes suivantes s'il y en a.27 Octobre 2009 à 09:30 Fig. Jacob incluent la mutation et le croisement. est comptee e comme une action. La requ^te e sera executee aussi longtemps qu'il y a aura de la nourriture juste devant le robot declenchant alors une action advance.again]. Gen. Ces actions ou commandes sont integrees dans une expression seq correspondant a une sequence.6. (D'apres Jac01]. des duplications. 15 10 East 0 5 10 South 5 15 0 Ce document est la propriété exclusive de nona nina (ninasbalka@gmail. A e e la generation 9 (voir la gure 8. Fit. a n de favoriser les programmes simples : (h) = ifSensor food] seq advance. dmax : n + 1 si dh > dmax . le programme dont l'expression est : correspond a une boucle permettant de suivre des cases consecutives de nourriture. p. etc. Les cases en noir correspondent a des murs infranchis- sables.0.1.401). ici 400.

advance. (D'apres Jac01].16 permet de visualiser l'evolution des performances des cinquante programmes sur les trente-neuf premieres generations. nop .12 { Le meilleur individu de la generation 9 correspond a un robot qui avance tout droit sauf lorsqu'il se trouve face a un mur. Gen. La partie droite de cette gure montre l'evolution de la performance du meilleur individu.13. On y observe une amelioration graduelle des performances moyennes avec des variations assez brutales de la performance du meilleur individu.401). Gen. de la performance moyenne et de la performance du pire individu sur quatre-vingt-six generations. dix programmes ont nalement ete obtenus qui visitent les quarante-quatre cases de nourriture en moins de quatre-cents actions. p. Jacob rapporte que sur vingt evolutions simulees.13 { Le programme du meilleur individu de la generation 9. jusqu'a l'obtention a la generation 59 d'un programme permettant.27 Octobre 2009 à 09:30 20 t 10 15 10 5 10 South East South 15 0 5 0 5 15 10 15 0 5 10 East Fig. Ind.9. (D'apres Jac01].15). ifSensor wall seq turnLeft. Fit.9. La trajectoire obtenue a partir du point initial est alors une boucle. advance Fig. AntTracker seq advance. ifSensor dust seq stop . e a 8. de passer sur toutes les cases de nourriture (voir gures 8.5.401). et impliquant une population de cinquante individus engendres aleatoirement. chacune limitee a cent generations. la derniere. Fit.com) .14 et 8. again . ifSensor dust seq turnLeft. Ind. Il serait evidemment interessant de savoir comment se comportent ces programmes sur la m^me t^che mais dans un environnement di erent. 8. mais celle-ci correspond a tourner a gauche si un mur est rencontre. auquel cas il tourne a gauche. advance . Ch. Sur ces experiences.13. p. 8.1.1. Des ameliorations sensibles apparaissent de temps en temps lors des generations suivantes. 30 271 Ce document est la propriété exclusive de nona nina (ninasbalka@gmail. sur le probleme pose.Chapitre 8 Apprentissage par evolution simulee 5 que par une instruction. again .6 Une analyse de la programmation genetique . La gure 8.

272
Gen.59, Ind.1, Fit.45.

PARTIE 2 : Apprentissage par exploration.
Gen.59, Ind.1, Fit.45. 30

20 t 10 15 10 5 10 5 15
South South East

15 0 5 0 10 15 0 5 10
East

Ce document est la propriété exclusive de nona nina (ninasbalka@gmail.com) - 27 Octobre 2009 à 09:30

Fig. 8.14 { Le comportement du meilleur programme de la generation 59. Toutes les cases de

nourriture sont visitees sans detours inutiles. (D'apres Jac01], p.401).
AntTracker seq , ifSensor wall seq turnLeft, turnLeft, again , seq , ifSensor wall seq turnLeft, again , turnRight , ifSensor wall seq turnLeft, again , advance , ifSensor dust seq turnLeft, again , ifSensor wall seq ifSensor dust advance , seq ifSensor dust seq turnLeft, again , ifSensor wall seq turnLeft, again , advance

Fig. 8.15 { Le programme du meilleur individu de la generation 59. (D'apres Jac01], p.401).

Le theoreme des schemas est di cile a appliquer dans le cas de la programmation genetique notamment parce que les primitives de construction peuvent migrer d'un endroit a l'autre en cours d'evolution et aussi parce que la representation des individus est de longueur variable. Nous reportons le lecteur interesse a BNKF98] pp.145 et suivantes pour une discussion sur les di erentes tentatives d'analyse formelle de la programmation genetique. Il y a la encore un territoire a explorer. Finalement, il est important de noter que dans le cas de la programmation genetique, les espaces des hypotheses H et des genotypes G sont de fait confondus. C'est en e et le m^me e espace qui sert a l'exploration (r^le de G ) et a l'evaluation (r^le de H). Un programme est ainsi o o a la fois l'objet subissant les operateurs genetiques et l'objet s'exprimant dans l'univers pour y produire une certaine performance.

8.6 La coevolution
Les approches mentionnees jusqu'ici cherchent a optimiser une fonction de performance xee une fois pour toutes par l'objectif et par l'environnement connu par l'intermediaire d'un

Chapitre 8 Apprentissage par evolution simulee
Sorted Fitnesses History, Gen. 39 40 20 Fit. 0 -20 0 20 Indiv.
Ce document est la propriété exclusive de nona nina (ninasbalka@gmail.com) - 27 Octobre 2009 à 09:30
Fit.

273

40 30 20Gen. 10 40

40 30

Best Mean

20 10 20 40 60 80 Gen. Worst

Fig. 8.16 { A gauche, l'evolution des performances des cinquante programmes sur les trente-

neuf premieres generations. A droite, l'evolution des performances du meilleur individu, de la moyenne et du pire individu, sur quatre-vingt-cinq generations. (D'apres Jac01], p.418).

echantillon d'apprentissage. La recherche d'une bonne hypothese s'e ectue alors dans l'espace des hypotheses H gr^ce a des manipulations dans l'espace genotypique G . On espere que la a representation choisie pour G et les operateurs de transformation selectionnes rendront la recherche e cace. Cependant, il est peut-^tre possible de faire mieux encore en adaptant dynae miquement la fonction de performance que l'algorithme cherche a optimiser. L'idee serait de faciliter l'exploration de l'espace d'hypotheses en cherchant d'abord des optima faciles a trouver, puis en ra nant progressivement le critere objectif. D'une certaine maniere, il s'agit la de l'idee mise en uvre dans le recuit simule par exemple. Un processus de recherche de moins en moins stochastique permettait de focaliser le systeme sur les zones les plus prometteuses de l'espace de recherche. Dans le cas des algorithmes operant sur le genotype par evolution de populations, il est possible de realiser cette idee d'une autre maniere inspiree par l'observation de l'evolution dans la nature. Le principe est de faire dependre la fonction de performance utilisee pour la selection des meilleurs individus d'une population PG1 (t) d'une autre population PG2 (t), elle-m^me sous la e dependance d'une fonction de performance commandee par PG1 (t). La metaphore biologique est celle de la coevolution proie-predateur, dans laquelle au fur et a mesure que les predateurs ameliorent leur performance contre les proies, celles-ci modi ent leur comportement pour diminuer leur vulnerabilite. Il s'ensuit une sorte de course aux armements qui a la fois rend plus performants les individus des deux populations, mais aussi les rend davantage specialises face a un environnement. D'un point de vue pratique, plusieurs scenarios permettent de realiser une fonction de performance dependant d'une autre population. Par exemple, dans certains cas, il est possible de tester chaque individu contre tous les individus de la population adverse. On peut aussi tester chaque individu contre le meilleur adversaire. Ou encore, on peut tester des individus pris au hasard dans une population contre des adversaires egalement tires au hasard dans l'autre population. De la sorte, chaque population devrait ameliorer sa performance face a la fonction de

274

PARTIE 2 : Apprentissage par exploration.
performance evoluant dynamiquement. Cette approche a ete etudiee dans le cadre de la modelisation de phenomenes naturels. Mais elle a aussi ete utilisee pour des problemes d'optimisation. Ainsi, Hil92, AP93, Sim94] ont documente des ameliorations parfois considerables obtenus par coevolution dans plusieurs problemes d'optimisation. Par exemple, Ron96] a etudie le probleme du robot fourmi decrit plus haut dans lequel les morceaux de nourriture eux-m^mes evoluaient a n dechapper a une e population de robots-fourmi. Il a montre alors une evolution plus rapide du comportement des robots-fourmi. Cette approche a egalement ete utilisee par Jannink ( Jan94]) pour optimiser des generateurs de nombres pseudo-aleatoires. L'idee etait qu'une population de testeurs de caractere aleatoire de sequences produites par une population de generateurs coevoluait avec celle-ci. L'idee de coevolution est encore preliminaire et ouverte a recherche. Une voie a explorer est celle de cooperation plut^t que celle de confrontation. La theorie des jeux est un guide utile en o ce domaine. Citons pour nir les travaux sur l'evolution des operateurs genetiques eux-m^mes pendant e le processus d'optimisation.

Ce document est la propriété exclusive de nona nina (ninasbalka@gmail.com) - 27 Octobre 2009 à 09:30

8.6.1 Un exemple d'ecologie : les systemes de classeurs
Un interessant exemple d'ecologie d'hypotheses est fourni par le systemes de classeurs (classi er systems) imagine par John Holland en 1975, bien avant que l'on parle de coevolution. Le principe est celui d'un agent place dans un environnement dynamique, contr^le par un o systeme expert dont les regles servent a interpreter le monde et a prendre des decisions qui sont alors mises en uvre a l'aide d'e ecteurs. Les regles appelees classeurs ont le format suivant : if condition then action. Comme dans un systeme expert classique, chaque regle peut ^tre declenchee par la situation e courante qui resulte a la fois de la perception et des inferences conduites par le systeme. Cette situation est representee dans une memoire a court terme ou memoire de travail. A chaque instant l'ensemble des regles courantes (la population) examine la memoire de travail pour voir si ses conditions de declenchement sont realisees. Contrairement a un systeme expert classique ou seule une regle est declenchee apres selection, ici toutes les regles declenchables sont declenchees et contribuent ainsi a l'inference courante. Celle-ci modi e alors la situation courante et le cycle recommence (voir gure 8.17). D'un certain c^te, on peut concevoir ce systeme de regles comme une ecologie avec des regles o se specialisant dans certains types de t^ches et contribuant ainsi a la performance globale. Le a probleme est de faire evoluer un tel systeme ecologique. Pour ce faire, Holland a propose un systeme de retribution de merite fonctionnant un peu comme une economie ou des entreprises en competition pour des contrats remunerent leurs sous-traitants, devenant plus riches si le contrat est remporte, ou s'appauvrissant dans le cas contraire. Cette redistribution des merites est assez proche des methodes d'apprentissage par renforcement avec trace d'eligibilite (voir chapitre 16). Le merite attribue de la sorte sert alors de mesure de performance pour chaque regle et le fonctionnement classique d'un algorithme genetique est alors utilise pour determiner les parents de la generation suivante. Nous n'entrons pas davantage dans les details, reportant le lecteur interesse a BGH89]. Malgre la seduction exercee par cette idee, elle n'a pas permis jusqu'a present d'obtenir de resultats probants, notamment parce que la redistribution des merites est tres lente et ne permet pas une evolution rapide de la population. Peut-^tre que les prochaines generations de machines e et des conceptions neuves sur la coevolution donneront un jour une nouvelle jeunesse a cette idee

Chapitre 8 Apprentissage par evolution simulee
seduisante car elle correspond a l'evolution d'une societe d'individus specialises fonctionnant sur le mode de competition/cooperation.
Population de classeurs
Classeur-1 Classeur-2 Condition Action

275

. . . .
Ce document est la propriété exclusive de nona nina (ninasbalka@gmail.com) - 27 Octobre 2009 à 09:30

. . . .

Classeur-N

(1)
Description-1 Description-2

(2)

Message de l'environnement

Mémoire de travail (situation courante)

Action sur l'environnement

Fig. 8.17 { Schema d'un systeme de classeurs. En (1), les messages de la memoire de travail

sont compares aux regles du systeme. En (2), les regles declenchees inscrivent des messages dans la memoire de travail, correspondant soit a des interpretations sur le monde, soit a des decisions qui seront mises en uvre par des e ecteurs.

Notes historiques et approfondissements
La metaphore de l'evolution comme base possible pour des algorithmes d'apprentissage en intelligence arti cielle remonte aux annees 1950 et 1960. Dans les annees 1960, Rechenberg introduisit l'approche des strategies d'evolution qu'il utilisa pour optimiser des fonctions a parametres a valeurs reelles pour la conception de systemes mecaniques. Cette idee a ete developpee par Schwefel en Allemagne dans les annees 1970. Elle conna^t un grand regain d'inter^t ces dernieres e annees car elle s'applique assez naturellement a de nombreux problemes d'optimisation. Par ailleurs, elle evite certains problemes de codage que l'on rencontre avec les algorithmes bases sur une representation par cha^nes de bits. Nous n'en avons pas parle par manque de place, mais cette approche a fait l'objet recemment de nombreux articles dans des conferences et des revues portant sur les algorithmes d'evolution simulee. Les premiers modeles de processus d'adaptation portant sur des populations d'individus par algorithmes genetiques sont dus a John Holland et ont ete popularises par son ouvrage Hol75]. Outre une modelisation de l'adaptation par utilisation d'operateurs genetiques et de selection des meilleurs individus d'une population a la suivante, Holland proposa une analyse theorique de ces algorithmes par le theoreme des schemas. Son inter^t principal alors et maintenant portait e sur l'evolution de population de regles (classi er systems). Les algorithmes genetiques connurent

276

PARTIE 2 : Apprentissage par exploration.
un vif developpement dans les annees 1980 et lancerent veritablement le mouvement pour les algorithmes evolutionnaires. L'approche initiee par Fogel, Owens et Walsh dans les annees 1960 sur les strategies d'evolution dans le cadre de populations d'automates a etats nis reste minoritaire dans les recherches et les applications actuelles. Il n'est pas impossible que le developpement des applications en prediction temporelle ne relance cette voie. Une approche liee aux strategies d'evolution et qui etend les algorithmes genetiques de Holland a des representations plus larges est celle de la programmation genetique dont Koza s'est fait un avocat puissant Koz92, Koz94, KA99]. Des conferences et des revues sont maintenant entierement consacrees a cette famille d'algorithmes. Globalement, la technique des algorithmes d'evolution arti cielle est devenue tres populaire, autant que les reseaux connexionnistes. Elle le doit en particulier au fait qu'elle peut s'appliquer dans de tres nombreux contextes pour lesquels les techniques d'optimisation traditionnelles sont mises en echec par manque de (( regularite )) de l'espace des fonctions cible. Les recherches sont actives, tant pour investiguer de nouvelles variations algorithmiques que pour essayer d'en faire une analyse theorique. Cette derniere est di cile. Elle est liee a la fois aux theories de l'optimisation et a des theories sur les processus de di usion par exemple.

Ce document est la propriété exclusive de nona nina (ninasbalka@gmail.com) - 27 Octobre 2009 à 09:30

Resume
Les algorithmes evolutionnaires exploitent un decouplage de l'espace d'hypotheses en un espace phenotypique (dans lequel les hypotheses ont une description portant sur le monde et sont donc evaluables) et un espace genotypique (dans lequel les hypotheses, representees par des genomes, subissent un processus d'evolution simulee). L'espoir est que les operateurs genetiques utilises pour faire evoluer les hypotheses, en particulier le croisement et la mutation, fassent evoluer la population d'hypotheses vers les regions de H ou se trouvent les hypotheses les meilleures. L'un des inter^ts des algorithmes evolutionnaires est leur large domaine d'applie cations puisqu'ils permettent d'explorer des espaces d'hypotheses dans lesquels la fonction de performance attachee aux hypotheses n'est pas derivable. C'est pourquoi ils sont frequemment utilises. Plusieurs familles d'algorithmes ont ete developpees, dont principalement : les algorithmes genetiques utilisant plut^t une representation binaire des genomes, les o strategies d'evolution reposant sur une representation par automates, la programmation genetique travaillant dans un espace de programmes representable par des arbres. Il existe egalement une extension appelee coevolution pour laquelle la fonction d'evaluation des hypotheses elle-m^me resulte d'un processus evolutif dans un e jeu de competition.

Ce document est la propriété exclusive de nona nina (ninasbalka@gmail.com) - 27 Octobre 2009 à 09:30

Troisieme partie

Apprentissage par optimisation

Ce document est la propriété exclusive de nona nina (ninasbalka@gmail.com) - 27 Octobre 2009 à 09:30

Chapitre 9
Ce document est la propriété exclusive de nona nina (ninasbalka@gmail.com) - 27 Octobre 2009 à 09:30

L'apprentissage de surfaces separatrices lineaires
Ce chapitre explique comment on peut apprendre un concept sous la forme geometrique la plus simple : celle d'un hyperplan. En pratique, on dispose d'exemples et de contre-exemples dans l'espace de representation, qui est ici necessairement numerique. On cherche a trouver une formule aussi simple que possible pour generaliser ces elements d'apprentissage. Cette formule est une combinaison lineaire sur les attributs, ayant la propriete suivante : quand un objet inconnu est a classer comme appartenant au concept ou rejete par le concept, on e ectue un calcul lineaire sur les attributs de cet objet. Le signe du resultat indique la decision a prendre. Geometriquement, cela revient a dire qu'une fois terminee la phase d'apprentissage, l'espace de representation est partage en deux par une surface lineaire et que l'un des demiespaces correspond au concept, l'autre a sa negation. Ces methodes ont une longue histoire en informatique, puisqu'on les a proposees comme l'archetype de l'apprentissage arti ciel des le debut des annees 1960. Elles ont toujours une grande importance, pour plusieurs raisons. La premiere est la simplicite du calcul de la decision. Ensuite, elles sont robustes au bruit. D'autre part, on dispose d'une variete d'algorithmes d'apprentissage, dont la plupart permettent une interpretation sous la forme de l'optimisation d'un critere comprehensible sur l'ensemble d'apprentissage. Ces methodes ont ete generalisees a la n des annees 1980 par les reseaux connexionnistes : il est di cile de bien comprendre le fonctionnement de ceux-ci sans conna^tre leur version primitive. En n, dans les annees 1990, une nouvelle impulsion a ete donnee a ce type de methodes par l'invention des e caces SVM (support vector machines ou separateurs a vaste marge), qui font subir une transformation non lineaire a l'espace de representation avant d'y chercher une surface separatrice lineaire.

280
decision sous la forme d'une droite dans l'espace de representation : on se souvient que les cygnes et les oies etaient representes par deux attributs observables, leur niveau de gris et leur taille. La formule magique permettant de decider a laquelle de ces deux especes appartenait un oiseau inconnu etait le calcul d'une combinaison lineaire sur les valeurs numeriques de ces deux attributs. Ce chapitre etudie de maniere plus formelle les caracteristiques de cette formule magique, sa mise en uvre et ses proprietes. Nous allons reprendre l'exemple des cygnes de maniere un peu di erente pour introduire les problematiques qui seront developpees dans ce chapitre. D'abord, donnons un ensemble d'apprentissage, sur les m^mes deux dimensions, compose d'observations d'oies (notees ici O) et e de cygnes (Z).
Ce document est la propriété exclusive de nona nina (ninasbalka@gmail.com) - 27 Octobre 2009 à 09:30

D

ans l'avant-propos, nous avons donne un exemple d'apprentissage d'une regle de

O

O O

O O O

O O

O O O

O O Z

O Z O
Z

ZZ Z
Z Z Z Z Z Z Z Z Z Z Z Z Z

Fig. 9.1 { Deux separations lineaires possibles pour deux classes.

Pour trouver le concept geometrique qui de nit la di erence entre un cygne et une oie, il su t de tracer une droite dans cet espace de representation. Comment tirer au mieux parti des donnees d'apprentissage? Considerons deux criteres simples. Le premier repond au principe d'apprentissage ERM : on cherche la droite qui minimise le nombre d'erreurs dans l'ensemble d'apprentissage. Elle est donnee en trait plein sur la gure. On remarque qu'un seul oiseau est mal classe par l'hyperplan separateur, qui est ici la droite verticale. Ce point est indique par le graphisme Z. L'autre critere represente sur la gure est un peu plus elabore : il minimise une quantite qui tient compte de tous les points d'apprentissage et repond au principe bayesien : la droite obtenue, tracee en pointilles, bien qu'elle ait une erreur apparente de cinq elements d'apprentissage (indiques en gras), est plus equilibree et re ete mieux la geometrie globale du concept a

Chapitre 9 L'apprentissage de surfaces separatrices lineaires
apprendre. Nous ne serons pas plus precis pour le moment : la formalisation de ce type de critere sera donnee dans ce chapitre. Constatons simplement que si on suppose, comme il se doit, que les points d'apprentissage sont representatifs de la geometrie du concept cherche, cette seconde droite semble mieux predire la repartition des observations dans l'espace choisi.

281

Notations utiles pour le chapitre

Ce document est la propriété exclusive de nona nina (ninasbalka@gmail.com) - 27 Octobre 2009 à 09:30

0x 1 B ...1 C x=@ A
xd M ;1 MT M+

Un vecteur La matrice inverse d'une matrice carree M La matrice transposee d'une matrice M La matrice pseudo-inverse d'une matrice M . Par de nition, M + = M T (MM T );1 La distance euclidienne entre deux vecteurs x et y de IRd La derivee partielle par rapport a x de la fonction f des deux variables x et y Le vecteur derive par rapport au vecteur A de la fonctionnelle J des deux vecteurs A et B

xT = (x1 : : : xd ) Un vecteur transpose jj x jj La norme du vecteur x
(x y)

@ @x f (x

y)

rA J (A B)

9.1 Generalites.

Quand on est dans un espace de representation euclidien, on peut librement faire des hypotheses sur la geometrie des classes ou sur celles de leurs surfaces separatrices ceci permet de mettre au point des techniques d'apprentissage non statistiquement fondees a priori, mais peut-^tre plus faciles a appliquer. La plus simple d'entre elles est de supposer que deux classes e peuvent ^tre separees par une certaine surface, de nie par une equation les parametres qui e regissent cette equation sont alors les variables a apprendre. Cette hypothese n'est pas au fond tellement plus forte que de supposer que les classes sont de nature gaussienne, comme on le fera par exemple au chapitre 14 elle est souvent bien s^r fausse, mais peut mener a une prou babilite d'erreur raisonnable dans un bon nombre de problemes. Cette probabilite d'erreur doit evidemment ^tre evaluee objectivement, sur un ensemble de test ou par les methodes presentees e au paragraphe 3.4.5.1. Le nombre de parametres a calculer est minimal si l'on suppose cette surface lineaire aussi est-ce l'hypothese qui prevaut dans la plupart des cas, d'autant qu'elle permet de mener des calculs faciles et de visualiser precisement le resultat obtenu. Dans IRd , une surface lineaire est un hyperplan A, de ni par l'equation : a0 + aT x = 0 (9.1)

9.1.1 Hyperplans separateurs et discriminants dans un probleme a deux classes.

282

PARTIE 3 : Apprentissage par optimisation
avec a vecteur de dimension d et a0 scalaire. Si deux classes !1 et !2 sont separables par A, tous les points de la premiere classe sont par exemple tels que : x 2 !1 ) a0 + aT x 0 (9.2) et ceux de la seconde veri ent alors : x 2 !2 ) a0 + aT x 0 (9.3) Dans un espace de dimension d = 1, une separation lineaire se reduit a la comparaison a un seuil. Prenons ce cas particulier pour donner deux exemples ou un probleme de discrimination a deux classes ne peut pas en pratique ^tre completement resolu par une separatrice lineaire. e

Ce document est la propriété exclusive de nona nina (ninasbalka@gmail.com) - 27 Octobre 2009 à 09:30

Cherchons a classer les hommes et les femmes sur la seule mesure de leur taille. Bien que les hommes soient en general plus grands que les femmes, aucun echantillon d'apprentissage representatif ne permettra de xer une valeur pertinente pour le seuil, etant donne qu'il existera evidemment toujours certains hommes plus petits que certaines femmes. Dans ce cas, c'est l'espace de representation qui est trop pauvre : d'autres criteres doivent ^tre mis en uvre pour e decider sans erreur du sexe d'un individu. Supposons pour un autre exemple qu'un avimateur cherche a discriminer les eiders (Somatiera mollissima) m^les des femelles par le niveau de gris moyen de leur plumage. La encore, a un seuil sur cette mesure donnera une classi cation confuse mais, cette fois, l'espace de mesure est su sant c'est en revanche la de nition des classes qui est trop pauvre. En e et, les femelles sont toutes marron clair mais les m^les sont soit blanc brillant quand on les observe de face, a soit noirs quand ils sont vus de dos. Il faudrait donc subdiviser cette derniere espece, ce qui rendrait possible une bonne separation lineaire en trois classes (eider m^le vu de face, eider m^le a a vu de dos, eider femelle) par deux seuils sur les couleurs. Il su rait ensuite de regrouper les deux classes extr^mes pour avoir resolu le probleme dans l'espace de representation initial. Cet e exemple sera detaille au debut du chapitre suivant, pour presenter les reseaux connexionnistes.
On appelle hyperplan separateur ou separatrice lineaire un hyperplan qui separe parfaitement les deux classes, c'est-a-dire qui veri e les equations 9.2 et 9.3 en particulier, il separe parfaitement leurs points d'apprentissage.

Exemple 4

De nition 9.1 (Hyperplan separateur. Separatrice lineaire)

Il n'est en general pas possible d'en trouver un. On se contentera donc de chercher un hyperplan discriminant qui en sera une approximation, au sens d'un critere a xer. Le probleme de l'apprentissage de surfaces lineaires n'est autre que la recherche des parametres a et a0 separant le mieux possible les points d'apprentissage de !1 et de !2 dans l'espace IRd et pourvues de la meilleure faculte de generalisation possible.

9.1.2 Un peu de geometrie dans IRd

Un hyperplan dans IRd , ou les coordonnees sont notees x1 : : : xd , est de ni par d + 1 parametres a0 a1 : : : ad . Il repond a l'equation : a0 + a1 x1 + + adxd = 0 (9.4) En notant vectoriellement aT = (a1 : : : ad ) et xT = (x1 : : : xd ), l'equation 9.4 s'ecrit de maniere equivalente : a0 + aT x = 0.

Chapitre 9 L'apprentissage de surfaces separatrices lineaires
Un hyperplan d'equation a0 P aT x = 0 a pour vecteur normal a. Sa distance algebrique a + a0 avec jj a jj2 = d a2 . l'origine vaut jjajj i=1 i La gure 9.2 montre un hyperplan a deux dimensions qui est la droite d'equation g(x) = a0 + a1x1 + a2x2 = 0, ainsi que son vecteur normal a. Cette gure donne aussi la distance de deux points particuliers a cet hyperplan: l'origine, a y la distance jjaa0jj , et un point y de l'autre c^te de la droite, a la distance g(ajj) . Les signes de ces o jj deux distances algebriques sont opposes, puisque les deux points ne sont pas du m^me c^te de e o l'hyperplan. Le signe de la distance de l'origine a l'hyperplan est le m^me que celui de a0 . e

283

x2
Ce document est la propriété exclusive de nona nina (ninasbalka@gmail.com) - 27 Octobre 2009 à 09:30

a
jjajj
a0

y
g (y )

jjajj

x1 g(x) = a0 + a1 x1 + a2 x2 = 0
Fig. 9.2 { La geometrie d'un hyperplan.

Pour caracteriser l'hyperplan d'equation a0 + aT x = 0, on peut rassembler tous ses parametres dans un vecteur A de dimension d + 1 construit comme :

AT = (a0 aT ) = (a0 a1 : : : ad )
Par extension, on note A l'hyperplan lui-m^me. Notons qu'en realite il su t de d parametres e pour de nir un hyperplan : on peut sans perdre de generalite imposer par exemple : a0 = 1. Posons g(x) = a0 + aT x et notons (y A) la distance entre l'hyperplan A d'equation g(x) = 0 et un point y de IRd . Elle est de nie comme la distance entre y et le point de A le plus plus proche de y. Ce point n'est autre que la projection orthogonale de y sur A. La valeur (y A) est, comme on l'a vu, une distance algebrique donnee par la formule :

g (y A) = jj (y) a jj

9.2 L'apprentissage d'un hyperplan pour discriminer deux classes
9.2.1 Une solution globale
Supposons pour le moment que les deux classes !1 et !2 soient parfaitement separables par un hyperplan. Il existe donc un vecteur a caracterisant cet hyperplan separateur tel que : aT x positif pour x 2 !1 aT x negatif pour x 2 !2 .

bj ]2 AT M = B T (9. On se ramene donc a la recherche d'une separatrice lineaire en cherchant un hyperplan A le meilleur possible pour distinguer les deux classes. ce qui se note : AT = (a0 aT ). il existera un couple (A B ) avec B positif pour lequel ce critere sera exactement nul. Cette equation ne peut pas se resoudre dans le cas general. on a desormais : AT X 0 (rappelons que l'hyperplan caracterise par le vecteur A est pour le moment suppose separateur : tous les points sont bien classes). on notera xj le j eme point de A. il est alors facile de voir le probleme de separation lineaire comme la recherche d'un vecteur A dans IRd+1 tel que : ou B est un vecteur positif de IRm (dont toutes les coordonnees sont positives). En imposant dans le cas general la contrainte B positif ou nul. Le vecteur a et le scalaire a0 sont transformes en un vecteur A en ajoutant a0 a a comme une coordonnee de rang 0.8) Pourquoi choisir cette valeur? Si les deux classes sont separables. Ceci revient a dire que l'on recherche un hyperplan dans l'espace de representation augmente d'une dimension. puisque M n'est pas inversible (c'est une matrice a d +1 lignes et m colonnes) et que B est inconnu. Cette manipulation mathematique n'a d'autre but que de rendre plus aisee la resolution du probleme.com) . paragraphe 9. Si on range maintenant les m vecteurs X comme les colonnes d'une matrice M . quelle que soit la classe de x.284 PARTIE 3 : Apprentissage par optimisation Notons qu'il est facile de se ramener a ce cas quand c'est le contraire qui se produit.7) X j etant la projection dans l'espace de dimension d + 1 du j eme point d'apprentissage xj .1. avec les contraintes qu'il passe par l'origine et que B reste positif. B T jj2 (9. celui qui minimise le critere : 1 J (A B ) = 2 jj AT M . On impose une valeur non nulle a a0 . On transforme ces exemples en vecteurs X de IRd+1 par : x 2 !1 ) X T = (1 xT ) (9. Par exemple. par exemple a0 = 1. Donnons une justi cation plus profonde a cet argument.1 . Au besoin.6) Par consequent. Soit S l'ensemble des donnees d'apprentissage : il est compose de m exemples (x !) ou x est un vecteur de IRd et ! 2 f!1 !2 g. on peut donc comprendre intuitivement qu'une bonne solution approchee pour A rendra J (A B ) assez petit. La formalisation de la separation lineaire pour un probleme a deux classes se fait alors en plongeant le probleme dans l'espace de dimension d + 1.27 Octobre 2009 à 09:30 x 2 !2 ) X T = (. On sait (voir le chapitre 3. De plus.5) Ce document est la propriété exclusive de nona nina (ninasbalka@gmail.xT ) (9. J (A B) peut s'ecrire : m 1X J (A B ) = 2 AT X j . il faut maintenant traiter le cas general ou les classes et les donnees d'apprentissage ne sont pas separables. en inversant simplement le signe de toutes les coordonnees de a.2) que la distance (xj A) du point xj a l'hyperplan caracterise par le vecteur A a pour valeur : Tx TX (xj A) = a jj j + a0 = A a jjj a jj jj j =1 .

com) .Chapitre 9 L'apprentissage de surfaces separatrices lineaires Son carre peut donc s'ecrire : On en deduit : (xj T 2 A)]2 = (A aX j2) jj jj m X j =1 285 J (A B ) = 2 jj 1 jj2 a (xj A) . On a. Minimiser J (A B ) sous la contrainte B positif ou nul revient donc d'une certaine maniere a se placer dans le cadre du critere des moindres carres 3 : on cherche l'hyperplan A qui minimise la somme des distances entre A et les points de l'ensemble d'apprentissage que A classe mal. bj jj a jj]2 peut xj ^tre annule en choisissant bj = (jjajjA) . l'algorithme cherche doit realiser une minimisation de J (A B ) sous la contrainte B positif ou nul.10) (9.27 Octobre 2009 à 09:30 Pour les points de A bien classes par l'hyperplan A.9) (9. la solution a notre probleme consisterait simplement a calculer A par la formule : AT = B T M + (9. et que ceux-ci sont les seuls a compter dans le positionnement de A.1 pseudo-inverse de M . la minimisation de J (A B ) est la recherche du meilleur hyperplan a posteriori (au sens bayesien). Pour les points mal classes. on sait qu'il est positif quand les donnees sont separables. On peut. et des valeurs nulles pour les points mal classes. paragraphe 14.11) rAJ (A B ) = 0 ce qui fournit quand la matrice M T M est inversible (ce qui est vrai en general) : AT = B T M + avec M + = M T (MM T ). chercher une solution qui approche ce cas ideal en fournissant des valeurs strictement positives pour les coordonnees de B correspondant a des points bien classes. bj jj a jj]2 Ce document est la propriété exclusive de nona nina (ninasbalka@gmail. BT )M T Comme J (A B ) est toujours positif ou nul. conformement a ce qui a ete dit plus haut. c'est-a-dire le plus probable connaissant les donnees (voir le chapitre 14. si A et B minimisent e ectivement J (A B ) : J (A B )] = X Par consequent. x2S mal classe par A (x A)]2 Resolution Les equations classiques de l'algebre lineaire fournissent la valeur du gradient de J (A B ) par rapport a A : rAJ (A B ) = (AT M . . le terme (xj A) . le mieux que l'on puisse faire est d'imposer bj nul. a defaut de e pouvoir prendre bj negatif. Dans cette optique.12) A defaut de conna^tre exactement B . son minimum est atteint pour : (9. sous l'hypothese que les distances entre A et les points mal classes par A sont reparties selon une distribution gaussienne.6). si le vecteur B etait connu. qui est positif. Par consequent.1.

2(ATt) M .27 Octobre 2009 à 09:30 9. par exemple : e e J (A(t) B (t) ) ' J (A(t+1) B (t+1) ) ou bien : La valeur peut ^tre consideree. soit ici : ATt) = BTt) M + (9. La methode globale la plus simple est la programmation lineaire : si l'on ne retient de B que sa positivite. du point de vue de l'apprentissage.14) Ce gradient vaut : Une facon de reduire J (A(t) B (t) ) est d'utiliser la methode de la descente de gradient (voir l'annexe 18. Cette methode consiste a partir d'un vecteur B 0 arbitraire. vers une valeur positive sinon cette derniere valeur peut cependant ne pas ^tre e le minimum global de J (A B ) sur toutes les valeurs possibles de A et B .13) ( ( On cherche a minimiser le critere J (A(t) B (t) ). ( ( T M . elle permet une bonne exploration de l'espace decrit par J .11. l'equation ci-dessus se ramene a m inequations lineaires dans l'espace de dimension d + 1. Le probleme est donc de grande taille si le nombre d'exemples est important.286 PARTIE 3 : Apprentissage par optimisation On dispose alors de deux types de methodes pour nir de resoudre le probleme : celles reposant sur un calcul numerique global direct et celles qui procedent de maniere iterative sur les donnees d'apprentissage (on en verra une au paragraphe suivant). on remplace simplement dans (ATt) M .15) BTt+1) = BTt) + (ATt) M . BTt) ) ( ( ( ( (9. Il y a cependant une precaution a prendre : celle d'eviter de rendre negatifs des termes de B(t+1) pour cela. L'algorithme 9. Les methodes globales sont donc peu employees ici. on sait que l'on peut calculer A(t) par l'equation 9. puis a en deduire une suite convergente de valeurs A(t) et B (t) de vecteurs parametres du probleme. Son principe est le suivant : si l'on suppose conna^tre un certain B (t) . Ce document est la propriété exclusive de nona nina (ninasbalka@gmail. B Tt) jj= .2. BTt) ) tous les termes negatifs par 0. mais peut faire varier erratiquement les vecteurs A(t) et t tmax .2). ce qui donne un vecteur note bA(t) (t) On demontre que cette procedure converge vers une valeur nulle de J quand les deux classes sont separables. comme l'importance de la e punition ou de la recompense que l'on applique aux parametres pour les modi er c'est d'ailleurs une remarque generale pour toutes les methodes de gradient. qui consiste ici a retrancher a B (t) un vecteur colineaire a rB(t) J (A(t) B (t) ).2 Une methode iterative : l'algorithme de Ho et Kashyap. Grande. Le critere d'arr^t peut ^tre. Comment modi er B (t) pour diminuer cette valeur? Simplement en calculant le gradient de J (A(t) B (t) ) par rapport a B (t) et en en deduisant une valeur B t+1 telle que : J (A(t) B(t+1) ) J (A(t) B (t) ) (9. B Tt) ) ( ( ( ( (9.16) ou est un coe cient positif qui regle la vitesse de convergence de l'algorithme.com) . donc a faire : rB(t) J (A(t) B (t) ) = rB(t) jj ATt) M .1 decrit cette procedure. B T c.

(( Le perceptron a appris a lire )). Cet algorithme travaille de facon iterative : il prend les donnees d'apprentissage les unes apres les autres. qui joue des clubs de moins en moins (( longs )) pour ^tre plus e precis au fur et a mesure qu'il se rapproche du trou. Son nombre d'etapes e ectives peut ^tre important : un e seul (exactement ou en moyenne) passage des donnees n'est en e et pas su sant pour le faire converger. On constate qu'il n'y a pas de modi cation si la donnee lue est classee correctement. L'une d'entre elles a par exemple pour principe de reduire cette valeur au fur et a mesure de la croissance de t : on peut la voir comme un survol exploratoire a grande vitesse du \paysage\ J .2 : a l'etape t de son calcul. 9.3 Un autre calcul : l'algorithme du perceptron Bien que desormais peu utilise en pratique. On n'a donc plus besoin ici de se placer dans l'espace de representation de dimension d + 1 ni d'utiliser le vecteur A.com) .1 Prendre B 0 et positif quelconques t 0 tant que critere d'arr^t non satisfait faire e 287 Algorithme de Ho et Kashyap ATt) BTt) M + ( ( T B(t+1) BTt) + bATt) M . l'algorithme du perceptron se decrit par l'algorithme 9. tel etait le titre d'un article de la revue de vulgarisation scienti que Atomes de fevrier 1962. le vecteur a est note a(t) le nombre maximal d'etapes est xe a tmax . 1. 9. la valeur courante a(t) de a est corrigee. cet algorithme est presente ici a deux titres. chacune etant choisie soit par un passage systematique dans l'ensemble d'apprentissage (version (( non-stochastique ))).27 Octobre 2009 à 09:30 B(t) et interdire en pratique leur convergence petite. En revanche. Il existe diverses possibilites pour regler automatiquement qui ont ete largement etudiees dans le cadre des methodes generales d'optimisation par les techniques de descente de gradient.2. . elle donne une vitesse de convergence lente et peut mener trop facilement a un optimum local. en cas de mauvais classement. 2.1 L'algorithme stochastique Dans sa version stochastique. progressivement remplace par une descente de plus en plus lente vers le minimum entrevu comme le plus prometteur 1 . Ensuite et surtout parce qu'il est a la base des methodes connexionnistes etudiees dans le chapitre 10. Nous avons deja fait allusion au perceptron dans le chapitre 1. puisqu'il date pratiquement de l'invention de l'ordinateur e et qu'il a ete presente a sa naissance comme une bonne maniere de simuler les facultes d'apprentissage 2 . soit par un tirage au hasard dans celui-ci (version (( stochastique ))). Ou comme la tactique normale d'un joueur de golf.2. B(t) cT ( ( t t+1 n tant que Ce document est la propriété exclusive de nona nina (ninasbalka@gmail.Chapitre 9 L'apprentissage de surfaces separatrices lineaires Algorithme 9. Cet algorithme travaille directement sur le vecteur a qui caracterise la surface discriminante cherchee.3. D'abord pour son inter^t historique.

L'iteration centrale de l'algorithme (appelee une epoque d'apprentissage) porte sur le calcul de la modi cation (notee ci-dessous modif) que subit a par le cumul des contributions de tous les exemples.3.3.2 Convergence Le calcul suivant montre empiriquement en quoi cette tactique est fondee : supposons que la donnee d'apprentissage x appartienne a la classe !1 on sait que dans ce cas.2 Le perceptron. comme dans le cas precedent. ce qui la rapproche de la valeur negative qu'elle aurait ( ( d^ prendre.2.27 Octobre 2009 à 09:30 a(t+1) a(t) + x a(t+1) a(t) . puisque la valeur aT x a augmente.3 La version non-stochastique et son interpretation Reprenons cet algorithme dans sa version non stochastique. tant que t tmax faire sinon si x 2 !1 alors tirer au hasard une donnee d'apprentissage x si x est bien classe alors a(t+1) a(t) sinon Ce document est la propriété exclusive de nona nina (ninasbalka@gmail.2. assure que dans le cas de classes separables.com) . un hyperplan convenable est trouve en un nombre ni d'etapes. version stochastique. Le calcul est analogue dans le cas ou une donnee devant appartenir a !2 est mal classee : la valeur aTt+1) x devient inferieure a aTt) x. dans laquelle les donnees d'apprentissage sont proposees dans l'ordre. la donnee x devrait avoir a son prochain passage plus de chances de veri er l'inegalite aT x 0 et d'^tre donc bien classee dans la classe e !1 . u Cette justi cation est en fait rigoureusement demontree par un theoreme de convergence qui.288 Prendre a(0) et positif quelconques t 0 PARTIE 3 : Apprentissage par optimisation Algorithme 9. X x2S mal classe par A AT x . On peut voir cet algorithme dans cette version comme la minimisation du critere J (A) = . La base des exemples intervient plusieurs fois. ATt) x est negatif au lieu d'^tre positif. puisqu'il est mal classe. L'algorithme 9.3 decrit le processus. x n tant que 9. e ( t n si n si t+1 aTt+1) x = (a(t) + x)T x = aTt) x + xT x = aTt) x + jj x jj aTt) x ( ( ( ( (9.17) Par consequent. 9.

en supposant a0 xe a la valeur 1. x2 = 0 ( = 0) 1 + 0:7x1 . puisque l'exemple (x c) appartient a la classe !2 . 3x2 = 0 ( = 1) Fig. L'experience prouve en general que ce dernier est plus e cace du point de vue de la generalisation. Cet algorithme minimise donc J (a). x2 + 1 = 0 1 Autrement dit.3 { Fonctionnement de l'algorithme du perceptron. 9.3. x2 + 1 = 0 sur les coordonnees de l'exemple est donc : 3. l'equation de la surface separatrice courante soit : x1 . on a xe a0 = 1 et le vecteur courant a(t) vaut : a(t) = . X Par consequent.2. la modi cation apportee au vecteur A par une epoque d'apprentissage est proportionnelle au gradient du critere J (a). on a : raJ (a) = .27 Octobre 2009 à 09:30 1 . x2S mal classe par a x = modif 9. 1:2x2 = 0 ( = 0:1) 2 289 y Ce document est la propriété exclusive de nona nina (ninasbalka@gmail.com) . cette valeur devrait ^tre negative. En e et.2+1 =2 Or. qui est un critere un peu di erent de celui de l'algorithme de Ho et Kashyap.Chapitre 9 L'apprentissage de surfaces separatrices lineaires x2 1 + x1 . 0:5x1 . 2x1 . 0 3 1 Maintenant.1 . 2x2 = 0 ( = 0:5) x1 1 . Il faut e donc modi er a(t) .3) et supposons qu'a l'iteration t. !2 . supposons que l'exemple suivant soit : (x c) = @ 2 A La valeur de l'equation de la separatrice x1 .4 Fonctionnement sur un exemple Prenons l'espace de representation egal a IR2 ( gure 9.

Ensuite. elle cherche sur F le point par lequel passe l'hyperplan discriminant. elle va chercher la droite F de vecteur directeur f passant par l'origine telle que la projection des points d'apprentissage sur F separe au mieux les deux classes !1 et !2 .2. x Ce document est la propriété exclusive de nona nina (ninasbalka@gmail. version non stochastique.3 Le perceptron. orthogonal a F .1 . On verra au chapitre 10 une extension du perceptron au cas de plus de deux classes on verra aussi comment on peut le generaliser en reseau connexionniste. 0::3 = .290 PARTIE 3 : Apprentissage par optimisation Algorithme 9. par exemple : = 1. Pour ce faire. Pour un pas plus grand. on obtient : 1 0: a(t+1) = a(t) .2x1 . n si n si n pour t+1 t 9. . sans toutefois bien le classer. puisque (x c) 2 !2 .27 Octobre 2009 à 09:30 A(t+1) A(t) + modif n tant que Le calcul a faire. 3x2 + 1 = 0 qui classe correctement le nouveau point. :x Pour = 0:1. est le suivant : a(t+1) = a(t) .172 2 02 : La surface separatrice courante a donc pour nouvelle equation : 0:7x1 . Prendre A(0) quelconque et positif quelconque t 0 tant que t tmax faire modif 0 pour chaque donnee d'apprentissage x faire si x est mal classe alors si x 2 !1 alors sinon modif modif modif + x modif .com) . 1:2x2 + 1 = 0 On constate graphiquement qu'elle s'est rapprochee du nouvel exemple. 0:1 3 = .4 L'hyperplan discriminant de Fisher La methode de Fisher di ere des precedentes en ce qu'elle ramene d'abord le probleme a une dimension avant de construire un hyperplan. on obtiendrait la separatrice : .

. il a donc pour equation : La derniere inconnue est la valeur scalaire f0 .18) comme le scalaire donnant la moyenne des valeurs des projections des points de !1 sur F . on demontre que le critere J (F ) est maximal pour : b f = SI. et notons de m^me 2 pour la seconde classe.23) (9.27 Octobre 2009 à 09:30 X x2!1 (f T x .21) SI = S1 + S2 (9. De nissons aussi : e s1 = Ce document est la propriété exclusive de nona nina (ninasbalka@gmail.24) Finalement. Puisque le probleme a ete ramene a une dimension. 2 )T Il est alors possible de prouver que : TS f J (F ) = f T SJf f I (9. s2) + 2 1 2 2 (9. il su t pour la determiner de supposer par exemple que les projections de chaque classe sur F sont gaussiennes et de proceder comme au chapitre 14. Le critere de Fisher consiste a chercher la droite F telle que la valeur J (F ) = (s 12 .22) est appelee la variance intraclasse totale des donnees d'apprentissage. On peut d'ailleurs l'exprimer autrement. De nissons les valeurs : S1 = et de m^me S2 la valeur e X x2!1 (x . 2 )( 1 . 1 )2 (9.20) soit maximale. 1 )T (9.19) et s2 la dispersion de ces projections. 1 )(x . Cette valeur est en e et une mesure de la separation des projections des deux classes sur la droite F . m1 et m2 le nombre de points d'apprentissage dans !1 et !2 et de nissons : 1= 291 T m1 x2!1 f x 1 X (9.25) L'hyperplan separateur de Fisher etant orthogonal a la droite F . 2) b f x .Chapitre 9 L'apprentissage de surfaces separatrices lineaires Notons 1 et 2 la moyenne des points d'apprentissage de !1 de !2 . De nissons aussi la variance interclasse par : SJ = ( 1 .1( 1 .com) . f0 = 0 (9.

5 Surfaces separatrices non lineaires On pourrait assez facilement etendre les calculs et les algorithmes precedents a la recherche de surfaces discriminantes non lineaires cependant. ce qui mene a une perte de precision dans leur estimation. Et surtout. Pour ces raisons. Le point en triangle est attribue a la classe !1 . mais elle a l'inconvenient de demander le calcul de C (C . Nous verrons au chapitre 14 que les surfaces separatrices implicitement calculees par la methode du plus proche voisin (voir le chapitre 14) et par les reseaux connexionnistes a couches cachees (chapitre 10) sont des hyperplans par morceaux (en dimension 2. Sur les sept zones. ce qui revient a considerer la reunion de leurs exemples comme negatifs et ceux de la classe en apprentissage comme positifs. D'abord. pour deux raisons.6 Et pour plus de deux classes? Dans le cas ou l'on a un ensemble d'apprentissage representatif de plus de deux classes.4 { Separation lineaire a plus de deux classes.5) elle presente l'avantage de dessiner moins de zones ambigues. on arriverait en augmentant trop le degre de la surface a un apprentissage par c ur.4. Dans le cas de plus de trois classes.com) . Une autre solution est de chercher une surface discriminante entre chaque couple de classes ( gure 9.2. On separe chaque classe de toutes les autres : il y a C hyperplans. comme le montre la gure 9. en appliquant ainsi le principe ERM sans contr^ler la complexite o des hypotheses. il existe plusieurs facons de generaliser la discrimination lineaire. La premiere est d'apprendre pour chaque classe un hyperplan qui la discrimine de toutes les autres. pour un nombre d'exemples donne. 1)=2 jeux de parametres au lieu de C . Ce document est la propriété exclusive de nona nina (ninasbalka@gmail. a de larges ambigu tes de classi cation. 9. Mais cette facon de faire conduit. le point central est ambigu entre les trois classes. cette approche est rarement poursuivie. quatre sont ambigues.292 PARTIE 3 : Apprentissage par optimisation 9. la geometrie de la separation par hyperplans devient nettement plus complexe : l'espace IRd est en e et partage dans le cas general en n2 +2n+2 zones convexes par n hyperplans. la recherche de surfaces discriminantes se limite en pratique a celle d'hyperplans. . des \lignes brisees\).2. mais classe mal des exemples de test pourtant issus des m^mes processus aleatoires que e les donnees d'aprentissage (voir le chapitre 3). Cette situation est telle que la regle apprise fournit une probabilite d'erreur apparente nulle.27 Octobre 2009 à 09:30 9. le point en carre est ambigu entre !1 et !2 . On n'a donc en general pas besoin de pousser la recherche directe de separatrices au-dela de celle des surfaces lineaires. !1 !2 !3 !1 !3 !1 !2 !3 !2 !1 !3 !2 Fig. compliquer les surfaces reviendrait a augmenter le nombre de parametres a apprendre.

et P des fonctions de decision du type h(x) = d=0 wi xi .27 Octobre 2009 à 09:30 !2 !3 !2 Fig. De fait. est-ce que l'apprentissage devient plus i performant puisqu'il prend en compte une information supplementaire sur les donnees? La suite de ce chapitre est dediee a cette question. terme que nous avons prefere a celui de machines a vecteurs de support qui est la traduction litterale des Support Vector Machines developpees originellement par Vapnik dans les annees 1980 et 1990. Si l'on considere o maintenant la distance (ou une notion apparentee) des exemples a l'hyperplan separateur. une grande partie des methodes recentes et des travaux theoriques en cours concernent l'apprentissage de separateurs a vastes marges (SVM). Les problemes d'ambigu te peuvent ^tre resolus par un systeme ulterieur de decision sur e l'ensemble des classes. . par exemple la distance aux hyperplans appris (qui se deduit directement des formules presentees ci-dessus) et/ou les probabilites a priori des classes.3 Les separateurs a vastes marges (SVM) Ce chapitre est dedie a la recherche du meilleur hyperplan permettant de discriminer deux classes. une seule est ambigue. et l'apprenant cherchait une fonction de decision du type d . donne ici dans le cas de deux classes. On separe chaque classe de chaque autre : il y a C (C . Le point en triangle et le point en carre sont attribues a la 2 classe !2 . le point central est ambigu entre les trois classes. possede une generalisation naturelle a plus de deux classes qui sera presentee au chapitre 10. nous presenterons essentiellement la technique des separateurs a vastes marges dans le cadre de la classi cation supervisee binaire.1) hyperplans. le critere de performance etait lie au nombre d'exemples incorrectement classes. Ceci n'est pas sans rapport avec les methodes des arbres de decision presentees au chapitre 11. Dans les sections precedentes. et realiser un processus de decision arborescent sur cette base.com) . la seule information que l'on obtienne sur l'entree est qu'elle est d'un c^te ou de l'autre de la frontiere de decision. On peut aussi regrouper provisoirement les classes par des methodes de classi cation hierarchique. Sur les sept zones. prenant en compte des parametres supplementaires.X w x g(x) = sign i=0 i i c'est-a-dire une fonction indicatrice. Notons aussi que l'algorithme du perceptron. Dans cette section. Dans ce cas-la. 9.Chapitre 9 L'apprentissage de surfaces separatrices lineaires !1 !2 !1 !3 293 !1 !3 Ce document est la propriété exclusive de nona nina (ninasbalka@gmail. donc de la separation de deux classes.5 { Separation lineaire a plus de deux classes. 9.

1 Cette separatrice est valide sur l'echantillon d'apprentissage si : 8 1 i m ui h(xi ) > 0.1 Separateurs lineaires et marge Supposons donne l'echantillon d'apprentissage : S = f(x1 u1 ) ::: (xm um )g.1 La recherche des separateurs lineaires a vastes marges 9. et en soulignant les liens avec d'autres methodes egalement tres en vogue comme les methodes a base de fonctions noyau ou le boosting qui est presente dans le chapitre 11. 9. SBSE00. avec xi 2 IRd . La distance d'un point x a l'hyperplan d'equation h(x) = w>x + w0 est egale a : h(x)=k w k. ou .1. On suppose dans un premier temps qu'il existe une separatrice lineaire permettant de distinguer les exemples positifs (etiquetes V RAI ou +1) des exemples negatifs (etiquetes FAUX ou -1). Dans un premier temps. sans nous preoccuper de leur justi cation qui sera l'objet de la deuxieme partie. Soit encore si : 8 1 i m ui (w>xi + w0 ) > 0: Hyperplan valide Marge maximale Hyperplan optimal Espace des descripteurs Fig.3.294 PARTIE 3 : Apprentissage par optimisation Il existe des generalisations multiclasse de ces techniques. On sait que la recherche d'une telle separatrice dans X revient a chercher une fonction hypothese h(x) = w>x + w0 telle que : ( ( > 0 =) u = +1 >xi + w0 w i <0 .6 { Separation de deux ensembles de points par des separatrices lineaires. en particulier CST00. Her02. SS02.27 Octobre 2009 à 09:30 9.com) . SBE99. de m^me que tout un ensemble de e travaux sur l'application de ces methodes a la t^che de regression.3. Ce document est la propriété exclusive de nona nina (ninasbalka@gmail. Dans l'espace limite de cet a ouvrage. nous presentons la (( machinerie )) des separateurs a vastes marges. nous en parlerons peu.1 1g. Vap95] et AB96] pour une analyse theorique poussee. Nous terminerons en evoquant les extensions de ces methodes a la classi cation multiclasse et a la regression. La fonction h(x) correspond a l'equation d'un hyperplan dans X de vecteur normal w. nous nous tiendrons aux idees essentielles e et nous reportons les lecteurs interesses a la litterature foisonnante sur le sujet. Pour la m^me raison. L'hyperplan se trouvant (( au milieu )) des deux nuages de points est appele hyperplan optimal. ui 2 f.

7). Les problemes d'optimisation pour lesquels la fonction et les contraintes sont lineaires ressortent des techniques de programmation lineaire.7 { L'hyperplan optimal est perpendiculaire au segment de droite le plus court joignant 1 un exemple d'apprentissage a l'hyperplan. mais devient inenvisageable pour des valeurs de d depassant quelques centaines. 9. Ce segment a pour longueur kwk lorsqu'on normalise convenablement les parametres w et w0 . Cet hyperplan optimal est de ni par : Argmax minfk x . xi k : w w0 295 x 2 IRd (w>x + w0 ) = 0 i = 1 : : : mg c'est-a-dire l'hyperplan qui maximise la distance minimale aux exemples d'apprentissage (voir gure 9.1. 3.Chapitre 9 L'apprentissage de surfaces separatrices lineaires k w k est la norme euclidienne du vecteur w. appelee formulation primale. . Cela est possible avec des methodes de programmation quadratique 3 pour des valeurs de d assez petites. d etant la dimension de l'espace des entrees X .com) . 9. il en existe en general une in nite. Lorsqu'il existe une separatrice lineaire entre les points d'apprentissage.3. soit a resoudre le probleme d'optimisation suivant qui porte sur les parametres w et w0 : ( Minimiser sous les contraintes 1 k w k2 2 ui (w>xi + w0 ) 1 i = 1 ::: m (9. On peut alors chercher parmi ces separatrices celle qui est (( au milieu )) des deux nuages de points exemples et contre-exemples. Heureusement. Ce document est la propriété exclusive de nona nina (ninasbalka@gmail.26) Cette ecriture du probleme. il existe une transformation de ce probleme dans une formulation duale que l'on peut resoudre en pratique. la marge vaut : 2=k w k.2 L'expression primale du probleme des SVM La recherche de l'hyperplan optimal revient donc a minimiser k w k. implique le reglage de d + 1 parametres.1 h( x) = 0 Fig. Dans ce cas. tandis que les problemes d'optimisation dans lesquels la fonction est quadratique et les contraintes lineaires ressort des techniques de la programmation quadratique : voir le chapitre 3.27 Octobre 2009 à 09:30 Marge maximale w h( x) > 1 Vecteurs de support 1 w h( x) = + 1 h( x) < -1 Hyperplan optimal h( x) = .

on utilise une fonction que l'on appelle lagrangien qui incorpore des informations sur la fonction objectif et sur les contraintes et dont le caractere stationnaire peut ^tre utilise pour e detecter des solutions. puis poursuivis par Lagrange. oui. Pour resoudre ces types de problemes. Ceci s'ecrit : et conduit a : et a : Ce document est la propriété exclusive de nona nina (ninasbalka@gmail. la derivee du Lagrangien par rapport aux variables primaires doit s'annuler. 2 Pmj=1 1 < i i=1 > Pm 0 i = 1 : : : m : i u =0 i=1 i i i j ui uj (xi : xi ) (9. le lagrangien est de ni comme etant la somme de la fonction objectif et d'une combinaison lineaire des contraintes dont les coe cients i 0 sont appeles multiplicateurs de Lagrange ou encore variables duales.7). Ces criteres de convexite sont realises dans le probleme (9.com) . demontre que le probleme primal et sa formulation duale ont la m^me e solution qui correspond a un point-selle du lagrangien (il faut le minimiser par rapport aux variables primaires w et w0 et le maximiser par rapport aux variables duales i ).31) . Nous utiliserons aussi le terme plus image d'exemples critiques puisque ce sont eux qui determinent l'hyperplan optimal. il est montre (conditions de Karush-Kuhn-Tucker) que seuls les points qui sont sur les hyperplans frontiere (xi : w) + w0 = 1 jouent une r^le. Au point-selle. Il est ainsi remarquable que le vecteur solution w? ait une expression en termes d'un sousensemble des exemples d'apprentissage : les exemples critiques.29) et (9. Ces points pour lesquels les o multiplicateurs de Lagrange sont non nuls sont appeles vecteurs de support par Vapnik.28) (9. En substituant (9.28).30) dans (9. un probleme d'optimisation possede une forme duale dans le cas ou la fonction objectif et les contraintes sont strictement convexes. C'est en m^me temps intuitivee ment satisfaisant puisque l'on (( voit )) bien que l'hyperplan solution est entierement determine par ces exemples (voir gure 9.3. 1) L(w w0 ) = 2 (9.296 PARTIE 3 : Apprentissage par optimisation 9.1. la resolution de l'expression duale du probleme est equivalente a la solution du probleme original. m 1 k w k2 . Dans ce cas.26). C'est intuitif. X (u :((x :w) + w ) .29) (9.3 L'expression duale du probleme de recherche des SVM D'apres la theorie de l'optimisation. mais c'est remarquable.30) i ui m X i=1 w = Par ailleurs. qui couronne des travaux commences par Fermat.27 Octobre 2009 à 09:30 @ L(w w ) = 0 0 @w m X i=1 @ L(w w ) = 0 0 @w0 =0 i ui xi (9. Plus precisement. on elimine les variables primaires et l'on obtient la forme duale du probleme d'optimisation : trouver les multiplicateurs de Lagrange tels que : 8 > Max Pm i .27) i i i 0 i=1 Une theoreme de Kuhn-Tucker.

i (9.35) pour une constante C > 0. D'abord. 1 Pm Pm=1 > i=1 < 2 i=1 j >8i m 0 i C >P u = 0 : i=1 i i i j ui uj (xi : xi ) (9. remarquons deux choses. excepte les contraintes qui sont legerement di erentes. la solution ne depend plus de la dimension d de l'espace d'entree.27 Octobre 2009 à 09:30 ui : ((xi : w? ) + w0) . Pour cela. La description faite ici concerne la minimisation du nombre d'exemples qui ne sont pas du bon c^te des marges. Il doit ^tre choisi par l'utilisateur 4.103-110 par exemple pour plus de details. comme dans le cas separable.1. 1] = 0 (9. que l'hyperplan solution ne requiert que le calcul des produits scalaires hx : xi i entre des vecteurs de l'espace d'entree X . o Il existe une autre formulation qui prend en compte non le nombre d'erreurs. mais de la taille m de l'echantillon de donnees et m^me du nombre mc d'exemples e critiques qui est generalement bien inferieur a m. Ensuite.Chapitre 9 L'apprentissage de surfaces separatrices lineaires L'hyperplan solution correspondant peut alors ^tre ecrit : e ? h(x) = (w? : x) + w0 = m X i=1 ? ui : (x : xi ) i ? + w0 297 (9. . Nous renvoyons le lecteur a CST00] pp. Les methodes d'optimisation quadratique standards su sent donc pour de nombreux problemes pratiques. e 4. on modi e les contraintes en les rel^chant gr^ce a des variables a a ressort i 0 : ui : ((w : xi) + w0 ) On doit dans ce cas minimiser: 1.4 La cas d'un echantillon non lineairement separable Supposons maintenant que les exemples ne puissent pas ^tre lineairement separes. Cette observation aura de profondes repercussions. Peut-on e amenager la methode des separateurs a vastes marges (SVM)? Une technique dite des variables ressort (slack variables) permet en e et de chercher un hyperplan separateur faisant le moins d'erreurs possible. 8 >Max Pm i .3.33) A ce point.com) .36) Le coe cient C regle le compromis entre la marge possible entre les exemples et le nombre d'erreurs admissibles. 9.32) ou les ? sont solution de (9. On obtient alors. une formulation duale. mais la distance euclidienne a la marge des exemples mal positionnes.31) et w0 est obtenue en utilisant n'importe quel exemple critique i (xc uc ) dans l'equation : i Ce document est la propriété exclusive de nona nina (ninasbalka@gmail.34) m 1 k w k2 + C X i 2 i=1 (9.

1. L'espace de redescription.com) .27 Octobre 2009 à 09:30 ou h: :i denote le produit scalaire 5 . qui contient toutes les combinaisons de 5 pixels quelconques parmi 256. mais qui admettent generalement plusieurs optima locaux. comme l'avaient fort bien montre en leur temps Minsky et Papert dans leur celebrissime ouvrage Perceptrons ( MP69]).298 PARTIE 3 : Apprentissage par optimisation 9. de l'anglais inner product. . supposons que l'on cherche a classer des images de 16 16 pixels (par exemple pour faire de la reconnaissance d'ecriture manuscrite).38). plus la probabilite de pouvoir trouver un hyperplan separateur entre les exemples et les contre-exemples est elevee. di ciles a determiner de surcro^t. Cependant. Calculer des produits scalaires dans un tel espace est impraticable. Ne peut-on donc avoir le meilleur des deux mondes? Un pas dans cette direction est fait quand on realise qu'un probleme de discrimination non lineaire peut se transformer en probleme de separation lineaire si l'on dispose des bons descripteurs pour decrire les donnees. une approche combinatoire permet d'imaginer une telle transformation sans connaissance a priori sur le probleme. il devient donc possible d'envisager d'utiliser la methode des SVM. Notons une transformation non lineaire de l'espace d'entree X en un espace de redescription (X ) : x = (x1 : : : xd )> 7! (x) = ( 1 (x) : : : d (x) : : : ) (9. l'expressivite limitee des separateurs lineaires semble devoir les con ner a des probemes tres particuliers. Encore faut-il conna^tre ces descripteurs. Pourtant. L'equation de l'hyperplan separateur dans le nouvel espace devient : 8 > Max Pm i .5 Le passage par un espace de redescription : les fonctions noyau Une motivation majeure des separateurs a vastes marges (SVM) est que le probleme d'optimisation correspondant n'a pas d'optima locaux mais seulement un optimum global. i Tout cela est tres bien. En e et. Parfois aussi appele produit interne. 2 Pmj=1 1 < i i=1 > Pm 0 i = 1 : : : m : i i=1 i ui = 0 h(x) = m X i=1 ?u h i i i j ui uj h (x i ) (xj )i (9. il existe des fonctions 5. eventuellement in nie. et que l'on suppose necessaire pour cela de tenir compte des correlations entre 5 pixels quelconques au plus dans les images. ceci d'autant plus que l'on utilisera des transformations non lineaires des descripteurs d'entree. est alors de dimension de l'ordre de 1010 . facile a trouver qui plus est. D'ou le recours aux perceptrons multicouches mis au point dans les annees quatre-vingt (voir chapitre 10). Il se trouve heureusement que l'on peut dans certains cas s'arranger pour litteralement courtcircuiter le passage par les calculs dans l'espace de redescription. En e et.37) Le probleme d'optimisation se transcrit dans ce cas par : Ce document est la propriété exclusive de nona nina (ninasbalka@gmail.38) ? (x) : (xi )i + w0 (9.39) ? ou les coe cients ? et w0 sont obtenus comme precedemment par resolution de (9. Pour donner une idee.3. sauf que l'objection immediate du praticien concerne le produit scalaire h (xi ) (xj )i qui devient rapidement impossible a calculer quand la dimension de (X ) augmente (sans parler du cas de la dimension in nie). plus la dimension de l'espace de description est grande. En transformant l'espace d'entree en un espace de redescription de tres grande dimension. ce qui revient souvent en pratique a conna^tre la solution.

Cela signi e que l'utilisateur devra operer par essais et erreurs : essayer des fonctions noyau associees a des produits scalaires dans des espaces de redescription et voir si elles permettent l'obtention de bonnes fonctions de decision. Lorsqu'une telle correspondance est exploitable. Les fonctions noyau decrites impliquent des calculs dans l'espace X . Mais comment determiner quelle fonction noyau aisement calculable est associee a un espace de redescription (X ) dont on pense qu'il peut ^tre interessant pour trouver un separateur lineaire des donnees? e En fait. en revanche. Il ne s'agit pas de s'etendre ici sur cette theorie.38) est equivalent au probleme suivant : 299 dont la solution est l'hyperplan separateur d'equation : Ce document est la propriété exclusive de nona nina (ninasbalka@gmail. sur les fonctions prises comme objets (vecteurs d'un espace de Hilbert). mais qui restera virtuel. 1 2 Autre exemple : la fonction noyau K (x y) = (x : y + c)n avec c > 0 correspond a un produit scalaire dans l'espace des descripteurs correspondant a tous les produits d'ordre n.27 Octobre 2009 à 09:30 8 > Max Pm i . Ils sont par consequent faciles a calculer.40) h(x) = m X i=1 ? u K (x x ) i i i ? + w0 (9. Parmi ces equations. appelees fonctions noyau . il peut ^tre montre que la fonction noyau polynomiale : e K (x y) = (x : y)n (9. faciles a calculer et dont on peut montrer qu'elles correspondent a un produit scalaire h (x) (y)i dans un espace de grande dimension. et d'equations. jamais explicite. et K (x y) est le noyau de l'equation integrale. Ainsi pour n = 2 et x y 2 IR2 .40). contrairement a d'autres techniques d'apprentissage. la demarche est inverse : on cherche des fonctions noyau dont on peut avoir la garantie a priori qu'elles correspondent a un produit scalaire dans un certain espace qui agira comme un espace de redescription. le a choix de la fonction noyau devient le seul parametre a regler. il en est qui jouent un grand r^le en physique.41) ? ou les coe cients ? et w0 sont obtenus comme precedemment par resolution de (9.com) .Chapitre 9 L'apprentissage de surfaces separatrices lineaires bilineaires symetriques positives K (x y). L'idee essentielle est d'etudier les espaces de fonctions lorsqu'on peut les doter d'un produit scalaire et donc d'une distance. nous avons : p 2 2 p (x : y)2 = (x2 x2 2x1 x2 ) (y1 y2 2 y1 y2 )> = h (x) : (y )i 1 2 p qui correspond au changement de description par la fonction : (x) = (x2 x2 2x1 x2 ). mais pas non plus de l'escamoter car il est probable que sa comprehension profonde peut conduire a de futurs developpements en apprentissage. donc dans un espace de dimension d. Sous quelles conditions une fonction noyau est-elle equivalente a un produit scalaire dans un espace 6 ? 6.42) realise implicitement un produit scalaire dans l'espace des descripteurs correspondant a tous les produits d'exactement n dimensions. ce qui ouvre la porte a tous les problemes d'approximation. ce sont o les equations integrales du type : Zb f (x) = K (x y) f (y) dy a dans lesquelles l'inconnue est la fonction f (x). 2 Pmj=1 1 < i=1 i > Pm 0 i = 1 : : : m : i u =0 i=1 i i i j ui uj K (xi xj ) (9. le probleme d'optimisation (9. Les concepts mis en jeu pour repondre a cette question impliquent une assez grande familiarite avec les mathematiques et particulierement avec l'analyse fonctionnelle developpee par David Hilbert (1862-1943). . i Par exemple. Si cet aspect t^tonnant de la methode peut sembler peu satisfaisant.

Dont les valeurs propres sont toutes positives ou nulles.44).44) ou N est le nombre de valeurs propres positives. 7. le produit scalaire dans l'espace de Hilbert possede une representation equivalente : h (x) : (x0)i = 1 X i=1 i i (x) i (x ) 0 = K (x x0 ) (9. Une condition equivalente a celle de Mercer est que les matrices Kij := K (xi xj ) soient positives semi-de nies 7 pour tout echantillon d'exemples fx1 : : : xm g (ces matrices sont appelees matrices de Gram).1 (Theoreme de Mercer) g(y) = A f (y) = Zb a K (x y) f (y) dy + h(x) 0 veri ant : Z X X K (x x0 ) f (x) f (x0 ) dxdx0 pour toute fonction f 2 L2 (X ) (de carre sommable) (X etant un sous-espace compact de IRd ). La plupart des praticiens utilisent l'une des fonctions noyau connues (voir le tableau ci-dessous) ou bien font usage de la propriete (9.300 PARTIE 3 : Apprentissage par optimisation Soit donc la redescription des formes x de X par la fonction dans un espace de Hilbert de coordonnees 1 (x) : : : d (x) :::. Le theoreme de Mercer donne donc les conditions pour qu'une fonction K (: :) soit equivalente a un produit scalaire (9.27 Octobre 2009 à 09:30 Si K (: :) est une fonction noyau continue symetrique d'un operateur integral Theoreme 9. . On peut alors decrire la fonction de redescription des entrees comme : (x) = ( p 1 1 (x) p 2 2 (x) :::) (9. elles ne sont pas faciles a veri er en pratique.2) pour construire de nouvelles fonctions noyau adaptees a leur probleme. e Ce document est la propriété exclusive de nona nina (ninasbalka@gmail. si la fonction K (x x0 ) est une fonction symetrique satisfaisant aux conditions de Mercer enoncees dans le theoreme du m^me nom.45) Si les conditions theoriques exposees ci-dessus sont interessantes. alors la fonction K (: :) peut ^tre developpee en une serie uniformement convergente en fonction e des valeurs propres positives i et des fonctions propres i : N X K (x x0 ) = j =1 j j (x) j (x0 ) (9.43) avec i 0 8i.com) . D'apres la theorie de Hilbert-Schmidt.

X 2 IRd . K (x z ) = f (x) : f (z ) 5. K (x z ) = K3 ( (x) (z )) 6. Il faut donc les choisir avec soin en essayant de traduire gr^ce a elles le maximum de connaisa sances prealables dont on dispose sur le probleme et sur les donnees. K (x z ) = K1 (x z ) : K2 (x z ) 4. kx. pp.Fonctions sigmo des K (x x0 ) = tanh(a (x : x0 . K (x z ) = x0 B z Pour une preuve.Chapitre 9 L'apprentissage de surfaces separatrices lineaires . voir CST00]. commun a tous les noyaux.Polynomiale 301 La solution s'exprime sous la forme : P support ? u K (x x ) + w? h(x) = n=1 i 0 i i i K (x x0 ) = (x : x0 + 1)p La puissance p est determinee a priori par l'utilisateur.2 (Construction de fonctions noyau a partir de fonctions noyau) Soient K1 et K2 deux fonctions noyau de nies sur X X . Il est clair que les fonctions noyau encodent des connaissances essentielles sur le probleme d'induction etudie. : X ! IRl . L'ecart-type 2 . La forme fonctionnelle des fonctions de decisions possibles. On peut ainsi chercher des fonctions noyau invariantes pour certaines transformations de l'espace d'entree. b)) Ce document est la propriété exclusive de nona nina (ninasbalka@gmail.3. Le livre SS02] donne beaucoup d'informations utiles sur ce sujet. Alors les fonctions suivantes sont des fonctions noyau : 1. est speci e a priori par l'utilisateur.x0 k2 . K (x z ) = K1 (x z ) + K2 (x z ) 2. f (:) une fonction reelle sur X . Le type de covariance dans l'espace des entrees stipulant comment des points en divers endroits de l'espace sont lies les uns aux autres. a 2 IR+ .27 Octobre 2009 à 09:30 Theoreme 9. en particulier : Une mesure de similarite sur les donnees. 2 2 Radiale (RBF) .42-43. Une sorte de distribution de probabilite a priori sur l'espace des hypotheses (les fonctions de decision) comme le montre une interpretation bayesienne des SVMs (voir sur ce point le chapitre 16 de SS02] par exemple).com) . K3 une fonction noyau de nie sur IRl IRl . K (x z ) = a K1 (x z ) 3.Fonctions a Base K (x x0 ) = e.1. Le type de regularisation realise : par exemple les fonctions noyau Gaussiennes penalisent les derivees de tous les ordres et favorisent donc les solutions (( regulieres )). 9. comme par exemple la rotation. Le theoreme de Mercer n'est veri e que pour certaines valeurs de a et b.6 La mise en uvre des SVM La mise en uvre de la methode des separateurs a vastes marges (SVM) requiert l'acces a un systeme de resolution de programmation quadratique calculant le vecteur solution x? au . K une matrice d d symetrique positive et semi-de nie et B une matrice diagonalisable.

Il est recommande d'avoir recours a un ensemble de validation pour evaluer la qualite du choix nal (voir 3.. D'une part.com) . 1994). La sortie est calculee en faisant une somme ponderee (une combinaison lineaire) de ces comparaisons. les choix de la fonction noyau et de la valeur de la constante C sont souvent faits en utilisant une methode de validation croisee et en testant l'e et de di erents choix. . 9.8 { Cette gure resume le fonctionnement des separateurs a vastes marges et montre le r^le des fonctions noyau. En pratique.27 Octobre 2009 à 09:30 Vecteur d'entrée x Fig. x) Échantillon x1. x)) Sortie : α4 K K K K Comparaison : K(xi. LOQO ou CPLEX (CPLEX Optimization Inc. Lorsqu'une nouvelle entree est presentee au systeme. avec d'autres implantations. Disponible a http://www. ici de chi res manuscrits. x2.2 Quelle justi cation pour les SVM? La premiere partie sur les separateurs a vastes marges etait consacree a la realisabilite de la methode : comment trouver un hyperplan separateur permettant de discriminer des formes de deux classes.3.4 pour les procedures de tests et de validation en apprentissage).org/. probleme suivant : 1 Minimiser 2 x0 Hx + c0 x 8 >A1 x = b1 < sous les contraintes >A2 x b2 :I x u Les packages permettant de resoudre ce type de problemes incluent par exemple MINOS.302 Σ α1 α2 α3 PARTIE 3 : Apprentissage par optimisation sign(Σ αi ui K(xi. Ce document est la propriété exclusive de nona nina (ninasbalka@gmail. La procedure a mettre en place est nalement relativement simple mais elle repose crucialement sur deux (( miracles )). . un o certain nombre d'exemples critiques sont retenus pour de nir la fonction de decision. 9. elle est comparee aux exemples critiques a l'aide des fonctions noyau qui realisent un produit scalaire dans l'espace de redescription (X ). Un package accessible est celui d'Alex Smola PR LOQO 8 avec R qui est une version publique de S-PLUS. il est possible de transformer la formulation 8.. x3. Lors de l'apprentissage.kernel-machines.

mais nous n'aurions aucune assurance qu'elle se revele performante sur les futures observations. nullement garantie ? Certes le stratageme du passage par un espace de redescription des donnees nous aurait permis d'identi er aisement une fonction separatrice des donnees. La fen^tre e de droite montre la frontiere de decision obtenue avec un SVM de noyau polynomial de degre 5 avec une constante C = 10000 (c'est-a-dire avec une faible tolerance aux exemples mal classes).27 Octobre 2009 à 09:30 Fig. primaire du probleme d'optimisation. Cette observation semble ruiner e tout espoir d'utilisation a bon escient des separateurs a vastes marges. La question est en e et celle-ci : lorsque nous utilisons un espace de tres grande dimension dans l'espoir d'y trouver une separatrice lineaire des donnees. cette formulation duale permet d'envisager d'utiliser des espaces de tres grandes dimensions dans lesquels une separation lineaire est possible. 9. gr^ce a une redescription implicite a des donnees permise par des fonctions noyau. impossible a resoudre en pratique sauf pour des problemes jouets. Il est cependant a craindre qu'un troisieme miracle soit necessaire pour que la methode des SVM soit utilisable. donc proportionnelle a la dimension de l'espace de redescription (qui peut-^tre in nie). nous avons recours a un espace d'hypotheses tres riche. quarante-sept exemples d'apprentissage (vingt-deux de la e classe `+' et vingt-cinq de la classe `-') ont ete disposes par l'utilisateur. La frontiere s'appuie sur sept exemples critiques dont quatre dans la classe `+' et trois dans la classe `-'. Alors? Si nous reexaminons l'analyse theorique de l'induction. en une formulation duale accessible aux methodes connues de programmation quadratique D'autre part. c'est d'ailleurs pour cela que nous sommes con ants de trouver une hypothese adequate par rapport aux donnees (c'est-a-dire de risque empirique faible).9 { Dans la fen^tre de gauche.Chapitre 9 L'apprentissage de surfaces separatrices lineaires 303 Ce document est la propriété exclusive de nona nina (ninasbalka@gmail. l'analyse faite par Vapnik et decrite dans le chapitre 2 ne nous conduit-elle pas a penser que dans ce cas la correlation entre risque empirique et risque reel est hasardeuse.com) . nous observons qu'elle fournit une borne superieure (en probabilite) sur le risque reel en fonction du risque empirique et de la . Cette impression inquietante est con rmee par le fait que la dimension de Vapnik-Chervonenkis de l'espace des fonctions separatrices lineaires dans un espace IRd est egale a d + 1. Mais alors.

il faut noter une di erence importante entre la borne superieure. . dimension de Vapnik-Chervonenkis dV C . et la borne inferieure. 5 et 10 en bas).10 { Pour les m^mes exemples d'apprentissage que ceux de la gure 9. .. Rappelons par exemple que dans le cas de fonctions indicatrices de nies de X dans f. mais il est possible de montrer que cette borne est asymptotiquement serree puisqu'il existe des distributions pour lesquelles la borne inferieure sur le risque reel est proche de la borne superieure. Cependant.com) . pour un echantillon de m exemples x tires aleatoirement. Peut-^tre e la technique des separateurs a vastes marges permettrait-elle de detecter de telles situations et donc d'avoir con ance.27 Octobre 2009 à 09:30 Fig. quand c'est possible.9..1 1g avec une fonction de perte 0-1 (comptant les erreurs de prediction). on voit l'e et e de di erents choix de fonctions noyau (polynomiale de degre 2. Le nombre d'exemples critiques de chaque classe est indique entre parentheses en-dessous des imagettes. m^me si e celle-ci resulte du passage dans un espace de redescription de tres grande dimension. valable pour toute distribution. toute hypothese h 2 H a son risque reel majore par : . 9. que l'on appelle aussi bienveillantes (benign distributions). De fait. permettant une correlation beaucoup plus etroite entre le risque empirique mesure et le risque reel que ce que prevoit la theorie. 1. Il existe donc dans les donnees correspondant a des problemes reels des distributions favorables. Il s'agit d'une borne superieure.304 PARTIE 3 : Apprentissage par optimisation Ce document est la propriété exclusive de nona nina (ninasbalka@gmail. avec une probabilite 1 . 2 REmp (h) + m 4 log 4 + 4dV C log 2em d VC (9.1 1g. 5 et 8 en haut et Gaussienne d'ecart-type 2. dans la valeur de l'hypothese retournee. alors pour toute distribution de probabilite sur X f. l'experience montre que la borne superieure est souvent tres pessimiste. calculee pour certaines distributions particulirement defavorables (pour lesquelles les points peuvent ^tre pulverises par e H).46) du moment que dV C m.

et moins il existe de fonctions separant les donnees.com) . tandis qu'elle converge au rythme de 1= m lorsqu'elle est non nulle (cas des variables ressort : on admet des erreurs). Pour realiser ce programme (dont nous gommons outrageusement la subtilite technique ici 9).45-48.Chapitre 9 L'apprentissage de surfaces separatrices lineaires 9. On peut alors imaginer faire la m^me chose dans le cas des separateurs a vastes marges. Plus celle-ci est importante.47) En d'autres termes. La dimension de -pulverisation de nit ainsi une sorte de mesure dependant de l'echelle. ( ) 305 Ce document est la propriété exclusive de nona nina (ninasbalka@gmail. c'est-a-dire moins l'espace des fonctions est souple. similaires aux bornes d'erreur obtenues par Vapnik pour les fonctions indicatrices. a laquelle on veut etudier les donnees. et c'est ce qui explique. La marge pourrait alors jouer un r^le analogue a la dimension de Vapnik-Chervonenkis pour caracteriser la richesse de o l'espace d'hypotheses. L'idee de Vapnik est alors de de nir une structure hierarchique a priori sur les espaces d'hypotheses Hi en mesurant leur dimension de Vapnik-Chervonenkis. La dimension de -pulverisation e peut ^tre consideree comme la fonction de Vapnik-Chervonenkis des fonctions a seuil mais avec e en plus une marge imposee. la dimension de -pulverisation fatH de l'ensemble H est une fonction de dans IN qui associe a une valeur de marge la taille du plus grand ensemble de points de X pouvant ^tre -pulverise.1 Une minimisation du risque structurel dependant des donnees Rappelons que le principe de minimisation du risque structurel (voir section 17. l'erreurp generalisation converge vers 0 au en rythme de 1=m.27 Octobre 2009 à 09:30 De nition 9. ou a AB96] par exemple. plus la marge imposee entre les donnees est importante. Il faut bien voir que la marge mesuree sur l'echantillon d'apprentissage donne une indication de 9.2 (Fat-shattering dimension) Soit H un ensemble de fonctions a valeur reelle. p.2.47) montre que la dimension de -pulverisation permet d'obtenir des bornes d'erreur en generalisation pour les separateurs a vastes marges.1 du chapitre 2) cherche a minimiser l'esperance de risque (le risque reel) en contr^lant a la fois la richesse o de l'espace d'hypotheses et le risque empirique obtenu avec la meilleure hypothese possible dans l'espace d'hypotheses disponible. Un theoreme datant de 1998 (voir SBE99]. et la valeur in nie sinon. . la classe des fonctions discriminantes associees peut avoir e une complexite (mesuree par la dimension de -pulverisation) bien moindre que la complexite mesuree par la dimension de Vapnik-Chervonenkis. Il s'agit de la fat-shattering dimension (que l'on peut traduire par ( dimension de -pulverisation ) ). si bx = 1 sinon (9. liee a la marge. plus l'espace associe est riche et permet de s'adapter a des donnees diverses. il existe une fonction hb 2 H veri ant : hb(x) IR+ ( rx + rx . s'il est ni. gr^ce aux theoremes a mentionnes. que le risque reel soit correle avec le risque empirique mesure sur les donnees. Lorsque l'on impose que les donnees puissent ^tre discriminees avec une vaste marge. On retrouve en particulier que si l'erreur empirique est nulle. il est utile de de nir une generalisation de la dimension de Vapnik-Chervonenkis pour le cas des fonctions a valeur reelle. Cette discontinuite avait deja ete observee pour l'analyse de Vapnik.3. Le lecteur exigeant est invite a se reporter a SBE99] pp. On dit qu'un ensemble de points X est pulverise par H s'il existe des nombres reels rx indexes par x 2 X tels que pour tout vecteur binaire indexe par X (une valeur bx est attachee a chaque point x). e En e et.2.

2). Il a ainsi ete montre que certaines fonctions noyau correspondaient a certains operateurs de regularisation. Littlestone et Warmuth LW86] ont egalement obtenu une borne sur l'erreur reelle de generalisation : l'erreur en generalisation (comptee par le nombre d'erreurs de prediction) d'un separateur a vastes marges de ni par c exemples critiques parmi un echantillon d'apprentissage de taille m est borne avec une probabilite au moins 1 . C'est donc bien seulement pour des distributions (( bienveillantes )) ou conciliantes (revelees par l'existence d'une vaste marge) que l'induction est possible. nous sommes tombes sur des donnees pour lesquelles les fonctions separatrices lineaires sont bien adaptees. par : 1 . nous citerons les travaux tres interessants etablissant un lien entre les fonctions noyau choisies et la theorie de la regularisation (voir section 17.3.135) que l'esperance du nombre d'exemples critiques permet d'obtenir une borne sur l'esperance de taux d'erreur : Em(P (erreur)) Em nombre d'exemples critiques] m. Si elle est grande. Pour terminer ce tour d'horizon sur les analyses theoriques des separateurs a vastes marges. dans le cas des separateurs a vastes marges. Le principe SRM prescrit en e et qu'un ordre sur les espaces d'hypotheses Hi soit de ni a priori. il s'agit du nombre d'exemples critiques (support vectors).27 Octobre 2009 à 09:30 9. independamment de tout echantillon de donnees.306 PARTIE 3 : Apprentissage par optimisation la chance que l'on a avec la distribution des donnees. Cela permet a la fois de mieux comprendre le r^le de ces fonctions noyau. p. les o donnees sont utilisees une premiere fois pour determiner la hierarchie des espaces d'hypotheses a employer : H = fh j h a une marge d'au moins sur les donnees Sg puis. Ce document est la propriété exclusive de nona nina (ninasbalka@gmail. . On commet la une faute a laquelle l'analyse theorique ne peut faire echapper que par une demarche precautionneuse (passant par une majoration de l'erreur qui. Ce probleme justi e en tout cas l'appellation de principe de minimisation du risque struturel dependant des donnees. de ni par un petit nombre d'exemples critiques.2. En appliquant une analyse de la performance en generalisation fondee sur la capacite a comprimer l'expression des donnees (voir section 17. Au contraire. mais aussi d'envisager de nouvelles methodes o d'apprentissage generalisant l'approche des SVM (voir par exemple SBE99]. pour choisir la meilleure hypothese dans chacun de ces espaces. alors il n'y a plus de correlation entre risque empirique et risque reel. D'un certain c^te. p.c La proportion d'exemples critiques est ainsi une autre mesure liee a la dimension intrinseque des donnees et au caractere conciliant de leur distribution.2 Autres analyses de la methode SVM Il existe une autre mesure que la marge permettant d'obtenir une borne sur l'erreur de generalisation obtenue avec les SVM. Vapnik a montre en 1995 ( Vap95]. alors il devrait avoir une bonne performance en generalisation. quelle que soit la dimension de l'espace.3).1 ou l'operateur Em denote l'esperance mesuree sur un echantillon de taille m.2.c log em + log m 2 c 2 m. est independante de la distribution). une seconde fois. Cette borne est egalement independante de la dimension de l'espace : si on peut trouver un hyperplan optimal qui separe les deux classes. elle. apres que les donnees aient ete classees e et les marges possibles mesurees avec l'erreur empirique correspondante.com) . Si elle est petite ou inexistante. la hierarchie sur les espaces d'hypotheses ne peut ^tre de nie qu'a posteriori. il faut noter une di erence conceptuelle importante entre le principe de minimisation du risque structurel et l'analyse presentee ici. Dans cet esprit.14).

elle est tres di cile a mettre en uvre car elle implique pour chaque exemple x de calculer toutes les decisions possibles h(x) prises sur H ponderees par leur probabilite a posteriori.3. l'hypothese retenue est celle qui est maximalement distante des contraintes posees par les donnees. f (x)j" := maxf0 jy . f (x)j .com) . Une propriete de cette regle de decision est qu'elle peut realiser une fonction de decision qui est en dehors de l'espace des hypotheses H (dans le cas ou celui-ci n'est pas convexe). Il n'est cependant pas aise de trouver ce centre de masse en general.4). Le separateur lineaire de Bayes choisit quant a lui le separateur dont le vecteur poids wBayes est au centre de masse de l'espace des versions ( gure par un rond dans la gure 9. ce qui est schematise par la croix dans la gure 9. Il est cependant possible de limiter cette di culte en considerant des espaces d'hypotheses H pour lesquels la decision h(x) est facile a determiner. a n d'estimer la regression lineaire : f (x) := (w x) + b (9. Vapnik propose d'utiliser la fonction de perte suivante : jy .49) y = BayesS (x) = Argmin pH (hjS ) l(h(x) y) dpH y Z Nous avons vu que cette regle de decision minimise l'esperance de risque lorsque l'on dispose d'une mesure de probabilite sur les hypotheses de H.50) Alors. la meilleure decision y a prendre en un point x est la moyenne ponderee par leur probabilite a posteriori des decisions de chaque hypothese : 307 y = BayesS (x) = Z ou encore.3.3 La regression par fonctions noyau et exemples critiques . L'idee est la suivante : d'apres l'approche bayesienne de l'induction (voir section 2. n'importe quelle hypothese prise dans l'espace des versions est satisfaisante. et des techniques de parcours de rayons par billard sont actuellement a la mode pour resoudre ce probleme. "g (9.11). Comme l'espace des separateurs lineaires est convexe (toute combinaison lineaire de separateurs lineaires est un separateur lineaire). c'est-a-dire de la recherche d'une fonction h(x) = y dans IR telle que pour tous les points d'apprentissage f(xi ui )g1 i m f (xi ) soit le plus (( proche )) possible de ui .27 Octobre 2009 à 09:30 H pH (hjS ) h(x) dpH (9. mais sans garanties theoriques. on peut en etendre le champ au probleme de la regression. C'est particulierement le cas si l'on considere l'espace des separateurs lineaires.51) 9. Si cette regle de decision est optimale en moyenne.11. M^me si la methode des separateurs a vastes marges est speci que aux problemes de classie cation.3 SVM et Bayes Point Machines Recemment est apparu le concept de separateur lineaire de Bayes (Bayes Point Machines) (voir par exemple Her02]).2.Chapitre 9 L'apprentissage de surfaces separatrices lineaires 9. la regle de decision bayesienne pour determiner la reponse y en un point x revient a identi er un separateur lineaire. Tout separateur lineaire est caracterise par son vecteur de poids w. Il peut ^tre montre que le separateur associe est asymptotiquement proche de la decision e bayesienne optimale. Lorsque l'on cherche un separateur d'erreur nulle sur l'echantillon d'apprentissage (hypothese coherente avec l'echantillon).48) (9. si l'on considere la fonction de perte l : Ce document est la propriété exclusive de nona nina (ninasbalka@gmail. Dans le cas des separateurs a vastes marges.

La methode des separateurs a vastes marges retourne le vecteur de poids ( gure par une croix) le plus eloigne de toutes les contraintes. on peut generaliser a la regression non lineaire en passant par un espace de redescription des entrees gr^ce a l'utilisation de fonctions noyau. 9. On peut noter a nouveau que toute erreur plus petite que " ne requiert pas une valeur non nulle de ou de i et donc ne doit pas ^tre prise en compte par la e fonction objectif 9. La gure 9. La methode des separateurs lineaires de Bayes retourne le vecteur de poids correspondant au centre de masse de l'espace des versions ( gure ici par un cercle).2 0 Pm C i=1 i ? i ?) = 0 i=1 ( i .53) < sous les contraintes >yi . ((w xi ) + b) " + i : i i? 0 pour tous les i = 1 : : : m.53. yi " + i (9. i ) yi i (9.54) ( 1 ." m X i=1 ( ? i + i) + m X m X i=1 ( ? .308 PARTIE 3 : Apprentissage par optimisation wSVM wBayes x Ce document est la propriété exclusive de nona nina (ninasbalka@gmail.27 Octobre 2009 à 09:30 Fig. o Comme dans le cas de la classi cation.52) i i " 2 i=1 On peut reexprimer ce probleme sous forme d'un probleme d'optimisation sous contraintes (voir Vap95]) : 1 Minimiser (w ? ) = 2 k w k2 8 >((w xi ) + b) . on minimise: m 1 k w k2 + C X jy .com) . i i j =1 ( ? . l'espace des versions est delimite par des droites correspondant aux contraintes posees par les exemples d'apprentissage.11 { Dans l'espace des hypotheses (l'espace des vecteurs poids w). a L'introduction de multiplicateurs de Lagrange conduit au probleme d'optimisation suivant. i )( ? . avec une precision de ".12 illustre le r^le des contraintes. j )k(xi xi ) i i ::: m . f (x )j (9. dans lequel les constantes C > 0 et 0 sont choisies a priori : Maximiser sous les contraintes W( ) = .

on impose une sorte de (( chaussette )) autour des points gr^ce au parametre a ".55) ou b est calcule en utilisant le fait que la contrainte ((w xi ) + b) . il y a une grande excitation autour des methodes que l'on appelle maintenant methodes d'apprentissage par fonctions noyau (kernel-based machine learning). De ce fait. donnent souvent de bons resultats en apprentissage. La comprehension complete de cette nouvelle caracteristique demandera encore des recherches.4 Conclusions sur les SVM La methode des separateurs a vastes marges est. . 9. et la contrainte yi . qui sont faciles a mettre en uvre. en plus de la delite aux donnees et de la complexite de la classe d'hypotheses. yi egalite avec i = 0 si 0 < i < C . ((w xi ) + b) egalite avec i? = 0 si 0 < ? < C . 9. Le compromis entre la complexite du modele (la fonction de regression) et la delite aux points d'apprentissage est reglee par la variable ressort .27 Octobre 2009 à 09:30 " + i devient une " + i devient une x ξ x x x +ε x x 0 −ε x x x x ξ −ε +ε x Fig.Chapitre 9 L'apprentissage de surfaces separatrices lineaires L'estimation de la regression prend alors la forme : m X i=1 309 f (x) = ( ? . elle est bien fondee mathematiquement et l'on en conna^t un certain nombre de proprietes.3. avec la methode du boosting (voir chapitre 11). Par ailleurs. Celles-ci correspondent en e et a de nouvelles mesures de distance ou de correlation applicables dans des espaces beaucoup plus generaux que ce qui etait envisage dans les methodes traditionnelles. l'approfondissement de leur justi cation theorique a conduit a des ra nements des principes inductifs en prenant en compte.12 { Dans la regression par SVM. la distribution des donnees d'apprentissage. Il s'agit la d'un domaine dont on peut attendre beaucoup de developpements et d'applications interessantes.com) . une des rares methodes d'apprentissage qui soient completement issues de considerations theoriques. En particulier ces methodes reglent automatiquement le compromis entre la complexite de la classe d'hypotheses et la necessaire delite aux donnees. i ) k(xi x) + b i (9. Une autre consequence des travaux sur les SVM est la realisation que bien d'autres methodes peuvent bene cier de l'emploi de fonctions noyau. au lieu d'imposer une marge entre les points des deux classes. Pour ces raisons d'ordre conceptuel et parce que les SVM. i Ce document est la propriété exclusive de nona nina (ninasbalka@gmail.

par Duda et Hart dans leur premier livre de 1973. Ce n'est cependant qu'en 1992 que tous les ingredients des separateurs a vastes marges furent rassembles par Vapnik et des collegues. lorsque Fisher proposa une procedure de classi cation. Il s'agit donc la d'une approche tres prometteuse et qui suscite beaucoup de travaux. Les methodes classiques d'apprentissage par iteration ont ete decrites. SS02] (voir aussi le chapitre 14).com) . Ce document est la propriété exclusive de nona nina (ninasbalka@gmail. Elle a ete discutee par Vapnik et Lerner des 1963 VL63]. et c'est seulement en 1995 qu'apparut le concept de variables ressort et de marge souple et que les SVM devinrent connus dans la communaute. Le livre de Duda. Hart et Stork DHS01] o re un panorama tres complet des recherches sur ces machines. l'attention fut attiree vers cette question par les travaux de Rosenblatt qui commenca a etudier la regle d'apprentissage du perceptron a partir de 1956. laquelle ne prend pas en compte la distribution des donnees.27 Octobre 2009 à 09:30 Resume Ce chapitre a montre comment on peut apprendre des fonctions de decision lineaires dans l'espace des entrees. cela revient a couper l'espace en deux par un hyperplan. analyserent les limitations des machines lineaires. et qu'il est facile de caracteriser le meilleur separateur. donc a un seul optimum).310 PARTIE 3 : Apprentissage par optimisation Notes historiques et approfondissements La theorie de la discrimination lineaire remonte aux annees 1930. Dans le domaine de l'intelligence arti cielle. L'utilisation et l'analyse subsequente des SVM a a relance l'inter^t pour toutes les approches fondees sur les fonctions noyau (kernel-based methods e SBE99. L'une des revolutions de ces dernieres annees en apprentissage concerne des methodes motivees par des considerations theoriques sur l'induction et qui se traduisent par la recherche de separateurs lineaires dans lesquels on cherche une marge maximale avec les exemples : les separateurs a vaste marge. Cela stimula de nouvelles approches divergeant de l'approche de Vapnik. Dans le cas de la classi cation binaire. gr^ce surtout au livre de Vapnik Vap95]. tandis que les chercheurs etudiant l'apprentissage arti ciel sous l'angle de la physique statistique (voir le chapitre 17) en voyait egalement l'avantage EdB01] et proposaient le modele de l'Adatron AB89]. on peut etendre le champ de ces methodes bien fondees a des separatrices non lineaires dans l'espace d'entree. tandis que STBWA98] rendait populaire la notion de borne sur le risque reel dependant de la distribution des donnees (d'ou le terme de luckiness choisi par les auteurs pour souligner l'idee de pro ter si c'est possible d'une correlation entre l'espace d'hypotheses et la distribution des donnees). L'inter^t de ces fonctions de decision est qu'elles sont simples a apprendre (correse pondant souvent a un probleme d'optimisation quadratique. . mais f^t introduite expliciteu ment dans KS94]. L'idee de relier le concept de marge a celui de la dimension de pulverisation (fat-shattering dimension) est apparue implicitement dans plusieurs references. En utilisant des fonctions noyau qui permettent une redescription des exemples dans un espace de plus grande dimension. L'idee d'hyperplans a marge maximale a ete redecouverte plusieurs fois. dans leur celebre livre MP69]. Minsky et Papert. contrairement a des separations non lineaires.

27 Octobre 2009 à 09:30 L'apprentissage de reseaux connexionnistes Dans ce chapitre. chacun relie en moyenne a dix mille autres. les poids des connexions entre ces unites peuvent ^tre regles sur e des ensembles d'exemples : le reseau ainsi entra^ne pourra realiser des t^ches de a classi cation ou de regression. ainsi que par les poids a ectes a chacune des connexions. mais ici nous traiterons seulement de l'application de certains modeles informatiques elementaires a l'apprentissage automatique de regles de classi cation. Nous abandonnons maintenant toute forme de reference biologique pour nous interesser aux reseaux de neurones arti ciels. ou reseaux connexionnistes. et en particulier a leur application a l'apprentissage automatique. c'est-a-dire le nombre des cellules et la maniere dont elles sont connectees. nous presentons une technique d'apprentissage fondee au depart sur une analogie avec la physiologie de la transmission de l'information et de l'apprentissage dans les systemes cerebraux : les modeles connexionnistes (on dit aussi les reseaux de neurones arti ciels). Le calcul par reseaux connexionnistes est fonde sur la propagation d'informations entre des unites elementaires de calcul. mais leur interconnexion permet d'e ectuer un calcul global complexe. . Pour donner un ordre de grandeur de sa complexite. Chaque connexion entre deux neurones est caracterisee par son poids qui mesure le degre d'in uence du premier neurone vers le second. Le but du developpement de cette approche etait a l'origine de modeliser le fonctionnement du cerveau cela reste un des axes de recherche du domaine. Les possibilites de chacune sont faibles. Le comportement de ce reseau naturel de neurones est determine par son architecture. Du point de vue de l'apprentissage.Chapitre 10 Ce document est la propriété exclusive de nona nina (ninasbalka@gmail. La capacite d'apprentissage de ces systemes est reliee a la mise en memoire de nouvelles connaissances par la modi cation des poids des connexions a partir d'exemples. le cerveau humain comporte environ cent milliards de neurones. les cellules nerveuses ou neurones.com) . Le cerveau est un organe caracterise par l'interconnexion d'un nombre eleve d'unites de traitement simples.

Delachaux et Niestle. y1 y2 x 1 1 x 2 x 2 V RAI V RAI FAUX FAUX V RAI V RAI 1. car ce concept est impossible a decrire de cette facon. Le concept (( sexe de l'animal observe )) ne peut donc pas se traduire directement par une seule comparaison. Le premier produira deux valeurs binaires notees y1 et y2 . )) Supposons qu'une bande d'eiders vogue a quelque distance des c^tes.) Le plumage de la femelle est brun. R. Les connaissances sont les suivantes : Si x 1 ou x 2 alors m^le.com) . On aura une decision du type de celle de la gure 10. Il va falloir trouver une technique de decision plus elaboree. la seconde si x est superieur au seuil de valeur 1. la couleur x est le seul attribut du probleme) revient a comparer l'attribut a un seuil.2. une decision lineaire dans un espace a une seule dimension (ici. 2. On suppose bien s^r qu'il n'y a que des eiders dans la zone observee et qu'aucun m^le ne sepresente de pro l. En e et.1 { Repartition des eiders sur l'axe x : blanc Notons x le niveau de gris d'un eider dont on cherche a determiner le sexe. Le deuxieme etage combinera ces deux valeurs binaires pour decider si le concept est satisfait ou non. Mais ici. C'est ce que montrent le tableau ci-dessous et la gure 10. Fig.312 L Ce document est la propriété exclusive de nona nina (ninasbalka@gmail. Nous allons decomposer le probleme en deux etages de decision lineaire. H. Fitter and J. Les techniques des surfaces separatrices lineaires que nous avons vues au chapitre precedent sont-elles valables ici? Non. 10. Heintzel. deux seuils interviennent et non pas un seul.. Parslow Oiseaux d'Europe.27 Octobre 2009 à 09:30 ornithologiques 1 sont pour une fois assez peremptoires : (( Le m^le est le seul canard a qui paraisse blanc quand on le voit de face et noir quand il est vu de dos (.. 1972. Il faut de nir une echelle qui va du blanc au noir et y de nir trois zones. La premiere indique si oui ou non x est inferieur au seuil de valeur 2. a Si 1 x 2 alors femelle.1. m^les a vus de face 1 femelles m^les a vus de dos 2 es eiders (Somatiera mollissima) sont des canards marins pour lesquels les guides blanc noir / noir. u a . Comment un avimateur peut-il distinguer un eider m^le d'un eider femelle o a uniquement sur la couleur 2 ? Le probleme est en apparence assez simple.

1 Les di erents elements d'un reseau connexionniste Detaillons d'abord les di erentes notions necessaires a la comprehension des reseaux connexionnistes. 1:5 est positive quand l'eider est femelle (elle vaut z = 1 + 1 . Le concept appris est par consequent ramene a une decision par surface separatrice lineaire. Il est en e et peu intuitif.com) . Cette representation sera bien s^r plus longuement expliquee dans ce u chapitre. reduit a x.27 Octobre 2009 à 09:30 A partir de y1 et y2 . Les reseaux connexionnistes que nous presentons dans ce chapitre sont donc des regles de classi cation de donnees numeriques (ou logiques). Il su t pour cela d'attribuer les valeurs reelles 0 et 1 a y1 et y2 et au concept selon qu'ils sont V RAI ou FAUX . mais immediat de veri er que la valeur numerique z z = y1 + y2 . extraites elles-m^mes de decisions lineaires sur x. Ce document est la propriété exclusive de nona nina (ninasbalka@gmail. 10. la decision est donc la suivante : y1 y2 Concept V RAI V RAI Femelle V RAI FAUX M^le a FAUX V RAI M^le a FAUX FAUX (impossible) Ce probleme a ete presente jusqu'ici dans le cadre de la logique. celui de droite a pour valeur de sortie z il exprime donc le concept cherche. mais il est facile de le transformer en une decision numerique. 1:5 = 0:5) et negative quand il est m^le (elle vaut z = 1 + 0 . 1:5 = .0:5 ou z = 0 + 1 .3).0:5). L'information se propage de la gauche vers la droite. L'espace de representation Les donnees d'entree sont des vecteurs de IRd . en particulier des reseaux multicouches que nous etudions dans ce chapitre. xT . 10.Chapitre 10 L'apprentissage de reseaux connexionnistes 313 y1 est V RAI blanc y2 est V RAI 1 2 noir Fig. 1:5 = . Donc. notes comme d'habitude (en transposition) = (x1 : : : xd ). e En quoi cette technique de decision est-elle conforme aux premieres notions que nous avons donnees sur les reseaux connexionnistes? Il su t pour le voir de se placer dans une representation graphique ( gure 10. Les deux cercles centraux ont pour valeur de sortie y1 et y2 .2 { Deux decisions elementaires a combiner. mais sur deux valeurs binaires y1 et y2 . non pas dans l'espace de representation de depart. le concept est aussi a exprime par le signe de la valeur z .

Un neurone d'entree ou. Ces unites sont souvent appelees neurones formels pour leur similitude grossiere avec les neurones du cerveau. Lorsque le neurone i est un neurone d'entree. Fig.3 { Un reseau connexionniste qui distingue les eiders m^les des eiders femelles. les donnees d'apprentissage pendant la phase d'apprentissage). Comment fonctionne un neurone formel Un neurone formel est caracterise par une une fonction de sortie f qui permet de calculer pour chaque neurone i une valeur de sortie yi en fonction de son etat d'activation i : yi = f ( i ) (10. les reseaux multicouches classent les unites selon qu'elles sont des neurones d'entree. Un neurone de sortie est une unite qui fournit une hypothese d'apprentissage. i est l'etat du neurone i. caches.2. on a : i = xi . Les modeles de reseaux connexionnistes qui nous interessent particulierement. a Le neurone formel L'unite de traitement elementaire dans un reseau connexionniste est capable de faire seulement certaines operations simples. une pour chaque neurone formel i. ou de sortie. par exemple la machine de Boltzmann pour laquelle tous les neurones formels. par exemple dans un probleme de classi cation. ni un neurone de sortie. est une unite chargee de transmettre une composante du vecteur x des donnees (en particulier.27 Octobre 2009 à 09:30 PARTIE 3 : Apprentissage par optimisation -1.314 1 -1 x 1 2 1 -1 Ce document est la propriété exclusive de nona nina (ninasbalka@gmail. 10. une decision sur la classe a laquelle est attribue x.1. En n. Il existe d'autres modeles. un neurone cache est un neurone qui n'est ni un neurone d'entree. simplement. mais le plus souvent on utilise soit . 1. L'etat d'un neurone formel Il est commode de decrire un reseau connexionniste a un moment de son fonctionnement par un ensemble de valeurs i .5 1. sont connectes les uns aux autres.1) On peut envisager plusieurs sortes de fonctions de sortie.com) . Dans tous les autres cas. y compris d'entree et de sortie. calcule par la regle de propagation decrite ci-dessous au paragraphe 10. une entree.

10.2. mais a aucune autre.4 . est parametree par sa pente a l'origine . La caracteristique de ces reseaux est que les unites d'une couche sont reliees a toutes celles de la couche superieure.11 . La sigmo de de cette gure est dessinee pour = 1. Pour tres petit. Dans ces modeles. qui decrit comment calculer l'etat d'activation d'une unite j en fonction des unites i pour lesquelles il existe un poids w(i j ). c'est-a-dire la structure selon laquelle les neurones formels qui le composent sont relies les uns aux autres.1 La transmission de l'information dans un reseau multicouche Le fonctionnement d'un reseau connexionniste.2 . Pour tres grand.11 . 315 yi = f ( i) 1 Ce document est la propriété exclusive de nona nina (ninasbalka@gmail. A chaque lien entre deux unites i et j . la couche d'entree sert a la lecture des donnees et la couche de sortie a traduire la decision. i La gure 10. Certains reseaux. 10. En general. 1 2 3 . 10. ponderees par les poids des connexions correspondantes.27 Octobre 2009 à 09:30 yi = f ( i ) 1 i . pour des poids de connexions donnes. comme les machines de Boltzmann.4 { Deux fonctions non-lineaires de sortie utilisees dans les reseaux connexionnistes.Chapitre 10 L'apprentissage de reseaux connexionnistes la fonction signe (comme dans l'exemple d'introduction). C'est-a-dire en forme de s. Le shema est donne a la gure 10. Appelons source(j ) l'ensemble de ces unites i. . soit une fonction sigmo de 3 d'equation 1 yi = f ( i) = 1 + e.3 . ont une connectivite complete (chaque neurone formel est relie a toutes les autres unites) d'autres.4 . il s'agit d'une decision de classi cation. se resume a de nir une regle de propagation. on associe un poids correspondant a la force de la connexion entre ces deux unites.2 L'architecture multicouche Un reseau est caracterise par son architecture. Cette fonction . note w(i j ). cette fonction est pratiquement lineaire dans une vaste region autour de l'origine. La seconde est la fonction sigmo de d'equation yi = f ( i ) = 1+e1 i . j = X i2source(j ) w(i j ) yi 3.com) . on retrouve la fonction seuil. ceux dont on va parler dans ce chapitre.5 La regle la plus souvent utilisee consiste a calculer la somme des valeurs de sortie yi des unites i 2 source(j ).3 . 0 1 2 3 i Fig.2 .4 montre le graphe de cette fonction pour la valeur = 1. ont une architecture en couches superposees. La premiere est la fonction seuil : elle vaut 0 quand i est negatif et 1 s'il est positif.

Pour chaque couche. o De plus. appelee o set 4 . Finalement.2.6.316 source(j) PARTIE 3 : Apprentissage par optimisation 1 dest(j) 1 i w(i. dont l'activite est toujours egale a 1 et dont les transitions vers les neurones formels j de la couche superieure sont notees w(0 j ). Cette regle n'est pas utilisee pour calculer l'etat d'activation des neurones d'entree. puisque leur r^le est simplement de transmettre les entrees. . Un reseau connexionniste multicouche general est represente sur la gure 10. en recevant une composante du vecteur x sur chacune de ses unites.2) En resume. Sa couche de sortie est composee d'un seul neurone formel. la couche d'entree est activee par l'arrivee d'une donnee. puis c'est au tour de la seconde. qui a un autre sens en apprentissage.27 Octobre 2009 à 09:30 n w(0.5 { Le neurone formel : notation des connexions. representee par un triangle dans la gure 10.j) m o Fig. pour des raisons d'homogeneite dans les algorithmes de reconnaissance et d'apprentissage. L'equation de fonctionnement de chaque neurone j est nalement la suivante : j = w(0 j ) + X i2source(j ) w (i j ) yi (10. 10. etc.k) k Ce document est la propriété exclusive de nona nina (ninasbalka@gmail.5 et dont la valeur est le plus souvent xee arbitrairement a 1. dans le cas d'un reseau a couches. Il y a une valeur d'o set xee a 1 pour le vecteur d'entree et une autre pour la couche cachee. on doit ajouter au vecteur d'entree une composante supplementaire. Le mot francais serait malheureusement (( biais )).7. 4. 10. on a donc simplement j = xj . l'unite de la couche de sortie ayant la valeur la plus forte indique la classe calculee pour l'entree. Dans leur cas. Bien que ce ne soit pas necessaire. numerote 5.j) j w(j.2) pour chacune de ses unites. La premiere couche cachee e ectue le calcul ci-dessus (equation 10.2 Un exemple Considerons le reseau a deux entrees x1 et x2 de la gure 10. une entree du m^me type est souvent rajoutee e a chaque couche cachee. Il possede une couche cachee composee des neurones formels numerotes 3 et 4.com) . on ajoute donc un neurone formel dans lequel n'arrive aucune connexion.

7 { Un exemple de reseau multicouche : la notation des neurones formels et des poids des connexions. Les neurones formels sont indiques par des cercles.3) Fig. l'information se propage de la gauche vers la droite.8) la valeur des poids comme suit : w(0 3) = 0:2 w(1 3) = 0:1 w(2 3) = 0:3 w(0 4) = .4) x2 w(2.0:3 w(1 4) = .5) 4 w(4. Dans ce graphisme.Chapitre 10 L'apprentissage de reseaux connexionnistes 0 0 1 1 0 Ce document est la propriété exclusive de nona nina (ninasbalka@gmail. Les composantes du vecteur d'entree et les o sets sont a l'interieur des triangles.4) w(1.4) w(0.0:2 w(2 4) = 0:4 w(0 5) = 0:4 w(3 5) = 0:5 w(4 5) = . 10.5) w(3.27 Octobre 2009 à 09:30 317 p 0 i i 1 1 i 1 1 i i i r m c 0 d q Fig.0:4 .3) 1 w(0.com) .6 { Le reseau multicouche general. 10.5) 5 x1 w(1. Fixons maintenant ( gure 10. w(2.3) 3 1 w(0.

10.com) .0:1 0:4 + 0:5 0:65 .4 0. Les deux classes ne sont pas lineairement separables. e La propagation des calculs s'e ectue alors comme indique dans la table ci-dessous : Neurone formel j 3 4 5 0:2 + 0:1 1 + 0:3 1 = 0:6 .3 0.8 { Le m^me exemple avec des valeurs numeriques pour les poids des connexions.0:6 1 1+e0:1 ' 0:48 1 0:53 ' 0:63 1+e. les deux e points des exemples d'une autre classe. 10.4 4 -0.27 Octobre 2009 à 09:30 3 Fig. Chaque paire de points opposes en diagonale forme une classe.2 -0.0:3 + .2 1 PARTIE 3 : Apprentissage par optimisation 0. Les exemples ont donc la forme suivante : x2 4 4 x1 Fig.9 { Le probleme XOR : les deux points 4 sont des exemples de la m^me classe.1 1 0.3 -0.2.3 Un autre exemple : le probleme (( XOR )) Cet exemple a pour but de montrer comment l'introduction de la fonction non lineaire de sortie des neurones formels et de l'architecture en couches permet d'obtenir des surfaces separatrices non lineaires. 10. Placons nous dans IR2 . 0:4 0:48 = 0:53 j yj 1 ' 0:65 1+e.318 et prenons pour vecteur d'entree x = 1 1 0.4 x2 0.0:2 1 + 0:4 1 = . . avec quatre points d'apprentissage situes au quatre coins du carre unite.5 5 x1 Ce document est la propriété exclusive de nona nina (ninasbalka@gmail.

En choisissant yi = f ( i) comme la fonction seuil.5 1 1 0 0. prenons-les comme des valeurs logiques.5 1 -0.5 0 -0.5 1 0.5 0 0. 10.4 Le protocole d'apprentissage Dans le cas des reseaux connexionnistes. on peut interpreter les sorties intermediaires et la sortie nale comme des fonctions booleennes sur les entrees. la propagation des calculs se fait comme indique dans le tableau associe.5 1 -0.2.5 0 0 1 0. La suite des donnees utilisees peut ^tre construite par un e tirage aleatoire avec remise dans l'ensemble des exemples ou par plusieurs passages successifs de la totalite de cet ensemble.5 1 -0.5 3 Fig.27 Octobre 2009 à 09:30 319 1 -0.10 { Un reseau (( XOR )).5 0 -1. x1 x2 3 y3 4 y4 5 y5 y3 = x1 _ x2 y4 = x1 ^ x2 y5 = y3 ^ :y2 = x1 XOR x2 10. 1 -0.11). 1. les donnees d'apprentissage sont en general presentees sequentiellement l'apprentissage est donc incremental.10 permet de resoudre le probleme. le nombre de donnees utilisees pour l'apprentissage est en general bien superieur au nombre d'exemples : chacun est utilise en moyenne ou exactement un grand nombre de fois (couramment une centaine de fois). qui vaut 0 pour les deux points 4 et 1 pour les deux points .5 Ce document est la propriété exclusive de nona nina (ninasbalka@gmail.com) .Chapitre 10 L'apprentissage de reseaux connexionnistes Le reseau connexionniste de la gure 10. Dans ce cas. Au total. 0 0 -0.5 0 Un interpretation est possible en logique booleenne : au lieu de considerer les valeurs 0 et 1 comme des coordonnees numeriques.5 0 0. -1. 1. Ceci est rendu possible par les non-linearites du systeme de calcul (voir la gure 10.5 4 -1 1 5 x1 1. Le reseau realise la fonction XOR (le OU exclusif). x2 1.5 1 1 1 1. Chaque etape emploie une donnee pour modi er les poids des connexions. .

Nous montrerons ensuite que cet algorithme d'apprentissage peut se voir comme un probleme d'optimisation qui se resout par une methode de gradient.11 { Une des facons de resoudre le probleme XOR avec un reseau connexionniste a une Ce document est la propriété exclusive de nona nina (ninasbalka@gmail. c'est-a-dire de modi er les poids de ses connexions en fonction des donnees d'apprentissage.320 x2 PARTIE 3 : Apprentissage par optimisation 4 4 x1 Fig. L'apprentissage d'une regle de classi cation se fera en general en attribuant une classe a chaque coordonnee du vecteur des sorties : la classe !1 sera codee uT = (1 0 0 :::0). Par consequent. 10. 0:5 = 0 et realise un OU logique. 0:5 = 0 et realise un ET logique. en le considerant comme un reseau connexionniste. il peut approximer toute fonction de IRd dans IRC .2. Ceci permet en particulier d'utiliser la technique des codes correcteurs d'erreur (voir DB95]). Il existe d'autres codages dans lesquels une classe est associee a un sous-ensemble de neurones de sortie. La seconde couche combine les deux decisions lineaires en une decision non lineaire.com) . .5 Le codage des exemples d'apprentissage Les modeles connexionnistes dont nous parlons utilisent pour leur apprentissage des donnees couplees a une classe d'appartenance. laquelle est representee par un autre vecteur de sorties desirees note u (conformement aux notations du chapitre 2 voir aussi la page de notations. celle a ectee a la classe est a l'exterieur.27 Octobre 2009 à 09:30 couche cachee.3 L'algorithme d'apprentissage La caracteristique la plus interessante d'un reseau de neurones arti ciels est sa capacite d'apprendre. La zone a ectee a la classe 4 est le (( couloir )) compris entre les deux droites en pointille. Pour proceder graduellement. 10. Un reseau connexionniste multicouche peut en realite apprendre des associations plus complexes : la sortie etant un vecteur de IRC . de telle sorte qu'apres un certain temps d'entra^nement il ait acquis une faculte de generalisation. Elles sont faites par la premiere couche du reseau. Un exemple d'apprentissage z est donc compose d'un vecteur u de sortie desiree associe a un vecteur d'entree x : z = (x u). puis au reseau connexionniste multicouche. la classe !C : uT = (0 0 :::1). La premiere droite repond a l'equation x1 + x2 . Ce qui permettra de generaliser d'abord a un perceptron travaillant avec plus de deux classes. chaque neurone formel de sortie correspond a une classe et une seule 5 . nous allons d'abord redecrire l'algorithme du perceptron. 10. La seconde repond a l'equation x1 + x2 . 5. page xxvii) ce vecteur est de dimension egale aux nombre C de classes.

Dans le cas de deux classes. Il e ectue le calcul : y = P f ( ) = w(0) + d w(i)x i i=1 La gure 10. Les connexions sont donc faites directement entre la couche d'entree et le neurone de sortie. il n'y a qu'une seule sortie. y = f( ) = 0 L'apprentissage dans le perceptron se fait par la regle de modi cation des poids qui a ete donnee au chapitre 9. dans le cas ou celle-ci conduit a une valeur du mauvais c^te du seuil il ne fait rien sinon.3. f est ici la fonction seuil. nous avons formalise cet apprentissage.1 Le perceptron pour deux classes Fonction seuil en sortie Le perceptron a ete deja ete etudie au chapitre 9 dans le cadre des separateurs lineaires. un neurone de sortie unique et pas de couche cachee. 1 w(0) x1 w(1) w(i) xi w(d) y Ce document est la propriété exclusive de nona nina (ninasbalka@gmail. 10. pour deux classes !1 et !2 par l'algorithme 9.1.3.1 Retour sur le perceptron 10. . comportant une couche de neurones d'entrees.com) . Recrivons-le un peu di eremment pour nous placer dans les notations de ce chapitre. On va le voir ici comme un reseau connexionniste a couches. L'algorithme d'apprentissage se contente de modi er le vecteur des poids en lui ajoutant ou lui enlevant un vecteur proportionnel a l'entree x.Chapitre 10 L'apprentissage de reseaux connexionnistes 321 10. Nous notons ici w(i) le poids de la connexion menant de l'entree xi au neurone de sortie. et la decision d'appartenance a une des deux classes est prise en comparant la valeur de sortie a un seuil. calculee a partir de de la maniere suivante : 0 .12 { Le perceptron est le reseau connexionniste le plus simple. o Au chapitre 9.12 montre comment le perceptron peut ^tre represente comme un reseau connexione niste sans couche cachee.2. ce qui se traduit dans le cas de deux classes par une decision par seuil sur une combinaison lineaire des valeurs d'entree. y = f( ) = 1 0 .27 Octobre 2009 à 09:30 xd Fig. avec un seul neurone formel de sortie. Le vecteur a du chapitre 9 correspond directement a l'ensemble des poids des connexions.

)x i @w @ y @w i i .com) . ) On se trouve alors dans un apprentissage du type (( punition-recompense )) : les poids sont modi es proportionnellement a l'entree et a la conformite de la sortie avec la sortie desiree.27 Octobre 2009 à 09:30 Algorithme 10. vaut 0. Le perceptron e ectue donc le calcul fonde sur l'equation 10. generaliser e le perceptron pour lui donner des capacites beaucoup plus fortes. y).1 selon que x est un exemple ou un contre-exemple. L'algorithme d'apprentissage devient donc : i=1 Ce document est la propriété exclusive de nona nina (ninasbalka@gmail. la modi cation apportee a w(i) au cours de l'apprentissage pour le mener de sa valeur a l'instant t a celle a l'instant t + 1 par une entree x se note i elle peut maintenant s'ecrire de la maniere suivante : (10. c'est-a-dire : e e i = xi (u .1 Reformulation de l'apprentissage du perceptron. Pour ^tre plus precis. puis en introduisant des couches cachees. selon deux directions : en augmentant la taille de sa couche de sortie. Voyons maintenant comment on peut. y) i wi wi + i n tant que Fonction identite en sortie Supposons que nous enlevions la fonction seuil a la sortie et que l'on ait desormais : Rien n'emp^che d'appliquer la m^me modi cation de poids que precedemment.3) i = xi (u . y2 ) t n pour t+1 y e i peut donc ^tre interpretee comme une modi cation de wi par la technique du gradient pour minimiser E . le terme (u . y ) En e et.2 : ! d X y = f ( ) = f w(0) + w(i)xi En phase d'apprentissage. quand x est bien classe. Quand x est mal classe.4) E = 2 (u2 .(u . ce terme vaut +1 ou . Prendre a(0) quelconque et positif quelconque t=0 tant que t tmax faire tirer au hasard une donnee d'apprentissage x parmi les m pour i = 1 d faire xi (u . et y sont pour le moment des vecteurs ayant une seule composante. qui est un scalaire (les vecteurs u et y sont de dimension 1).322 PARTIE 3 : Apprentissage par optimisation u. si nous de nissons par e 1 (10. on peut constater que : i @E = @E : @ y = . P la fonction d'erreur entre la sortie y = d=0 wi xi et la sortie desiree u. en gardant le m^me principe d'apprentissage.

. On mesure alors l'erreur de classi cation pour l'entree x comme la distance euclidienne 6 D(u y) entre la sortie desiree u et la sortie calculee y : 1 D(u y) = D(u ) = 2 (uj .1) 1 Ce document est la propriété exclusive de nona nina (ninasbalka@gmail. pour eviter la confusion avec la notation traditionnelle de la (( regle delta )) de l'apprentissage des reseaux connexionnistes. on peut calculer pour une entree x donnee chaque sortie par : yj = j = w(0 j ) + i=d X i=1 w(i j )xi Idealement.5) 6. comme on l'a vu. j )2 j =1 j =C X (10.j) xi j yj xd C w(d.C) yC Fig. En notant w(i j ) le poids de la connexion menant de l'entree d'indice i a la sortie d'indice j .com) .13 { Le perceptron pour C classes. Il su t. de construire pour chaque donnee d'apprentissage un vecteur de sortie desiree u de dimension C valant 1 sur la coordonnee correspondant a la classe et 0 partout ailleurs ( gure 10.3.Chapitre 10 L'apprentissage de reseaux connexionnistes 10.2 Le perceptron pour plus de deux classes. 10.27 Octobre 2009 à 09:30 323 1 y1 x1 w(i.1. w(0. On note dans ce chapitre la distance euclidienne D et non pas . La transformation precedente permet maintenant d'appliquer directement le m^me calcul a e l'apprentissage d'une regle de classi cation pour un nombre quelconque C de classes.13). un perceptron ayant parfaitement appris (au moins) les donnees d'apprentissage devrait fournir pour chacune d'elles une sortie y = egale a la sortie desiree u.

y ) x j j j j i @w(i j ) 2 j j 2 @y j j @ @w(i j ) D'ou : j j 10.6 donnee ci-dessus pour la regle delta.324 PARTIE 3 : Apprentissage par optimisation On peut appliquer pour l'apprentissage une generalisation de la technique du paragraphe precedent : la regle delta.27 Octobre 2009 à 09:30 j = w(0 j ) + w(i j )xi et : le calcul se fait donc ainsi : D(u y) = D(u =C 1 jX (u . y )2 ) @yj @ j = (y . Ceci revient encore a appliquer la technique de l'optimisation par gradient (voir l'annexe 18.3 Plus de deux classes et une sigmo de en sortie = (uj . Dans ce paragraphe.4) : yj = f ( j ) = 1 + 1 . yj ) ou est une valeur positive comprise entre 0 et 1. yj ) xi (10. yj ) yj (1 . Elle consiste a modi er le poids w(i j ) d'une quantite : (10. La regle delta est donc a la fois une generalisation de la regle d'apprentissage du perceptron pour le cas a deux classes et une technique de minimisation par gradient de l'erreur quadratique moyenne. D'ou la formule 10.1.2). ou f est la fonction sigmo de de parametre = 1 (voir la gure 10.com) . nous continuons a progresser en supposant que la sortie j est transformee en yj = f ( j ). y )2) = 1 ( @ (u . f ) ij . j )2 ) @w(ij j ) j = ( j .6) ij = xi (uj . qui consiste ici a constater que la contribution du poids w(i j ) a l'erreur D(u y) peut s'ecrire : Puisque l'on a : @ D (u ) @w(i j ) i=d X i=1 Ce document est la propriété exclusive de nona nina (ninasbalka@gmail. uj )xi = (yj . )2 )= 2 j j j =1 @ @ @ j @w(i j ) D(u ) = @ j D(u ) @w(i j ) @ 1 = 2 ( @@ (uj . u ) y (1 .3. j e Le calcul devient : @ ( 1 (u .7) En e et.3. w(i j ) doit ^tre modi e d'une valeur ij proportionnellement et e en sens inverse a la contribution du poids w(i j ) a l'erreur D(u y). la fonction f repond a l'equation di erentielle : f 0 = f (1 . comme indique dans l'annexe 18. uj )xi Selon la technique du gradient.

celui-ci propage vers la sortie les valeurs d'activation correspondantes (en utilisant une regle de propagation). Celui-ci devrait correspondre a la sortie desiree. source(j) 1 Ce document est la propriété exclusive de nona nina (ninasbalka@gmail. la fonction de sortie d'un neurone doit ^tre di erentiable et non lineaire (sinon. telle qu'apprise lors de la phase d'apprentissage.3 ou la reference RHW86]). on pourrait reduire le reseau a un perceptron). comme on l'a deja dit. un vecteur de sortie.14 { Schema du modele de la retropropagation de l'erreur. La modi cation a apporter aux poids entre la couche source(j ) et le neurone formel j ne peut ^tre calculee que e si on conna^t deja la modi cation qu'il faut apporter aux poids w(j k) entre j et les elements de dest(j ). La generalisation de la regle delta aux reseaux multicouches utilise une methode de descente du gradient. Rappellons qu'un reseau a couches est compose d'un ensemble de neurones formels groupes en sous-ensembles distincts (les couches) de telle sorte qu'il n'y ait aucune connexion entre deux neurones d'une m^me couche 7 .27 Octobre 2009 à 09:30 dest(j) 1 i w(i. A n de pouvoir calculer le gradient de l'erreur par rapport aux poids du reseau. par l'intermediaire des neurones de sortie. la sigmo de : 7. La gure 10. e A la n de l'apprentissage. 10.j) m o Fig.com) . permettant de calculer la modi cation des poids des connexions entre les couches cachees (pour plus de details. consiste a propager l'erreur obtenue a une unite de sortie d'un reseau a couches comportant une ou plusieurs couches cachees a travers le reseau par descente du gradient dans le sens inverse de la propagation des activations. . Cette generalisation.k) k n w(0. a n de generer.14 montre une illustration du principe.j) j w(j. le comportement souhaite du reseau est le suivant : on presente un vecteur d'entree au reseau. lorsque le reseau a appris a modeliser son environnement. la regle de la retropropagation du gradient de l'erreur.Chapitre 10 L'apprentissage de reseaux connexionnistes 325 10. pour obtenir des reseaux recurrents.2 L'apprentissage par retropropagation du gradient de l'erreur C'est seulement en 1986 que la generalisation de la regle delta aux reseaux a couches cachees a ete formule.3. Une amelioration de la regle de retropropagation permet l'introduction de cycles entre les couches. voir l'annexe 18. La e fonction la plus souvent utilisee est.

10.3. qui etait de 0:63.10) Le calcul de l'erreur aux unites cachees se fait ensuite recursivement par la descente du gradient. . le reseau tentera de minimiser l'erreur obtenue a la sortie.3. Apres modi cation des poids sur cet exemple. Soit dest(j ) l'ensemble des neurones auxquels j se connecte : j = yj (1 . 0:63) 0:63 (1: .3. on a : w(i j ) = avec : j j yi = (uj . Pour le neurone formel de sortie.4 Retour sur l'exemple Reprenons l'exemple du paragraphe 10.3 L'organisation des calculs Les calculs s'organisent de la facon donnee dans l'algorithme 10. son nouveau passage dans le reseau doit conduire a une sortie inferieure a la valeur precedente. yj ) yj (1 . et donc de modeliser le mieux possible la fonction desiree entre les entrees et les sorties. cette mesure d'erreur est evidemment calculee ainsi : j = (uj . C'est en e et la sortie du neurone i.11) Le calcul est detaille dans l'annexe 18. j (10. 0:63) = .9) c'est-a-dire de facon proportionnelle a une mesure d'erreur j caracteristique du neurone j et a la valeur d'entree notee ici 8 yi. yj ) On prend d'abord : i = 3 et j = 5. ce qui mene a : 5 = (0: .27 Octobre 2009 à 09:30 j yi (10. Lorsque l'on applique la regle delta generalisee sur le reseau de facon iterative pour un ensemble de vecteurs d'entrees (correspondant a l'environnement). yj ) X k2dest(j ) k w(j k) (10.com) . Pour les connexions aboutissant aux neurones de sortie. 10. yj ) yj (1 . Le point a remarquer est que l'actualisation des poids ne se fait qu'une fois la retropropagation terminee : il ne faut en e et pas changer trop t^t la valeur d'un poids puisque celle-ce intervient dans le calcul concernant la o couche suivante.326 PARTIE 3 : Apprentissage par optimisation yj = f ( j ) = 1 +1e. yj ) (10.0:147 8.7 en supposant que la sortie desiree au vecteur d'entree xT = (1 1) vaille u = 0.2.8) j de la facon suivante : La regle delta generalisee dicte alors le changement de poids entre le neurone i et le neurone w(i j ) = Ce document est la propriété exclusive de nona nina (ninasbalka@gmail.

on obtient : e w(4 5) = 0:48 . tant que l'apprentissage n'a pas converge faire 327 tirer au hasard un point d'apprentissage pour chaque couche.0:147 Pour le neurone formel cache note 4.0:147 ' .0:147 1: = .0:07 w(0 5) = .0:1 en xant la valeur a 1. De m^me. on a d'abord. y3 ) 5 w(3 5) = 0:65 (1 . en partant de celle du haut faire pour chaque neurone formel de cette couche faire calculer j pour chaque connexion w(i j ) menant au neurone formel j faire calculer w(i j ) = j yi Ce document est la propriété exclusive de nona nina (ninasbalka@gmail.0:017 w(2 3) = 0:016 1:= .Chapitre 10 L'apprentissage de reseaux connexionnistes Algorithme 10. puisque dest(3) = f5g : e 3 = y3 (1 .0:147 0:5 =' .0:017 D'ou : . y4 ) 5 w(4 5) = 0:48 (1 .0:017 w(0 3) = 0:016 1:= .0:017 w(1 3) = 0:016 1:= .0:147 0:65 ' .0:147 . 0:48) . puisque dest(4) = f5g : 4 = y4 (1 .0:4 =' 0:015 w(1 4) = 0:015 1:= 0:015 w(2 4) = 0:015 1:= 0:015 w(0 4) = 0:015 1:= 0:015 D'ou : De m^me.2 Apprentissage du perceptron multicouche. pour i = 4.com) . 0:65) .27 Octobre 2009 à 09:30 n pour n pour n pour pour chaque connexion w(i j ) faire w(i j ) w(i j ) + w(i j ) n pour n tant que d'ou : w(3 5) = .

sans modi er la regle de retropropagation du gradient de l'erreur.12) @E @E @yj @ j @w(i j ) = @yj @ j @w(i j ) . uj ) Log(1 . 0:017 = 0:183 w(1 3) + w(1 3) = 0:1 .0:2 + 0:015 =. 0:017 = 0:083 w(2 3) + w(2 3) = 0:3 .0:47 w(0 3) + w(0 3) = 0:2 . yj ) PC=1 ui. La probabilite de X s'exprime en fonction des probabilites a priori yj d'appartenir a la classe j : P (X1 = u1 : : : XC = uC ) = C Y j =1 yjuj (1 .5 Une variante Il est possible de transformer un reseau connexionniste multicouche en un systeme de decision bayesien (voir les chapitres 2 et 14) en changeant la distance entre la sortie calculee et la sortie desiree. yj ) (10. chercher les parametres qui maximisent cette quantite est equivalent a minimiser la fonction d'erreur entropie croisee (voir le chapitre 11): E= Il faut calculer : C X j =1 . (1 . 0:07 = .328 PARTIE 3 : Apprentissage par optimisation Apres modi cation.uj i Au maximum de vraisemblance.0:3 + 0:015 =.0:055 ' 0:51 5 0:25 + 0:4 0:63 .0:4 . 0:1 = 0:4 w(4 5) + w(4 5) = .27 Octobre 2009 à 09:30 w(0 4) + w(0 4) =.3.0:285 + . les poids deviennent donc : w(0 5) + w(0 5) = 0:4 .0:055 1+e. 10.0:285 w(1 4) + w(1 4) =. 0:147 ' 0:25 w(3 5) + w(3 5) = 0:5 . la distribution des sorties desirees. le calcul sur le vecteur d'entree devient par consequent : Neurone formel j yj j 1 ' 0:63 3 0:183 + 0:083 1 + 0:283 1 = 0:55 1+e0:65 1 4 .uj Log(yj ) .com) . Soit X = (X1 : : : XC ) une variable aleatoire multidimensionnelle qui represente.2 on constate qu'elle est passee de 0:63 avant apprentissage a 0:56 apres : elle s'est rapprochee de la valeur desiree 0. sous une hypothese multinomiale. On desire ici une valeur du neurone de sortie yj qui vaille la probabilite que le vecteur d'entree appartienne a la classe j .2. 0:47 0:51 = 0:26 1+e1:205 ' 0:56 0 Si on compare la valeur de sortie a celle du tableau de la section 10. 0:017 = 0:283 Ce document est la propriété exclusive de nona nina (ninasbalka@gmail.0:185 w(2 4) + w(2 4) = 0:4 + 0:015 = 0:415 Dans le reseau modi e.0:185 1 + 0:415 1 = .

Nous donnons dans cette section quelques-uns de ces resultats. leur complexite. paragraphe 3.4. au lieu de la regle delta de l'equation 10. 10. Utiliser les techniques avancees de descente de gradient : second ordre.6 Quand arr^ter l'apprentissage? e Il est di cile de trouver un critere general pour arr^ter cet algorithme. u ) y j j i @w(i j ) Finalement : Ce document est la propriété exclusive de nona nina (ninasbalka@gmail. La meilleure maniere d'eviter ce phenomene est d'utiliser un ensemble de validation (voir chapitre 3. yj ) @yj = y (1 . y ) j j @ j @ j = y i @w(i j ) @E = (y .5.com) .27 Octobre 2009 à 09:30 (10. (voir Bis95. 10.3.7. l'algorithme de la retropropagation est susceptible de s'arr^ter aux minima locaux. yj yj (1 . l'algorithme ne pourra pas trouver la solution desiree. ainsi que leur capacite de generalisation. A n de contourner ce probleme. uj + 1 . gradient conjugue. particulierement en ce qui a trait a leur pouvoir d'expression. Hay99]). ce qui mene a un surapprentissage. Introduire du bruit dans la recherche pour pouvoir sortir des minima locaux. la solution e trouvee sera fortement reliee au choix des poids initiaux du reseau. qui correspond a la distance euclidienne entre la sortie calculee et la sortie desiree. uj = yj . Le probleme est que e le risque empirique tend a diminuer lentement et a ne jamais se stabiliser completement.3. est une mesure du nombre de fonctions di erentes que celui-ci peut approximer.13) Il ne reste plus qu'a appliquer la regle de retropropagation du gradient de l'erreur avec cette valeur.1 Pouvoir d'expression Le pouvoir d'expression d'un reseau de neurones connexionniste. 10. etc. uj @yj yj 1 . ce qui entra^ne un temps de calcul plus eleve. Si les poids sont choisis pres d'un minimum local sous-optimal.4 Quelques resultats theoriques sur les reseaux connexionnistes Plusieurs resultats theoriques sur l'apprentissage des reseaux connexionnistes ont ete obtenus.7 Le probleme des minima locaux Comme tous les algorithmes d'optimisation bases sur la descente du gradient. 10. on peut utiliser plusieurs techniques: Relancer l'apprentissage plusieurs fois en utilisant des poids initiaux di erents.4. Par consequent.1).Chapitre 10 L'apprentissage de reseaux connexionnistes On a : 329 @E = . comme de toute regle de classi cation. .

Ainsi. il est possible Bau89] de trouver une solution (un ensemble de poids) pour T en temps polynomial si on peut utiliser des algorithmes d'apprentissage constructifs 9 . ayant la possibilite d'ajouter des neurones et des connexions durant l'apprentissage. sa structure) il existe une solution qui resout adequatement T . Le lecteur peut se reporter par exemple a C. 9. il devient interessant de conna^tre les aspects de complexite relies a ce modele (voir Orp92] pour une revue).330 PARTIE 3 : Apprentissage par optimisation Il est en e et interessant de conna^tre a priori les familles de fonctions auxquelles vont appartenir les surfaces de decision. de neurones arti ciels en utilisant l'algoa rithme de la retropropagation de l'erreur en temps O W 3 ou W represente le nombre de poids du reseau. Ce resultat etait connu avant la decouverte de l'algorithme de retropropagation du gradient de l'erreur. le probleme consistant a decider si dans l'espace de e tous les parametres de R (ses poids. Les reseaux connexionnistes ayant un si grand pouvoir d'expression. on dit qu'il est un approximateur universel. Ce document est la propriété exclusive de nona nina (ninasbalka@gmail. Certains resultats montrent m^me qu'a l'exception de cas extr^mes. certaines experiences empiriques (dont Hin89]) montrent qu'on peut faire apprendre une t^che complexe a un reseau. Malgre cela. D'un point de vue pratique. est NP-di cile. Plusieurs resultats montrent par exemple qu'un reseau de neurones arti ciels multicouche peut approximer avec une precision arbitraire n'importe quelle transformation continue d'un espace a dimension nie vers un autre espace a dimension nie. Bishop ( Bis95]) pour un traitement de ce sujet. Il faut cependant noter que ces resultats ne fournissent aucun indice sur la methode a utiliser pour trouver directement les poids correspondant a l'approximation d'une fonction donnee. Il existe un certain nombre de ces algorithmes mais aucune preuve de convergence en temps polynomial n'existe actuellement pour ces algorithmes. En e et. une seule e e couche cachee est su sante. bien qu'il faille un temps exponentiel (sur le nombre de poids) pour obtenir la solution optimale.3 Reseaux connexionnistes et apprentissage PAC Des liens profonds existent entre la capacite d'apprentissage d'un reseau connexionniste et la theorie de l'apprentissage.4.com) . on peut souvent en pratique se contenter d'une solution sous-optimale satisfaisante obtenue en temps polynomial. On ne sait les calculer que par apprentissage.27 Octobre 2009 à 09:30 10. qui a alors permis de l'utiliser en pratique. il a ete montre le resultat suivant: Etant donne un reseau de neurones arti ciels arbitraire R et une t^che arbitraire a T devant ^tre resolue par R. . s'il possede su samment de neurones formels caches (voir Hay99]). En ce sens.2 Complexite 10.4.

sur l'organisation d'unites logiques elementaires en un ensemble au comportement complexe ( Tur92]). Ripley ( Rip96])) fournissent des panoramas sur la theorie et de la pratique de ces outils. On pourra aussi consulter les ouvrages suivants. aucune methode n'est connue pour determiner l'architecture optimale pour un probleme donne. n'ont pas cesse depuis cette epoque jusqu'a nos jours. Les livres de R. On ne peut que remarquer le travail de A. HKP91]. Une veritable explosion de publications et d'applications tres diverses a suivi et continue de nos jours. Le chapitre 6 du livre de R. et de leur interconnexion. il faut decider du nombre de neurones caches. D'autres solutions utilisent plut^t une technique inverse : a partir d'une archio tecture complete. Souvent on procede en essayant diverses architectures pour un probleme donne et en calculant l'erreur de generalisation pour chacune sur un ensemble de validation. l'ingenieur doit a prendre des decisions d'architecture non evidentes et pourtant tres importantes : par exemple. Ce document est la propriété exclusive de nona nina (ninasbalka@gmail. En e et.27 Octobre 2009 à 09:30 Notes historiques et sources bibliographiques L'ouvrage de Dreyfus et al. Du point de vue de l'apprentissage arti ciel.Chapitre 10 L'apprentissage de reseaux connexionnistes 331 10. en 1948. Depuis peu. Widrow ( Wid94]) relatent l'historique de cette decouverte et des reseaux connexionnistes en general. Werbos ( Wer84]) et l'article de B. P. Duda. Or tous les resultats theoriques sur les reseaux connexionnistes (leur puissance de calcul ou leur faculte de generalisation) ne tiennent que si l'on utilise l'architecture ideale (ou tout au moins su sante et necessaire). on commence a utiliser des methodes d'optimisation pour chercher l'architecture ideale. on utilise maintenant des methodes comme e les algorithmes genetiques pour choisir ces parametres. Pitt ( MP43]) bien que l'apprentissage n'y soit pas reellement aborde. Bishop ( Bis95]) et B. le tournant se situe en 1986. la regle de la retropropagation de l'erreur est basee notamment sur le taux d'apprentissage note dans ce chapitre. Une solution a ce probleme consiste a utiliser des algorithmes constructifs qui commencent avec une architecture minimale et ajoutent des neurones et des connexions au fur et a mesure de l'apprentissage. chaque regle d'apprentissage utilise generalement un certain nombre de parametres pour guider l'apprentissage. plusieurs travaux proposent l'utilisation des algorithmes genetiques pour optimiser l'architecture des reseaux de neurones (voir le chapitre 8). Le travail fondateur le plus souvent cite est celui de W. du nombre de couches cachees. on utilise souvent des regles heuristiques simples pour determiner sa valeur ideale. Un autre probleme tient au choix des parametres des divers algorithmes d'apprentissage. Hart et R. En e et. Les travaux sur les reseaux de neurones formels. Ainsi. en l'occurence. ils eliminent certains neurones et/ou connexions qui semblent non essentiels. interessants a divers titres : Sch92]. Le livre de P. ou leur application a des donnees sequentielles . Ceci se fait souvent de facon ad hoc ou en utilisant quelques regles heuristiques simples. souvent inspires par des motivations de modelisation biologique. hormis une recherche exhaustive. C. Golden ( Gol96]). et encore a une fois. Ce taux varie d'une t^che a l'autre. Devant une t^che a resoudre par un reseau connexionniste. ou il s'est produit un phenomene courant en sciences : la decouverte independante et quasi simultanee d'un resultat important. Stork ( DHS01]) est une remarquable introduction theorique et pratique. couvrant aussi bien les ameliorations des techniques d'apprentissage que leur generalisation a des modeles plus complexes. ecrit en francais et recent. WK91]. ( DMS+ 02]) est recommande : encyclopedique.5 Comment choisir l'architecture d'un reseau? Un des problemes majeurs des reseaux connexionnistes a trait a la di culte de decider de leur architecture. Mc Culloch et W. Turing. les formules de la retropropagation de gradient de l'erreur. Ainsi. Dans la m^me veine que pour le choix des architectures.com) .

Le texte de ce chapitre est en partie inspire de l'introduction de la these (PhD) de Samy Bengio. la retropropagation du gradient de l'erreur. 1993. en particulier en ce qui concerne sa rapidite et son arr^t avant la surgeneralisation. Par un processus d'apprentissage par optimisation. L'algorithme d'apprentissage classique.com) . un reseau connexionniste peut adapter ses parametres a un ensemble de donnees supervisees. Les travaux de modelisation biologiques et situes dans le domaine des sciences cognitives sont egalement tres nombreux. Ils permettent aussi l'apprentissage de fonctions de regression. universite de Montreal. Resume Ce document est la propriété exclusive de nona nina (ninasbalka@gmail. est eprouve.27 Octobre 2009 à 09:30 Les reseaux connexionnistes sont des mecanismes de calcul permettant en particulier d'a ecter une classe a un vecteur de donnees numeriques. Les capacites de generalisation de ces systemes sont bonnes. les theories de l'apprentissage et l'analyse (au sens mathematique du terme) ont aussi ete eclaircis. Il a donne lieu a de nombreuses ameliorations.332 PARTIE 3 : Apprentissage par optimisation ou bidimensionnelles: signaux et images. e Les reseaux connexionnistes ont ete etendus a des architectures permettant de realiser l'apprentissage de regles de classi cation de sequences. Les liens des reseaux connexionnistes avec la theorie bayesienne. dans le but d'en generaliser les caracteristiques. .

L'apprentissage consiste alors a determiner les solutions partielles et a trouver une maniere e cace pour les combiner. Lorsqu'un nouveau cas est soumis au systeme.Chapitre 11 Ce document est la propriété exclusive de nona nina (ninasbalka@gmail. Lorsque la combinaison des reponses des experts ne depend pas de l'entree. sont l'archetype de cette approche. on parle de combinaison statique. Ils apprennent a identi er les sous-espaces de l'espace d'entree pour lesquels la solution est identique. celui-ci identi e le sous-espace correspondant et retourne la reponse associee. dont les melanges d'experts et les melanges hierarchiques d'experts sont les methodes les plus representatives. puis a combiner ces solutions pour resoudre le probleme general. tres etudiees actuellement. . Les methodes de boosting. on parle alors de structures dynamiques. Lorsque la combinaison depend de l'entree. a leur trouver une solution.com) . Elle se resume a identi er des sous-problemes. D'autres familles d'algorithmes distribuent la t^che entre plusieurs experts et coma binent les solutions partielles pour obtenir la solution generale.27 Octobre 2009 à 09:30 Apprentissage par combinaison de decisions L'une des grandes familles d'approches pour la resolution de problemes comme pour l'apprentissage est la technique consistant a (( diviser pour regner )) (divide and conquer). C'est sur ce principe que sont fondes les algorithmes d'apprentissage par arbres de decision.

2. Decision : la plante est la Malva rotundifolia L. e 1. si on observe un grand oiseau blanc sur un plan d'eau.. Par G. ou seulement trois especes sont decrites 1 . Ouvrage couronne par l'academie des sciences et par l'academie d'agriculture de France. Par exemple. le cygne tubercule a l'habitude de tenir le cou recourbe )). en moyenne. Il reste a se decider avec le texte et les details des dessins. qui porte sur un attribut de la eur. c'est-a-dire d'eviter les questions inutiles et de veiller a ce que chaque plante. ou : (( Le cygne chanteur a un bec jaune il est migrateur hivernal et niche dans la toundra )). Un index. Une sequence de reconnaissance (un peu raccourcie pour la lisibilite) sera par exemple la suivante. laureat de l'academie des sciences.) Librairie generale de L'gnseignement. Evidemment. il est impossible de parcourir au hasard des milliers d'illustrations en esperant trouver la bonne page avec une probabilite su sante. en supposant que la eur (( reponde )) positivement a chaque test : Plante ayant des eurs. des departements de l'Eure. On parle ici de manuels concernant l'avifaune europeenne. etc.. Bonnier. En ce qui concerne les ores. C'est pourquoi le systeme de recherche est fonde sur un questionnaire structure. la reponse est donc positive ou negative. les premiers chapitres de la ore Bonnier sont consacres a des notions sur l'anatomie des plantes. La di culte est pour le lecteur de prendre une decision sans erreur pour chaque question posee. (( bractee )). Supposons avoir devant nous une certaine eur et dans la main une edition de la ore Bonnier 2.. et Georges de Layens. Quatorzieme edition. A l'observation d'une eur. representant toutes les especes vasculaires des environs de Paris dans un rayon de 100 Kilometres.. Un dessin de chaque oiseau est donne. Si aucune erreur n'est commise dans ces reponses. en lisant par exemple : (( Au repos. correspondant a l'enumeration savante des ordres et des especes.27 Octobre 2009 à 09:30 a eurs) ne sont en general pas organises de la m^me maniere. Le probleme est d'organiser l'ensemble des questions de maniere aussi e cace que possible. Pour les premiers. on e trouve les oiseaux dans un ordre invariable. membre de l'institut et professeur a la Sorbonne. sans mots techniques. Nouvelle ore pour la determination facile des plantes.334 L Ce document est la propriété exclusive de nona nina (ninasbalka@gmail. une organisation di erente est souvent adoptee. (\Mauve a feuille rondes\) . ou les deux a la fois? Fleurs non reunies en capitule entoure d'une collerette de bractees? Fleurs a deux enveloppes de couleur et de consistance di erentes? Corolle non papilionacee? Petales libres entre eux? Fleur ayant plus de douze etamines? Etamines reunies entre elles? Plante herbacee? Fleurs a l'aisselle des feuilles? Calicule a trois bractees libres et stigmate obtus? Une seule eur a l'aisselle des feuilles? Bractees du calicule etroites carpelle velue? es manuels d'ornithologie et les (( ores )) (les livres pour l'identi cation des plantes A chaque question. comportant des mots comme (( carpelle )). l'identi cation est realisee.. e un rapide parcours des gures amene sans ambigu te a la page des cygnes. 1926. accompagne d'une description imagee et de details permettant de contraster l'espece en question d'avec celles qui peuvent pr^ter a confusion. de l'Eure et Loire.com) . est egalement fourni. puisse ^tre identi ee par le plus petit nombre possible de questions. augmentee (. La raison principale est qu'il y a beaucoup plus d'especes de plantes a eurs que d'oiseaux. avec des etamines ou un pistil.

Moyennant o quoi. couramment employe en sciences naturelles Dans ce cas. elements de l'espace de representation la reponse a ce test designera le ls du n ud vers lequel on doit aller. Si le temps est ensoleille.) ainsi que de leur existence conjointe. calicule. ma decision est toute prise. e 3. Mon experience m'a prouve que la presence du chat du voisin rend la promenade assez penible mais je sais que cet animal deteste l'humidite. position relative. Ces tests sont organises de telle facon que la reponse a l'un d'eux indique a quel prochain test auquel on doit soumettre cet objet. etc. topologie.1. Une telle structure est appelee arbre de decision. Cet arbre de decision se lit ainsi : j'observe d'abord le ciel. S'il pleut. bractees. Quelle est la temperature exterieure? Cet attribut est numerique. je dois alors m'interesser a la presence de mon voisin. etc. Il faut conna^tre la signi cation et la mesure d'une bonne centaine de tels termes (c'est la taille de l'espace de representation.com) . La structure de decision est globale : on n'a pas de probleme pour traiter C classes.1 Les arbres de decision 11. . Pour nir. Ce type de classi cation est. j'observe les attributs suivants : Quel temps fait-il? C'est un attribut nominal pouvant prendre les valeurs pluvieux. La question qui nous interesse particulierement est de realiser l'apprentissage de telles structures de decision a partir d'exemples. D'autre part. Prenons une illustration dans un tout autre univers pour approcher ce probleme. Si je remarque que le temps est couvert je dois ensuite regarder le thermometre pour me decider. je peux par exemple organiser ma decision selon la hierarchie de la gure 11. l'espace de representation est de ni par l'observation des caracteristiques anatomiques utiles de la plante (etamines. La classi cation s'e ectue donc en partant de la racine pour poursuivre recursivement le processus jusqu'a ce qu'on rencontre une feuille. ajoutons que je suis plut^t frileux.1. on se limite m^me a un seul test. nombre. ensoleille ou couvert. Le principe de cette regle de decision est d'organiser l'ensemble des tests possibles comme un arbre 3 . ce nombre est limite par d). Quelques avantages Si l'on conna^t un arbre de decision associe a un probleme de classi cation. Le test de tous les attributs de chaque objet a chaque n ud n'est pas necessaire dans la plupart des cas pratiques.1 Principe La technique des arbres de decision est fondee sur l'idee simple de realiser la classi cation d'un objet par une suite de tests sur les attributs qui le decrivent.Chapitre 11 Apprentissage par combinaison de decisions 335 11. comme on l'a vu. le nombre d' attributs) pour classer toute plante repertoriee. dont le nombre d'especes possibles est ici de 1500 a 2000 (c'est le nombre de classes). Ce document est la propriété exclusive de nona nina (ninasbalka@gmail. le retour d'un chien mouille n'est pas tres plaisant pour mon tapis. La botanique n'a plus rien a voir ici. Est-ce que le voisin est parti en week-end avec son chat? Cet attribut est binaire. on voit immediatement les avantages de ce type de regle de classi cation : Le nombre moyen de tests a e ectuer sur une forme peut ^tre extr^mement reduit (si les e e d attributs sont tous binaires. Une feuille de cet arbre designe une des C classes (mais a chaque classe peut correspondre plusieurs feuilles) et a chaque n ud est associe un test (un selecteur) portant sur un ou plusieurs attributs. corolle.27 Octobre 2009 à 09:30 Un exemple Supposons que j'aie a prendre la decision suivante : vais-je sortir le chien ou non? Pour cela.

1 { Un arbre de decision pour la promenade du chien. ces avantages ne valent que s'il est possible de construire un arbre de decision a partir d'un ensemble d'apprentissage en remplissant au mieux deux conditions : celle de la proximite du risque empirique et du risque reel et celle de la simplicite de l'arbre obtenu.1 Introduction Dans l'exemple botanique propose dans l'introduction. La structure de e cet arbre de decision est donc le resultat de l'experience des botanistes. croissant exponentiellement avec le nombre d d'attributs et le nombre moyen a de valeurs possibles par attributs. ce qui revient a subdiviser iterativement les partitions de l'espace des exemples. Un calcul simple montre en e et que ce nombre est de : d.2.). 11. L'approche. L'apprentissage des arbres de decision procede par une exploration du general au particulier en commencant par un arbre a un n ud racine correspondant a une partition simple de l'espace X des exemples.1. comme indique au chapitre 3. etc. le nombre d'arbres possibles est gigantesque. En e et. puis en ra nant progressivement cette partition par ajout successif de n uds dans l'arbre. la distribution geographique.com) . Comment sous cette hypothese apprendre un arbre de decision performant en generalisation? Notons d'abord qu'il est hors de question d'explorer exhaustivement l'ensemble des arbres possibles pour determiner le plus performant au sens d'un critere inductif comme l'ERM (chapitre 2) ou le principe de compression maximale (chapitre 17).336 PARTIE 3 : Apprentissage par optimisation Quel temps fait-il ? couvert Temperature ? superieure a 10 degres Je sors le chien ensoleille pluvieux Je reste chez moi non Je reste chez moi Est-ce le voisin est absent ? oui inferieure a 10 degres Je reste chez moi Je sors le chien Ce document est la propriété exclusive de nona nina (ninasbalka@gmail. Evidemment. 11. l'expertise joue un r^le tres imporo tant : l'arbre de decision est construit a partir de connaissances sur la correspondance complexe entre les caracteristiques observables d'une plante et la de nition de son espece (fondee ellem^me sur la possibilite de reproduction. en partant de l'echantillon des donnees d'appreni=0 . il faut s'appuyer seulement sur un ensemble d'apprentissage et non pas sur une expertise.2 La construction recursive d'un arbre de decision 11.27 Octobre 2009 à 09:30 Fig. procede de maniere descendante. appelee induction descendante d'arbres de decision (top-down induction of decision tree). i)ai ce qui pour seulement quatre attributs a trois valeurs chacun donne deja cinq cent vingt-six arbres possibles.1.1 X (d . Mais pour realiser la construction automatique d'un arbre de decision. Il faut donc un moyen (( intelligent )) d'explorer l'espace des hypotheses.

selon un critere decrit plus bas. le test d'arr^t ne peut pas ^tre satisfait : il peut exister plusieurs exemples e e ayant les m^mes attributs et des classes di erentes 6 . Au cours de la construction de Tmax . sous forme d'ensemble de test T . . a chaque n ud correspond un sous-ensemble des exemples d'apprentissage : ceux qui satisfont tous les tests binaires menant a ce n ud. produit un arbre dont chaque feuille ne couvre plus qu'un faible nombre de donnees pures. On n'a pas besoin ici d'indicer les exemples dans l'ensemble d'apprentissage. Pour simpli er l'expose. L'appel de cette procedure recursive se fait sur l'ensemble d'apprentissage S . On retrouve la le probleme de la selection de modeles (voir chapitres 2 et 3). decrit informellement ci-dessus. On suppose pour l'instant que les attributs sont a valeur binaire. la classe est attribuee par un e 4. quand l'arbre est partiellement construit. A l'arr^t. C'est pourquoi on essaie de contrebalancer ce (( surapprentissage )) par un mecanisme limitant la complexite de l'arbre (donc du modele) appris.1. Le reste des donnees. nous commencons par le cas d'attributs binaires. une technique un peu plus complexe de validation croisee est necessaire. 337 Ce document est la propriété exclusive de nona nina (ninasbalka@gmail. Si ce sous-ensemble n'est pas constitue de points appartenant tous a la m^me classe. Le paragraphe suivant presente comment fabriquer de tels criteres.2. Soit parce qu'il n'y a pas assez d'attributs pour les decrire et les discriminer. on sait qu'il donnera vraisemblablement une mauvaise generalisation. 5. e la construction doit se poursuivre. mais on garde l'idee de rami er l'arbre autant qu'il le faudra pour arriver a une con guration ou chaque feuille represente des donnees appartenant toutes a la m^me classe. avant de considerer plus loin le cas ou ils sont nominaux ou continus 5 . L'algorithme de construction. Il faut alors choisir le meilleur attribut a tester. sert en n a evaluer le risque reel de l'arbre construit. pour servir de test premettant de subdiviser l'echantillon d'apprentissage courant en sous-echantillons distincts. basee sur le principe ERM .27 Octobre 2009 à 09:30 11. Si l'on a assez de donnees d'apprentissage. le test mis en place a chaque n ud est base sur le seul examen de la meilleure facon de separer en classes le sous-ensemble considere des points d'apprentissage qu'il regit. 4 Cet exemple est decrit par d attributs fxi i = 1 dg et par une classe ! 2 C = f!1 ::: !C g. soit parce qu'il des erreurs de description ou d'etiquetage des exemples.2 Le cas des attributs binaires Position du probleme On dispose d'un ensemble d'apprentissage S de m exemples dont l'un est note (x !). Si les donnees sont peu nombreuses.com) . la facon la plus e cace est de proceder en deux passes : d'abord utili