You are on page 1of 837

C

e

d
o
c
u
m
e
n
t

e
s
t

l
a

p
r
o
p
r
i


e
x
c
l
u
s
i
v
e

d
e

O
l
i
v
i
e
r

B
E
R
N
H
A
R
D

(
o
l
i
v
i
e
r
.
s
i
m
p
l
e
l
i
f
e
@
g
m
a
i
l
.
c
o
m
)

-

1
2

m
a
i

2
0
1
4


1
4
:
2
2
Antoine Cornujols est
professeur AgroParisTech.
Il enseigne lapprentissage
artificiel dans plusieurs
grandes coles et en Master.
Ses recherches portent
notamment sur
lapprentissage en ligne,
lapprentissage
partir de flux de donnes
ainsi que sur des
applications en
bioinformatique et sciences
du vivant.
Laurent Miclet est
professeur lENSSAT
(www.enssat.fr) de Lannion,
universit de Rennes-I,
et responsable du projet
CORDIAL de lIRISA
(www.irisa.fr).
Il enseigne lapprentissage
artificiel et la
reconnaissance des formes
dans plusieurs grandes
coles et en Master.
Ses recherches portent en
particulier sur
lapprentissage pour le
dialogue homme-machine et
les technologies vocales.
Les programmes dintelligence artificielle sont aujourdhui
capables de reconnatre des commandes vocales, danalyser
automatiquement des photos satellites, dassister des experts
pour prendre des dcisions dans des environnements complexes
et volutifs (analyse de marchs financiers, diagnostics mdi-
caux), de fouiller dimmenses bases de donnes htrognes,
telles les innombrables pages du Web
Pour raliser ces tches, ils sont dots de modules dapprentissage
leur permettant dadapter leur comportement des situations
jamais rencontres, ou dextraire des lois partir de bases de
donnes dexemples.
Ce livre prsente les concepts qui sous-tendent lapprentissage
artificiel, les algorithmes qui en dcoulent et certaines de leurs
applications. Son objectif est de dcrire un ensemble dalgo-
rithmes utiles en tentant dtablir un cadre thorique pour len-
semble des techniques regroupes sous ce terme dapprentis-
sage artificiel .
qui sadresse ce livre ?
Ce livre sadresse tant aux dcideurs et aux ingnieurs qui
souhaitent mettre au point des applications quaux tudiants
de niveau Master 1 et 2 et en cole dingnieurs, qui souhaitent
un ouvrage de rfrence sur ce domaine cl de lintelligence
artificielle.
Sommaire
I. Les fondements de lapprentissage Premire approche de linduction
Environnement mthodologique II. Apprentissage par exploration Induction et
relation dordre Programmation logique inductive Transfert de connaissance Infrence
grammaticale Apprentissage par volution III. Apprentissage par optimisation
Modles linaires Rseaux connexionnistes Rseaux baysiens HMM (modles de Markov
cachs) Infrence darbres IV. Apprentissage par approximation et
interpolation Mthodes noyaux Apprentissage baysien Apprentissage par
renforcement V. Au-del de lapprentissage supervis Combinaisons dexperts
Classification non supervise et fouille de donnes. Apprentissage semi-supervis
Nouvelles tches et nouvelles questions Annexes et bibliographie.
Apprentissage
artificiel
C
o
d
e

d
i
t
e
u
r

:

G
1
2
4
7
1


I
S
B
N

:

9
7
8
-
2
-
2
1
2
-
1
2
4
7
1
-
2
A
.

C
o
r
n
u

j
o
l
s
L
.

M
i
c
l
e
t
A
p
p
r
e
n
t
i
s
s
a
g
e

a
r
t
i
f
i
c
i
e
l
55 E
Concepts et algorithmes
Apprentissage
artificiel
A
l
g
o
r
i
t
h
m
e
s
Antoine Cornujols - Laurent Miclet
Prface de Jean-Paul Haton
2
e

d
i
t
i
o
n
2
e

d
i
t
i
o
n
2 e

d
i
t
i
o
n
2
e
dition
cornu2010 27/04/10 16:55 Page 1
C
e

d
o
c
u
m
e
n
t

e
s
t

l
a

p
r
o
p
r
i


e
x
c
l
u
s
i
v
e

d
e

O
l
i
v
i
e
r

B
E
R
N
H
A
R
D

(
o
l
i
v
i
e
r
.
s
i
m
p
l
e
l
i
f
e
@
g
m
a
i
l
.
c
o
m
)

-

1
2

m
a
i

2
0
1
4


1
4
:
2
2
Antoine Cornujols est
professeur AgroParisTech.
Il enseigne lapprentissage
artificiel dans plusieurs
grandes coles et en Master.
Ses recherches portent
notamment sur
lapprentissage en ligne,
lapprentissage
partir de flux de donnes
ainsi que sur des
applications en
bioinformatique et sciences
du vivant.
Laurent Miclet est
professeur lENSSAT
(www.enssat.fr) de Lannion,
universit de Rennes-I,
et responsable du projet
CORDIAL de lIRISA
(www.irisa.fr).
Il enseigne lapprentissage
artificiel et la
reconnaissance des formes
dans plusieurs grandes
coles et en Master.
Ses recherches portent en
particulier sur
lapprentissage pour le
dialogue homme-machine et
les technologies vocales.
Les programmes dintelligence artificielle sont aujourdhui
capables de reconnatre des commandes vocales, danalyser
automatiquement des photos satellites, dassister des experts
pour prendre des dcisions dans des environnements complexes
et volutifs (analyse de marchs financiers, diagnostics mdi-
caux), de fouiller dimmenses bases de donnes htrognes,
telles les innombrables pages du Web
Pour raliser ces tches, ils sont dots de modules dapprentissage
leur permettant dadapter leur comportement des situations
jamais rencontres, ou dextraire des lois partir de bases de
donnes dexemples.
Ce livre prsente les concepts qui sous-tendent lapprentissage
artificiel, les algorithmes qui en dcoulent et certaines de leurs
applications. Son objectif est de dcrire un ensemble dalgo-
rithmes utiles en tentant dtablir un cadre thorique pour len-
semble des techniques regroupes sous ce terme dapprentis-
sage artificiel .
qui sadresse ce livre ?
Ce livre sadresse tant aux dcideurs et aux ingnieurs qui
souhaitent mettre au point des applications quaux tudiants
de niveau Master 1 et 2 et en cole dingnieurs, qui souhaitent
un ouvrage de rfrence sur ce domaine cl de lintelligence
artificielle.
Sommaire
I. Les fondements de lapprentissage Premire approche de linduction
Environnement mthodologique II. Apprentissage par exploration Induction et
relation dordre Programmation logique inductive Transfert de connaissance Infrence
grammaticale Apprentissage par volution III. Apprentissage par optimisation
Modles linaires Rseaux connexionnistes Rseaux baysiens HMM (modles de Markov
cachs) Infrence darbres IV. Apprentissage par approximation et
interpolation Mthodes noyaux Apprentissage baysien Apprentissage par
renforcement V. Au-del de lapprentissage supervis Combinaisons dexperts
Classification non supervise et fouille de donnes. Apprentissage semi-supervis
Nouvelles tches et nouvelles questions Annexes et bibliographie.
Apprentissage
artificiel
C
o
d
e

d
i
t
e
u
r

:

G
1
2
4
7
1


I
S
B
N

:

9
7
8
-
2
-
2
1
2
-
1
2
4
7
1
-
2
A
.

C
o
r
n
u

j
o
l
s
L
.

M
i
c
l
e
t
A
p
p
r
e
n
t
i
s
s
a
g
e

a
r
t
i
f
i
c
i
e
l
Concepts et algorithmes
Apprentissage
artificiel
A
l
g
o
r
i
t
h
m
e
s
Antoine Cornujols - Laurent Miclet
Prface de Jean-Paul Haton
2
e

d
i
t
i
o
n
2
e

d
i
t
i
o
n
2 e

d
i
t
i
o
n
2
e
dition
cornu2010 27/04/10 16:55 Page 1
C
e

d
o
c
u
m
e
n
t

e
s
t

l
a

p
r
o
p
r
i


e
x
c
l
u
s
i
v
e

d
e

O
l
i
v
i
e
r

B
E
R
N
H
A
R
D

(
o
l
i
v
i
e
r
.
s
i
m
p
l
e
l
i
f
e
@
g
m
a
i
l
.
c
o
m
)

-

1
2

m
a
i

2
0
1
4


1
4
:
2
2
Apprentissage
artificiel
cornuejolstitre 26/04/10 17:23 Page 1
C
e

d
o
c
u
m
e
n
t

e
s
t

l
a

p
r
o
p
r
i


e
x
c
l
u
s
i
v
e

d
e

O
l
i
v
i
e
r

B
E
R
N
H
A
R
D

(
o
l
i
v
i
e
r
.
s
i
m
p
l
e
l
i
f
e
@
g
m
a
i
l
.
c
o
m
)

-

1
2

m
a
i

2
0
1
4


1
4
:
2
2
CHEZ LE MME DITEUR
Dans la mme collection
G. DREYFUS et al. Apprentissage statistique et rseaux de neurones.
Mthodologie et applications.
N12229, 3
e
dition 2008, 464 pages avec CD-Rom.
P. NAM, P.-H. WUILLEMIN, P. LERAY, O. POURRET, A. BECKER. Rseaux baysiens.
N11972, 3
e
dition, 2007, 424 pages (collection Algorithmes).
G. FLEURY, P. LACOMME et A. TANGUY. Simulation vnements discrets.
Modles dterministes et stochastiques Exemples dapplications implments en Delphi et en C++.
N11924, 2006, 444 pages avec CD-Rom.
J. RICHALET et al. La commande prdictive.
Mise en oeuvre et applications industrielles.
N11553, 2004, 256 pages.
P. LACOMME, C. PRINS, M. SEVAUX Algorithmes de graphes.
N11385, 2003, 368 pages, avec CD-Rom.
J. DRO, A. PTROWSKI, P. SIARRY, E. TAILLARD Mtaheuristiques pour loptimisation difficile.
Recuit simul, recherche tabou, algorithmes volutionnaires et algorithmes gntiques, colonies de fourmis
N11368, 2003, 368 pages.
Y. COLLETTE, P. SIARRY Optimisation multiobjectif.
N11168, 2002, 316 pages.
C. GURET, C. PRINS, M. SEVAUX. Programmation linaire.
65 problmes doptimisation modliss et rsolus avec Visual XPress.
N9202, 2000, 365 pages, avec CD-ROM.
Autres ouvrages
I. HURBAIN, avec la contribution dE. DREYFUS. Mmento UNIX/Linux
N11954, 2006, 14 pages.
C. JACQUET. Mmento LaTeX
N12244, 2007, 14 pages.
R. RIMEL. Mmento MySQL.
N12720, 2
e
dition 2010, 14 pages.
R. M. STALLMAN et al. Richard Stallman et la rvolution du logiciel libre. Une biographie autorise.
N12609, 2010, 344 pages.
S. BORDAGE, D. THVENON, L. DUPAQUIER, F. BROUSSE. Conduite de projet Web.
N12665, 5
e
dition, 2010, 432 pages.
S. JABER. Programmation GWT 2. Dvelopper des applications Ajax avec le Google Web Toolkit.
N12569, 2010, 484 pages
C
e

d
o
c
u
m
e
n
t

e
s
t

l
a

p
r
o
p
r
i


e
x
c
l
u
s
i
v
e

d
e

O
l
i
v
i
e
r

B
E
R
N
H
A
R
D

(
o
l
i
v
i
e
r
.
s
i
m
p
l
e
l
i
f
e
@
g
m
a
i
l
.
c
o
m
)

-

1
2

m
a
i

2
0
1
4


1
4
:
2
2
Antoine Cornujols - Laurent Miclet
Apprentissage
artificiel
cornuejolstitre 26/04/10 17:23 Page 2
2
e

d
i
t
i
o
n
C
e

d
o
c
u
m
e
n
t

e
s
t

l
a

p
r
o
p
r
i


e
x
c
l
u
s
i
v
e

d
e

O
l
i
v
i
e
r

B
E
R
N
H
A
R
D

(
o
l
i
v
i
e
r
.
s
i
m
p
l
e
l
i
f
e
@
g
m
a
i
l
.
c
o
m
)

-

1
2

m
a
i

2
0
1
4


1
4
:
2
2
DITIONS EYROLLES
61, bd Saint-Germain
75240 Paris Cedex 05
www.editions-eyrolles.com
Le code de la proprit intellectuelle du 1
er
juillet 1992 interdit en effet expressment la
photocopie usage collectif sans autorisation des ayants droit. Or, cette pratique sest
gnralise notamment dans les tablissements denseignement, provoquant une baisse
brutale des achats de livres, au point que la possibilit mme pour les auteurs de crer des
uvres nouvelles et de les faire diter correctement est aujourdhui menace.
En application de la loi du 11 mars 1957, il est interdit de reproduire intgralement ou
partiellement le prsent ouvrage, sur quelque support que ce soit, sans autorisation de lditeur ou du Centre
Franais dExploitation du Droit de Copie, 20, rue des Grands-Augustins, 75006 Paris.
Groupe Eyrolles, 2002, 2010, ISBN : 978-2-212-12471-2
Remerciements Eric Bernauer pour la relecture de cet ouvrage.
C
e

d
o
c
u
m
e
n
t

e
s
t

l
a

p
r
o
p
r
i


e
x
c
l
u
s
i
v
e

d
e

O
l
i
v
i
e
r

B
E
R
N
H
A
R
D

(
o
l
i
v
i
e
r
.
s
i
m
p
l
e
l
i
f
e
@
g
m
a
i
l
.
c
o
m
)

-

1
2

m
a
i

2
0
1
4


1
4
:
2
2
i
Prface la deuxime dition
Apprendre.
Apprendre par lexemple, par lenvironnement, par la lecture, par le professeur, par cur. . .
Lapprentissage est multiforme et cest une caractristique de lintelligence. On comprend la
remarque, trs opportunment mise en exergue par les auteurs, dAlan Turing, un des pionniers de
lintelligence articielle. Prtendre doter une machine de cette facult propre ltre humain, ou
tout le moins lanimal suprieur, pouvait paratre une gageure lpoque o cette remarque a
t nonce. Ce nest plus le cas aujourdhui et le vaste champ de lapprentissage par une machine
est un domaine de recherche en pleine expansion et dans lequel il y a encore beaucoup faire !
Lapprentissage occupe une place privilgie au sein de lintelligence articielle, et plus gnra-
lement de linformatique. Cette place ne cessera de crotre. Les succs des programmes incluant
un certain niveau dapprentissage automatique ou semi-automatique sont dj nombreux. Il sut
de songer la reconnaissance de la parole, la vision par ordinateur, le rejet de pourriels, la dtec-
tion de transactions frauduleuses, le diagnostic, les jeux, la prdiction et la prvision, la fouille
de donnes, etc. Les progrs spectaculaires enregistrs sont ds pour une bonne part aux eorts
des chercheurs qui sont parvenus une meilleure comprhension des processus dapprentissage,
quils soient implants sur une machine ou quils existent dans le cortex dun animal.
Le moment est donc opportun de faire le point sur les connaissances acquises et les appli-
cations. La dcision de proposer une profonde rvision de la premire dition de louvrage de
A. Cornujols et L. Miclet arrive ainsi point nomm. Ces deux auteurs, aux comptences com-
plmentaires, sont particulirement bien indiqus pour couvrir le vaste champ pluridisciplinaire
de lapprentissage. La premire dition, de trs grande qualit, a connu un succs considrable et
justi, auprs dun public vari : tudiants, enseignants-chercheurs, ingnieurs. Elle est devenue
un ouvrage de rfrence pour la communaut francophone proposant la somme la plus complte
dides, de concepts, dalgorithmes et dapplications sur le sujet.
Le mme l directeur original a t conserv pour cette seconde dition. Laccroissement des
connaissances se traduit directement dans le nombre de pages et lon ne peut que se fliciter quil
existe encore en France des diteurs acceptant de faire paratre un ouvrage scientique original
de plus de 800 pages. . .
Je ne doute pas du succs de cette dition dont je recommande chaudement la lecture toute
personne dsirant faire le point sur lapprentissage, un des plus grands ds lanc la recherche
en intelligence articielle.
Jean-Paul Haton
Nancy, 28 mars 2010
C
e

d
o
c
u
m
e
n
t

e
s
t

l
a

p
r
o
p
r
i


e
x
c
l
u
s
i
v
e

d
e

O
l
i
v
i
e
r

B
E
R
N
H
A
R
D

(
o
l
i
v
i
e
r
.
s
i
m
p
l
e
l
i
f
e
@
g
m
a
i
l
.
c
o
m
)

-

1
2

m
a
i

2
0
1
4


1
4
:
2
2
C
e

d
o
c
u
m
e
n
t

e
s
t

l
a

p
r
o
p
r
i


e
x
c
l
u
s
i
v
e

d
e

O
l
i
v
i
e
r

B
E
R
N
H
A
R
D

(
o
l
i
v
i
e
r
.
s
i
m
p
l
e
l
i
f
e
@
g
m
a
i
l
.
c
o
m
)

-

1
2

m
a
i

2
0
1
4


1
4
:
2
2
iii
The idea of a learning machine may appear paradoxical to some readers.
A. M. Turing, 1950.
Isabelle, Claire, Aurlie, Sbastien, Fanny
et Maura, Fabien, Marion
Prsentation de la deuxime dition
La premire dition de cet ouvrage, parue en septembre 2002, a reu un trs bon accueil, mon-
trant lintrt dun livre couvrant largement les aspects de lapprentissage articiel. Par ailleurs
son organisation raisonne autour de trois grandes parties : lapprentissage par exploration, par
optimisation, et par approximation et interpolation, luniformit des notations et un l directeur
tenu de bout en bout ont visiblement sduit ct de lore des ouvrages existant en langue
anglaise.
Au l des annes, nous avons reu de nombreux courriels tmoignant la fois de la varit du
public intress : tudiants, enseignant-chercheurs du domaine, spcialistes de domaines connexes,
et grand public, et de ltendue gographique des publics touchs : la zone francophone bien sr,
y compris le Canada et les pays du Maghreb, mais aussi des pays dEurope centrale.
Plus rapidement quattendu, les presque 2000 exemplaires de la premire dition ont t pui-
ss. La question sest alors pose du choix entre une simple r-impression ou bien une mise jour
conduisant une deuxime dition. Lexprience de la premire dition aurait du nous rendre
prudents, mais la mmoire humaine tant volatile et tant donne la vitalit du domaine de
lapprentissage articiel, il nous a paru pertinent de choisir la deuxime voie. Petit petit cepen-
dant, nous avons ralis que non seulement les techniques et les rsultats avaient progress, mais
que, plus largement, de nouvelles questions et de nouvelles approches taient apparues depuis
2002. Il devenait dicile de se contenter de simplement adapter la premire dition, de nou-
veaux chapitres taient ncessaires. Par ailleurs, une r-organisation de certaines parties tait
galement souhaitable pour tenir compte de nouvelles perspectives ou de laccent port des ap-
proches classiques mais remises au got du jour, comme les mthodes linaires. Dun ravalement
de faade, nous sommes insensiblement passs un chantier comprenant une r-organisation des
espaces et des cloisons et llaboration dextensions signicatives. Comme pour tout chantier,
les dlais prvus ont t largement dpasss, puis dpasss encore, et certains moments, notre
diteur pourtant conciliant, et nos familles pourtant trs comprhensives, ont pu croire que la
ction de Dino Buzzati, Le dsert des tartares , se ralisait. Ce nest donc nalement quen
2010 quapparat cette deuxime dition.
Le l directeur allant de lexposition des fondements conceptuels et mthodologiques, puis pro-
gressant depuis des apprentissages trs guids par lexistence dune relation de gnralit dans
lespace des hypothses des apprentissages sappuyant sur des espaces de plus en plus dmunis
C
e

d
o
c
u
m
e
n
t

e
s
t

l
a

p
r
o
p
r
i


e
x
c
l
u
s
i
v
e

d
e

O
l
i
v
i
e
r

B
E
R
N
H
A
R
D

(
o
l
i
v
i
e
r
.
s
i
m
p
l
e
l
i
f
e
@
g
m
a
i
l
.
c
o
m
)

-

1
2

m
a
i

2
0
1
4


1
4
:
2
2
iv
de structure a t maintenu. Nous avons cependant ajout une partie indite sur de nouvelles
questions et de nouveaux types dapprentissage qui dpassent les cadres classiques des appren-
tissages superviss, non superviss et par renforcement. Ainsi, par exemple, les apprentissages
dordonnancement, les apprentissages semi-superviss, actifs, partir de ux de donnes et en
ligne, font lobjet de sections ou de chapitres nouveaux.
Par ailleurs, le dveloppement considrable des mthodes base de fonctions noyau nous a
conduit ddier tout un chapitre aux mthodes linaires classiques, et un grand chapitre aux
mthodes noyaux. De mme, les mthodes densemble, boosting, bagging, etc. font maintenant
lobjet dun chapitre part entire.
Finalement, tous les chapitres ont t mis jour pour tenir compte des progrs raliss. De
nombreuses gures ont t refaites pour les rendre plus lisibles, et beaucoup dautres ont t
ajoutes. La typographie a volu an de mieux mettre en vidence les dnitions, les thormes
et les formules principales. Lindex a t entirement revu et largement augment an de faciliter
laccs direct aux concepts. Au bout du compte, et malgr notre souci de rester concis, le nombre
de pages est pass en huit ans de 630 830. Cela rete la vitalit du domaine et laccroissement
des ides, concepts et mthodes utiles connatre.
Nous esprons que cette deuxime dition sduira un public aussi large que pour la premire
dition. Bienvenue dans le nouvel dice. Nous vous souhaitons une visite agrable, une ins-
tallation heureuse et lenvie dapporter de nouvelles ides, douvrir de nouvelles fentres, et de
dessiner de nouveaux horizons.
Antoine Cornujols et Laurent Miclet
Paris, Lannion, France
Le 27 Mars 2010
Nous tenons remercier particulirement les personnes suivantes pour leur aide, leurs com-
mentaires, leurs encouragements, et en gnral pour leurs contributions la ralisation de cet
ouvrage. Notre gratitude va aussi aux lecteurs critiques des versions prliminaires, ce qui inclut
notablement une certaine proportion de nos tudiants. Merci vous et aussi ceux que nous
avons pu oublier ici mais qui sont importants pour nous.
Abdel Belad, Sami Bengio, Younes Bennani, Christophe Bernard, Marc Bernard, Olivier Bof-
fard, Cdric Buche, Michel Cartier, Christophe Choisy, Delphine Cosandier, Franois Coste,
Franois Denis, Grard Douaire, Pierre Dupont, Batrice Duval, Lou Fedon, Daniel Fredouille,
Mirta Gordon, Colin de la Higuera, Ghazal Jaber, Yves Kodrato, Isral-Csar Lerman, Galle
Loosli, Christine Martin, Tristan Mary-huard, Stan Matwin, Maurice Milgram, Engelbert Me-
phu Nguifo, Tom Mitchell, Jacques Nicolas, Laurent Orseau, Yann Prudent, Arpad Rimmel,
Cline Rouveirol, Michle Sebag, Dominique Snyers, Franck Thollard, Fabien Torre, Stphane
Vandenmersch et Jean-Daniel Zucker.
Merci aussi notre ditrice, Muriel Shan-Sei-Fan, et Sophie Hincelin pour une relecture
complte du manuscrit. Heureusement quil existe encore des diteurs de cette qualit.
C
e

d
o
c
u
m
e
n
t

e
s
t

l
a

p
r
o
p
r
i


e
x
c
l
u
s
i
v
e

d
e

O
l
i
v
i
e
r

B
E
R
N
H
A
R
D

(
o
l
i
v
i
e
r
.
s
i
m
p
l
e
l
i
f
e
@
g
m
a
i
l
.
c
o
m
)

-

1
2

m
a
i

2
0
1
4


1
4
:
2
2
v
Prface
Lapprentissage articiel sintresse lcriture de programmes dordinateur capables de sam-
liorer automatiquement au l du temps, soit sur la base de leur propre exprience, soit partir de
donnes antrieures fournies par dautres programmes. Dans le domaine scientique relativement
jeune de linformatique, lapprentissage articiel joue un rle de plus en plus essentiel. Au dbut
de son existence, dans les annes 1950, linformatique se rsumait principalement program-
mer des machines en leur spciant ligne aprs ligne la squence dinstructions que lordinateur
aurait suivre. Autour des annes 1990, les logiciels taient devenus si complexes quune alter-
native simposait naturellement : dvelopper des techniques pour que les programmes puissent
sentraner sur des exemples. Le rsultat est quil existe aujourdhui de nombreux domaines dap-
plication de linformatique dans lesquels les mthodes de lapprentissage articiel sont employes
pour entraner les logiciels. Mieux, le code rsultant dpasse de beaucoup en performance les
ralisations les plus abouties de programmation manuelle ligne aprs ligne . Cest ainsi que
tous les meilleurs logiciels commercialiss de reconnaissance de la parole sont fonds sur lentra-
nement de leurs programmes la reconnaissance des dirents sons et mots. La plupart dentre
eux permettent mme lutilisateur daccoutumer le systme aux caractristiques de sa voix.
Dautres exemples existent dans des domaines tels que la vision par ordinateur, le traitement
automatique du texte et la commande de robot.
Lapprentissage articiel peut donc dj revendiquer des succs dans un grand nombre de do-
maines dapplication. Il en est ainsi de logiciels de fouille de donnes utiliss grande chelle pour
dcouvrir la prescription la plus ecace pour un patient, partir de lanalyse de chiers mdicaux
antrieurs. Dautres applications vont de la prdiction de la demande en nergie, tant connu
lhistorique des consommations antrieures, lapprentissage de la reconnaissance de transactions
frauduleuses par carte de crdit, par examen des transactions passes avres frauduleuses. Alors
que nous passons des cinquante premires annes de linformatique aux cinquante prochaines
annes, il semble vident que le rle de lapprentissage articiel ne cessera de crotre au centre
de cette science.
Pourquoi cette progression ? La rponse fondamentale est que nous possdons dsormais la
comprhension de plusieurs principes calculatoires qui guident tout processus dapprentissage,
quil soit implment sur une machine ou sur un humain. La discipline de lapprentissage ar-
ticiel possde dsormais de riches fondements thoriques : on commence savoir rpondre
des questions comme : Combien au mimimum dexemples dentranement faut-il fournir
un programme dapprentissage pour tre certain quil apprenne avec une ecacit donne ?
et Quelles mthodes dapprentissage sont les plus ecaces pour tel ou tel type de problme ?
Ces fondements proviennent de la thorie statistique de lestimation, de la thorie de lidenti-
cation et de la commande optimale, de travaux pionniers sur la complexit de lapprentissage de
grammaires ou plus rcents sur linfrence baysienne algorithmique.
Cet ouvrage fournit au lecteur francophone lintroduction la plus complte ce jour lap-
prentissage articiel. Il traite de la thorie et des applications de cette discipline sous un grand
nombre daspects, en couvrant des sujets comme les mthodes dapprentissage baysien, linf-
rence grammaticale ou lapprentissage par renforcement. Cest avec plaisir que je recommande au
lecteur de dcouvrir ce livre, et travers lui les ides et les mthodes de lapprentissage articiel.
Tom M. Mitchell
Pittsburgh, Pennsylvania, USA
Le 29 Mai 2002
C
e

d
o
c
u
m
e
n
t

e
s
t

l
a

p
r
o
p
r
i


e
x
c
l
u
s
i
v
e

d
e

O
l
i
v
i
e
r

B
E
R
N
H
A
R
D

(
o
l
i
v
i
e
r
.
s
i
m
p
l
e
l
i
f
e
@
g
m
a
i
l
.
c
o
m
)

-

1
2

m
a
i

2
0
1
4


1
4
:
2
2
C
e

d
o
c
u
m
e
n
t

e
s
t

l
a

p
r
o
p
r
i


e
x
c
l
u
s
i
v
e

d
e

O
l
i
v
i
e
r

B
E
R
N
H
A
R
D

(
o
l
i
v
i
e
r
.
s
i
m
p
l
e
l
i
f
e
@
g
m
a
i
l
.
c
o
m
)

-

1
2

m
a
i

2
0
1
4


1
4
:
2
2
Table des mati` eres
Avant-propos xiii
Quelques applications de lapprentissage articiel. . . . . . . . . . . . . . . . . . . . . . xiv
Quelques dnitions de base . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . xiv
Deux champs industriels de lapprentissage articiels : la reconnaissance des formes et
la fouille de donnes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . xv
Les caractristiques de lapprentissage articiel . . . . . . . . . . . . . . . . . . . . . . xvii
Trois exemples dapprentissage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . xviii
Organisation et plan de louvrage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . xxi
Guide de lecture . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . xxiii
Notations xxvii
I Les fondements de lapprentissage 1
1 De lapprentissage naturel lapprentissage articiel 3
1 Lapprentissage articiel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
2 Deux exemples : apprendre jouer, apprendre lire . . . . . . . . . . . . . . . . 6
3 Deux approches : la cyberntique et les sciences cognitives . . . . . . . . . . . . . 10
4 Les concepts de base de lapprentissage . . . . . . . . . . . . . . . . . . . . . . . . 14
5 Linduction comme un jeu entre espaces . . . . . . . . . . . . . . . . . . . . . . . 22
6 Retour sur lorganisation de louvrage . . . . . . . . . . . . . . . . . . . . . . . . 29
2 Premire approche thorique de linduction 37
1 Poser un problme dapprentissage . . . . . . . . . . . . . . . . . . . . . . . . . . 40
2 Approches baysiennes et approche directe pour dcider . . . . . . . . . . . . . . 46
3 Le critre inductif . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
4 Analyse du principe de minimisation du risque empirique . . . . . . . . . . . . . 60
5 Le lien entre le pass et le futur et le no-free-lunch theorem . . . . . . . . . . . . 73
6 Notes historiques et bibliographiques . . . . . . . . . . . . . . . . . . . . . . . . . 78
C
e

d
o
c
u
m
e
n
t

e
s
t

l
a

p
r
o
p
r
i


e
x
c
l
u
s
i
v
e

d
e

O
l
i
v
i
e
r

B
E
R
N
H
A
R
D

(
o
l
i
v
i
e
r
.
s
i
m
p
l
e
l
i
f
e
@
g
m
a
i
l
.
c
o
m
)

-

1
2

m
a
i

2
0
1
4


1
4
:
2
2
viii Table des matires
3 Lenvironnement mthodologique de lapprentissage 81
1 Lespace des donnes dapprentissage . . . . . . . . . . . . . . . . . . . . . . . . . 85
2 Lespace des hypothses dapprentissage . . . . . . . . . . . . . . . . . . . . . . . 101
3 Les protocoles dapprentissage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112
4 Lvaluation de lapprentissage . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113
5 La comparaison des mthodes dapprentissage . . . . . . . . . . . . . . . . . . . . 124
6 Autres problmes pratiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 129
II Apprentissage par exploration 135
4 Induction et relation dordre : lespace des versions 137
1 Les concepts de base . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 140
2 La structuration de lespace des hypothses . . . . . . . . . . . . . . . . . . . . . 144
3 La construction de lespace des versions . . . . . . . . . . . . . . . . . . . . . . . 152
4 La reprsentation des connaissances par un treillis de Galois . . . . . . . . . . . . 156
5 La programmation logique inductive 161
1 La programmation logique inductive : le cadre gnral . . . . . . . . . . . . . . . 165
2 La logique des prdicats et les programmes logiques :
terminologie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 171
3 La structuration de lespace des hypothses en logique des prdicats . . . . . . . 175
4 Lexploration de lespace des hypothses . . . . . . . . . . . . . . . . . . . . . . . 182
5 Deux exemples de systmes de PLI . . . . . . . . . . . . . . . . . . . . . . . . . . 186
6 La probabilisation de la PLI . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 190
7 Les domaines dapplication de la PLI . . . . . . . . . . . . . . . . . . . . . . . . . 191
8 Les chantiers de la PLI . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 193
6 Transfert de connaissances et apprentissage par analogie 199
1 Lapprentissage en prsence de thorie . . . . . . . . . . . . . . . . . . . . . . . . 200
2 Lapprentissage par examen de preuve (EBL) . . . . . . . . . . . . . . . . . . . . 201
3 Abstraction et reformulation des connaissances . . . . . . . . . . . . . . . . . . . 208
4 Changement de repre, raisonnement par analogie et RPC . . . . . . . . . . . . 210
5 Lapprentissage par proportion analogique . . . . . . . . . . . . . . . . . . . . . . 213
6 Bilan . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 217
7 Linfrence grammaticale 219
1 Dnitions et notations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 225
2 Les protocoles de linfrence : quelques rsultats thoriques . . . . . . . . . . . . 233
3 Lespace de recherche de linfrence rgulire . . . . . . . . . . . . . . . . . . . . 240
4 Linfrence rgulire sans chantillon ngatif . . . . . . . . . . . . . . . . . . . . 241
5 Linfrence rgulire sous contrle dun chantillon ngatif . . . . . . . . . . . . . 246
6 Linfrence de grammaires algbriques . . . . . . . . . . . . . . . . . . . . . . . . 250
7 Linfrence dautomates probabilistes . . . . . . . . . . . . . . . . . . . . . . . . . 257
8 Quelques approches complmentaires . . . . . . . . . . . . . . . . . . . . . . . . . 260
C
e

d
o
c
u
m
e
n
t

e
s
t

l
a

p
r
o
p
r
i


e
x
c
l
u
s
i
v
e

d
e

O
l
i
v
i
e
r

B
E
R
N
H
A
R
D

(
o
l
i
v
i
e
r
.
s
i
m
p
l
e
l
i
f
e
@
g
m
a
i
l
.
c
o
m
)

-

1
2

m
a
i

2
0
1
4


1
4
:
2
2
Table des matires ix
8 Apprentissage par volution simule 263
1 Trois espaces au lieu de deux . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 265
2 Un modle formel simpli de lvolution . . . . . . . . . . . . . . . . . . . . . . . 268
3 Les algorithmes gntiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 269
4 Les stratgies dvolution . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 281
5 La programmation gntique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 281
6 La covolution . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 291
III Apprentissage par optimisation 297
9 Lapprentissage de modles linaires 299
1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 300
2 Rgression linaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 301
3 Sparatrices linaires . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 306
4 Modles linaires par morceaux et combinaisons de modles locaux . . . . . . . . 317
5 La recherche des facteurs pertinents . . . . . . . . . . . . . . . . . . . . . . . . . 320
10 Lapprentissage de rseaux connexionnistes 325
1 Les dirents lments dun rseau connexionniste . . . . . . . . . . . . . . . . . 328
2 Larchitecture multicouche . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 330
3 Lalgorithme dapprentissage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 335
4 Quelques rsultats thoriques sur les rseaux connexionnistes . . . . . . . . . . . 344
5 Comment choisir larchitecture dun rseau ? . . . . . . . . . . . . . . . . . . . . . 345
6 Les rseaux architecture profonde . . . . . . . . . . . . . . . . . . . . . . . . . . 346
7 Rseaux et rgime dynamique : le Reservoir Computing . . . . . . . . . . . . . . 348
11 Lapprentissage de rseaux baysiens 353
1 Les modles graphiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 355
2 Les rseaux dinfrence baysiens . . . . . . . . . . . . . . . . . . . . . . . . . . . 357
3 Les infrences dans les rseaux baysiens . . . . . . . . . . . . . . . . . . . . . . . 365
4 Lapprentissage des rseaux baysiens . . . . . . . . . . . . . . . . . . . . . . . . . 369
5 Linfrence de relations causales . . . . . . . . . . . . . . . . . . . . . . . . . . . . 378
6 Applications . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 379
7 Quelques logiciels . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 380
12 Lapprentissage de modles de Markov cachs 383
1 Les modles de Markov observables . . . . . . . . . . . . . . . . . . . . . . . . . . 386
2 Les modles de Markov cachs (Hmm) . . . . . . . . . . . . . . . . . . . . . . . . 387
3 Les Hmm comme rgles de classication de squences . . . . . . . . . . . . . . . . 392
4 Lvaluation de la probabilit dobservation . . . . . . . . . . . . . . . . . . . . . 393
5 Le calcul du chemin optimal : lalgorithme de Viterbi . . . . . . . . . . . . . . . . 395
6 Lapprentissage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 398
7 Approfondissements . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 403
8 Applications . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 404
13 Apprentissage par infrence darbres 407
1 Les arbres de dcision . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 409
2 Les arbres de rgression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 423
C
e

d
o
c
u
m
e
n
t

e
s
t

l
a

p
r
o
p
r
i


e
x
c
l
u
s
i
v
e

d
e

O
l
i
v
i
e
r

B
E
R
N
H
A
R
D

(
o
l
i
v
i
e
r
.
s
i
m
p
l
e
l
i
f
e
@
g
m
a
i
l
.
c
o
m
)

-

1
2

m
a
i

2
0
1
4


1
4
:
2
2
x Table des matires
IV Apprentissage par approximation et interpolation 427
14 Mthodes noyaux 429
1 Trois voies vers les mthodes noyau . . . . . . . . . . . . . . . . . . . . . . . . . 431
2 Philosophie des mthodes noyaux . . . . . . . . . . . . . . . . . . . . . . . . . . 441
3 Les Sparatrices Vastes Marges (SVM) . . . . . . . . . . . . . . . . . . . . . . . 443
4 Autres types dinduction avec fonctions noyau . . . . . . . . . . . . . . . . . . . . 453
5 Ingnierie des fonctions noyau . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 458
6 Les mthodes noyaux en pratique . . . . . . . . . . . . . . . . . . . . . . . . . . 477
7 Bilan et perspectives . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 483
15 Lapprentissage baysien et son approximation 487
1 Lapprentissage baysien . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 490
2 Les mthodes paramtriques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 499
3 Les mthodes non paramtriques . . . . . . . . . . . . . . . . . . . . . . . . . . . 509
4 Les mthodes semi-paramtriques . . . . . . . . . . . . . . . . . . . . . . . . . . . 523
16 Lapprentissage de rexes par renforcement 531
1 Description du problme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 534
2 Si tout est connu : lutilit de la fonction dutilit . . . . . . . . . . . . . . . . . . 541
3 Lapprentissage des fonctions dutilit quand lenvironnement est connu . . . . . 543
4 Sans modle du monde : la mthode de Monte-Carlo . . . . . . . . . . . . . . . . 547
5 La mthode des dirences temporelles . . . . . . . . . . . . . . . . . . . . . . . . 548
6 La gnralisation dans lapprentissage par renforcement . . . . . . . . . . . . . . 552
7 Contrle optimal par recherche arborescente et algorithme UCT . . . . . . . . . . 558
8 Le cas des environnements partiellement observables . . . . . . . . . . . . . . . . 561
9 Exemples dapplication . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 562
10 Bilan et perspectives . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 565
V Au-del de lapprentissage supervis 569
17 Apprentissage de combinaisons dexperts 571
1 Principes des mthodes par combinaison . . . . . . . . . . . . . . . . . . . . . . . 572
2 Le vote de plusieurs classicateurs . . . . . . . . . . . . . . . . . . . . . . . . . . 576
3 Les codes correcteurs de classes . . . . . . . . . . . . . . . . . . . . . . . . . . . . 577
4 Le boosting dun algorithme dapprentissage . . . . . . . . . . . . . . . . . . . . . 582
5 Le bagging . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 590
6 Les forts alatoires (random forests) . . . . . . . . . . . . . . . . . . . . . . . . . 591
7 Lapprentissage en cascade (cascading) . . . . . . . . . . . . . . . . . . . . . . . . 591
18 La classication non supervise et la fouille de donnes 593
1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 596
2 Les mthodes de classication fondes sur les distances . . . . . . . . . . . . . . . 597
3 Les mthodes de classication par des modles probabilistes . . . . . . . . . . . . 609
4 Mthodes spectrales de catgorisation . . . . . . . . . . . . . . . . . . . . . . . . 610
5 La classication de donnes symboliques . . . . . . . . . . . . . . . . . . . . . . . 612
6 La fouille de donnes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 615
7 Les analyses en composantes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 625
C
e

d
o
c
u
m
e
n
t

e
s
t

l
a

p
r
o
p
r
i


e
x
c
l
u
s
i
v
e

d
e

O
l
i
v
i
e
r

B
E
R
N
H
A
R
D

(
o
l
i
v
i
e
r
.
s
i
m
p
l
e
l
i
f
e
@
g
m
a
i
l
.
c
o
m
)

-

1
2

m
a
i

2
0
1
4


1
4
:
2
2
Table des matires xi
19 Lapprentissage semi-supervis 635
1 Prsentation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 636
2 Les modles gnratifs : apprentissage dans lespace joint A . . . . . . . . . . 640
3 Lauto-apprentissage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 643
4 Le co-apprentissage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 644
5 Lutilisation dhypothses fondamentales sur les donnes . . . . . . . . . . . . . . 646
6 Quelques directions pour lapprentissage semi-supervis . . . . . . . . . . . . . . . 655
7 Conclusion et petite discussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . 657
20 Vers de nouvelles tches et de nouvelles questions 659
1 Apprentissage actif . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 661
2 Apprentissages en ligne, incrmental et par transferts . . . . . . . . . . . . . . . . 669
3 Apprentissage partir de ux de donnes . . . . . . . . . . . . . . . . . . . . . . 677
4 Apprentissage de sorties structures . . . . . . . . . . . . . . . . . . . . . . . . . . 682
5 Apprentissage pour le ltrage collaboratif . . . . . . . . . . . . . . . . . . . . . . 686
21 Analyse de linduction : approfondissements et ouvertures 695
1 Gnralisation de lanalyse du principe MRE . . . . . . . . . . . . . . . . . . . . 696
2 Principes inductifs contrlant lespace des hypothses . . . . . . . . . . . . . . . . 702
3 Prise en compte de lalgorithme dapprentissage dans la thorie . . . . . . . . . . 715
4 Autres types danalyses . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 720
VI Annexes techniques 727
22 Annexes techniques 729
1 Exemples de fonctions de perte en induction . . . . . . . . . . . . . . . . . . . . . 729
2 Le calcul de lintervalle de conance de lestimation de la probabilit dune rgle
de classication . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 732
3 Estimation dune densit de probabilit en un point. . . . . . . . . . . . . . . . . 733
4 Lestimation des paramtres dune distribution gaussienne. . . . . . . . . . . . . . 734
5 Pourquoi et comment la rgle du PPV converge-t-elle ? . . . . . . . . . . . . . . . 735
6 Pourquoi la rgle de dcision baysienne est-elle optimale ? . . . . . . . . . . . . . 736
7 Apprentissage par estimation-maximisation . . . . . . . . . . . . . . . . . . . . . 736
8 Optimisation par descente de gradient . . . . . . . . . . . . . . . . . . . . . . . . 740
9 La rtropropagation du gradient de lerreur . . . . . . . . . . . . . . . . . . . . . 744
10 Lanalyse de linduction de Vapnik . . . . . . . . . . . . . . . . . . . . . . . . . . 747
11 Linduction par compression dinformation . . . . . . . . . . . . . . . . . . . . . . 758
Index 795
C
e

d
o
c
u
m
e
n
t

e
s
t

l
a

p
r
o
p
r
i


e
x
c
l
u
s
i
v
e

d
e

O
l
i
v
i
e
r

B
E
R
N
H
A
R
D

(
o
l
i
v
i
e
r
.
s
i
m
p
l
e
l
i
f
e
@
g
m
a
i
l
.
c
o
m
)

-

1
2

m
a
i

2
0
1
4


1
4
:
2
2
C
e

d
o
c
u
m
e
n
t

e
s
t

l
a

p
r
o
p
r
i


e
x
c
l
u
s
i
v
e

d
e

O
l
i
v
i
e
r

B
E
R
N
H
A
R
D

(
o
l
i
v
i
e
r
.
s
i
m
p
l
e
l
i
f
e
@
g
m
a
i
l
.
c
o
m
)

-

1
2

m
a
i

2
0
1
4


1
4
:
2
2
Avant-propos
C
e livre prsente les thories, les algorithmes et les applications de lapprentissage
articiel. Son ambition est dune part dunier le cadre mthodologique, et dautre
part de dcrire un ensemble dalgorithmes utiles, de manire cohrente avec ce cadre,
et de prsenter ses applications existantes et potentielles.
quoi sert lapprentissage articiel ? La plupart des programmes dintelligence articielle
possdent aujourdhui un module dapprentissage et tous les programmes de reconnaissance des
formes sont fonds sur des algorithmes dapprentissage. Et que font ces programmes ? Ils sont
capables de reconnatre la parole humaine et de linterprter. Ils ralisent une analyse automatique
de photos satellites pour dtecter certaines ressources sur la Terre. Ils assistent les experts pour
prendre des dcisions dans des environnements complexes et volutifs, par exemple le march
nancier ou le diagnostic mdical. Ils fouillent dimmenses bases de donnes htrognes comme
les millions de pages Web accessibles tous. Ils analysent les donnes clientle des entreprises
pour les aider mieux cibler leurs campagnes de publicit. Ils participent aussi des tournois :
le 11 mai 1997, le tenant du titre de champion du monde du jeu dchecs, Gary Kasparov, a t
battu en match par un programme.
On sait donc programmer les ordinateurs pour leur faire excuter des tches considres comme
intelligentes, de multiples faons et de manire de plus en plus ecace. Cet ouvrage sintresse
un aspect particulier de cette intelligence articielle : la facult dapprentissage.
Lapprentissage articiel est une discipline dont les outils et les champs dapplications sont
assez disparates. Cependant, les connaissances de base ncessaires sa comprhension sont es-
sentiellement une culture gnraliste que lon trouve par exemple dans les ouvrages de mathma-
tiques pour linformatique : notions dalgbre linaire, de probabilits, de combinatoire, danalyse
lmentaire, dalgorithmique, de thorie des langages, de logique. Dans la mesure du possible,
ces notions de base sont brivement rappelles selon la ncessit des chapitres de ce livre.
qui sadresse cet ouvrage ?
On peut tirer prot de cet ouvrage en autodidacte, comme le fera par exemple un ingnieur
qui cherche connatre ce qui se cache derrire les mots ou acqurir une initiation des
techniques quil ignore encore. On pourra aussi sen servir comme dun appui pour complter un
enseignement : ce sera le cas pour un tudiant au niveau matrise, DEA ou eole dingnieurs,
ou comme dun ouvrage de rfrence pour faire un cours sur le domaine.
C
e

d
o
c
u
m
e
n
t

e
s
t

l
a

p
r
o
p
r
i


e
x
c
l
u
s
i
v
e

d
e

O
l
i
v
i
e
r

B
E
R
N
H
A
R
D

(
o
l
i
v
i
e
r
.
s
i
m
p
l
e
l
i
f
e
@
g
m
a
i
l
.
c
o
m
)

-

1
2

m
a
i

2
0
1
4


1
4
:
2
2
xiv
Quelques applications de lapprentissage articiel
Voyons maintenant comment rendre un programme plus ecace en le dotant dune possibi-
lit dapprentissage. Reprenons pour cela les applications de lintelligence articielle et de la
reconnaissance des formes cites ci-dessus.
Les performances dun programme dapplication augmentent au fur et mesure de son
utilisation par la mme personne : cest une exprience quil est aujourdhui facile de mener
en pratique en utilisant un logiciel personnel de dicte vocale.
Un programme de dtection des ressources terrestres apprend reconnatre une zone de
pollution au milieu de la mer, partir dune base de donnes dexemples dimages de zones
connues comme propres ou comme pollues : cette base de donnes lui sert dexprience
pour dterminer sa dcision sur une zone inconnue.
Un programme de diagnostic sur un ensemble dinformations volutives prises sur un patient
doit avoir t pourvu de connaissances, partir de diagnostics de praticiens et dexperts sur
des situations types. Mais il doit aussi avoir t dot dun module de gnralisation, de faon
ragir correctement des situations auxquelles il na jamais t confront exactement.
Les moteurs de recherche sur le Web pourraient tre munis dun module dadaptation au
style de navigation de lusager : cest une facult souhaitable pour augmenter lergonomie
de leur utilisation. Les programmes ne sont pas encore rellement agrments de cette pro-
prit, mais il est clair que cest une condition ncessaire pour franchir certains obstacles de
communication si vidents actuellement.
Lexploitation des chiers client dune entreprise est souvent ralise par un expert ou un pro-
gramme expert qui utilise des rgles explicites pour cibler un segment de clientle susceptible
dtre intress par un nouveau produit. Mais ces rgles peuvent tre acquises automatique-
ment, par un apprentissage dont le but est de fournir de nouvelles connaissances expertes,
la fois ecaces et intelligibles pour lexpert.
Un programme de jeu dchecs possde en gnral une trs bonne ecacit a priori ; mais
il est naturel dessayer de le doter dun module o il puisse analyser ses dfaites et ses
victoires, pour amliorer ses performances moyennes dans ses parties futures. Ce module
dapprentissage existe dans un certain nombre de programmes de jeux.
Quelques dnitions de base
Apprentissage (sous-entendu : articiel, automatique) (Machine Learning)
Cette notion englobe toute mthode permettant de construire un modle de la ralit
partir de donnes, soit en amliorant un modle partiel ou moins gnral, soit en crant
compltement le modle. Il existe deux tendances principales en apprentissage, celle issue de
lintelligence articielle et qualie de symbolique, et celle issue des statistiques et qualie
de numrique.
Fouille de donnes (Data Mining) ou Extraction de connaissances partir des donnes
(Knowledge Discovery in Data)
La fouille de donnes prend en charge le processus complet dextraction de connaissances :
stockage dans une base de donnes, slection des donnes tudier, si ncessaire : nettoyage
C
e

d
o
c
u
m
e
n
t

e
s
t

l
a

p
r
o
p
r
i


e
x
c
l
u
s
i
v
e

d
e

O
l
i
v
i
e
r

B
E
R
N
H
A
R
D

(
o
l
i
v
i
e
r
.
s
i
m
p
l
e
l
i
f
e
@
g
m
a
i
l
.
c
o
m
)

-

1
2

m
a
i

2
0
1
4


1
4
:
2
2
Avant-propos xv
des donnes, puis utilisation des apprentissages numriques et symboliques an de proposer
des modles lutilisateur, et enn validation des modles proposs. Si ces modles sont
invalids par lutilisateur, le processus complet est rpt.
Prcision vs. gnralisation .
Le grand dilemme de lapprentissage. La prcision est dnie par un cart entre une va-
leur mesure ou prdite et une valeur relle. Apprendre avec trop de prcision conduit
un sur-apprentissage , comme lapprentissage par cur, pour lequel des dtails insigni-
ants (ou ds au bruit) sont appris. Apprendre avec trop peu de prcision conduit une
sur-gnralisation telle que le modle sapplique mme quand lutilisateur ne le dsire
pas. Les deux types dapprentissage, numrique et symbolique, ont dni des mesures de
gnralisation et cest lutilisateur de xer le seuil de gnralisation quil juge optimal.
Intelligibilit (devrait tre Comprehensibility mais tend devenir Understandability).
Depuis quelques annes, principalement sous la pousse des industriels, les chercheurs se
sont mis essayer de contrler aussi lintelligibilit du modle obtenu par la fouille de
donnes. Jusqu prsent les mthodes de mesure de lintelligibilit se rduisent vrier
que les rsultats sont exprims dans le langage de lutilisateur et que la taille des modles
nest pas excessive. Des mthodes spciques de visualisation sont aussi utilises.
Classication, classement et rgression. La classication, telle quelle est dnie en analyse
de donnes, consiste regrouper des ensembles dexemples non superviss en classes. Ces
classes sont souvent organises en une structure (clustering). Si cette structure est un
arbre, alors on parle de taxonomie ou de taxinomie (taxonomy). Sous linuence du mot
anglais classication, on a tendance confondre classication et classement. Ce dernier
mot dsigne le processus de reconnaissance en intension (par leur proprits) de classes
dcrites en extension (par les valeurs de leurs descripteurs). Lorsque les valeurs prdire
sont des classes en petit nombre, on parle de classication. Il sagit par exemple de prvoir
lappartenance dun oiseau observ la classe canard ou oie . La rgression traite
des cas o les valeurs prdire sont numriques, par exemple : nombre dexemplaires de
cet ouvrage qui seront vendus = 3900.
Deux champs industriels de lapprentissage articiels : la recon-
naissance des formes et la fouille de donnes
En quarante ans et plus dexistence, lapprentissage articiel a fourni un grand nombre doutils
aux industriels et aux entrepreneurs. Nous les regroupons selon deux grands axes : la reconnais-
sance des formes et la fouille de donnes ou pour tre plus prcis, lextraction de connaissances
des donnes.
Le second domaine est le moins bien connu des deux bien quil soit porteur de relles possibilits
conomiques.
Quant au premier, rappellons seulement que les mthodes de lapprentissage articiel sont la
base de la reconnaissance des images (criture manuscrite, signatures, dtection de ressources par
satellite, pilotage automatique, etc.), de la reconnaissance de la parole, du traitement avanc des
signaux bio-mdicaux, etc. Pour mesurer lextraordinaire vitalit des applications et des poten-
tialits de la reconnaissance des formes, il sut par exemple de suivre la parution incessante des
livres dans ce domaine. Pour ne citer que lui, lditeur World Scientic propose une cinquantaine
C
e

d
o
c
u
m
e
n
t

e
s
t

l
a

p
r
o
p
r
i


e
x
c
l
u
s
i
v
e

d
e

O
l
i
v
i
e
r

B
E
R
N
H
A
R
D

(
o
l
i
v
i
e
r
.
s
i
m
p
l
e
l
i
f
e
@
g
m
a
i
l
.
c
o
m
)

-

1
2

m
a
i

2
0
1
4


1
4
:
2
2
xvi
de titres son catalogue sous la rubrique Applications de la reconnaissance des formes et les
renouvelle raison de prs dune dizaine par an.
Revenons maintenant la fouille de donnes. Les problmes pratiques que peut rsoudre en ce
domaine lapprentissage articiel se posent constamment dans la vie industrielle : distinguer un
bon client dun mauvais, et reconnatre un mauvais procd de fabrication et lamliorer sont deux
exemples frappants parmi dautres. On constate pourtant que lancrage de ce type dapplication
dans la vie industrielle ne date que des annes 1990, avec la naissance dune discipline nouvelle,
cre sous le nom de fouille de donnes (data mining ) ou ECD : extraction de connaissances
partir des donnes (Knowledge Discovery in Databases, KDD). Nous prsentons rapidement
le domaine avant den donner ltat de lart industriel dans le dernier paragraphe de cet avant-
propos.
LECD est ne de la constatation que les trois approches qui permettaient de construire des
modles, savoir les statistiques exploratoires, lanalyse des donnes et lapprentissage symbo-
lique automatique (ASA), souraient de deux dfauts communs : exiger des donnes prsentes
sous une forme trs rigide et faire peu de cas de lintelligibilit des rsultats. De plus, chacune
prsentait un dfaut particulier gnant leur emploi : les statistiques exploratoires et lanalyse des
donnes sadressaient des donnes essentiellement numriques et lASA se limitait aux donnes
symboliques ou discrtises en intervalles de valeurs.
Depuis, ces domaines ont volu et les critiques leur adresser ont chang, mais tel tait ltat
de lart dans les annes 1990. LECD est donc ne dun quadruple eort :
permettre aux utilisateurs de fournir des donnes dans ltat o elles sont : ceci a donn
naissance aux techniques de nettoyage des donnes (ce point sera dvelopp au chapitre 3) ;
utiliser les donnes enregistres sous forme de bases de donnes (en gnral relationnelles) :
ceci a provoqu un large courant de recherche au sein de la communaut des BD intresse
par la cration de modles ;
fournir aux utilisateurs des outils capables de travailler sur des donnes mixtes, numriques
et symboliques ;
construire des outils produisant une connaissance intelligible aux utilisateurs.
Cest ainsi que lECD a pu trouver la large reconnaissance industrielle dont elle jouit actuellement.
Elle a commenc rsoudre les deux problmes industriels principaux de lanalyse des donnes,
ceux qui cotent le plus cher : le fait que le client est souvent imprcis dans la dnition du
problme quil se pose et le fait que les donnes dont il dispose sont souvent de qualit discutable.
Ltude des applications industrielles de lECD montre quil existe une assez forte demande
en outils de cration de modles, autrement dit en apprentissage articiel. Ceci se traduit par
le fait quenviron cent cinquante compagnies se sont spcialises dans ce domaine. Certaines de
ces entreprises existent depuis plusieurs annes et dautres se sont vendues fort cher. Lensemble
revle bien un secteur en progression raisonnable sur plusieurs annes.
Notre estimation est que le march de lECD est occup par 60 % doutils dapprentissage
statistiques et 40 % doutils dapprentissage symbolique. Ces dernires techniques tant moins
enseignes que les premires dans les universits, on constate un hiatus entre lenseignement et
lindustrie. En tous cas, le prsent livre cherche aller dans le sens dun meilleur enseignement
des mthodes de lapprentissage articiel, symbolique comme statistique . s s
C
e

d
o
c
u
m
e
n
t

e
s
t

l
a

p
r
o
p
r
i


e
x
c
l
u
s
i
v
e

d
e

O
l
i
v
i
e
r

B
E
R
N
H
A
R
D

(
o
l
i
v
i
e
r
.
s
i
m
p
l
e
l
i
f
e
@
g
m
a
i
l
.
c
o
m
)

-

1
2

m
a
i

2
0
1
4


1
4
:
2
2
Avant-propos xvii
Les caractristiques de lapprentissage articiel
Certaines des facults que lon peut lier naturellement lapprentissage ont t cites dans
les exemples ci-dessus : entranement, reconnaissance, gnralisation, adaptation, amlioration,
intelligibilit.
Rappellons la dnition classique de lapprentissage en sciences cognitives : capacit am-
liorer les performances au fur et mesure de lexercice dune activit . Cette dnition sapplique
en particulier au comportement dun joueur dchecs au l des parties, o lassimilation de lexp-
rience et la puissance de raisonnement se combinent dans sa progression. Elle est aussi pertinente
pour des tches perceptives : on shabitue un accent, une criture. On accumule des bonnes et
des mauvaises expriences. partir delles, on sait, consciemment ou non, en abstraire ou faire
voluer des rgles pour mieux eectuer la tche.
Nous avons mentionn une autre facette de lapprentissage, souvent entremle la prcdente :
la facult gnraliser rationnellement. Si une exprience accumule sur un certain nombre
dexemples a permis de tirer des rgles de comportement, ces rgles doivent sappliquer aussi
des situations non encore rencontres. Prenons quelquun qui apprend conduire sur une berline
de petite puissance. Ds quil a mrit le permis, la loi lautorise conduire une camionnette
utilitaire ou une voiture de sport. Cest que les rgles quil a apprises et les rexes quil a acquis
sappliquent aussi (plus ou moins directement) ces vhicules.
Quen est-il des machines ? Ds les dbuts de lintelligence articielle, cest--dire en vrit
ds lapparition des ordinateurs, les chercheurs et les ingnieurs se sont poss le problme de
lapprentissage
1
. Lapprentissage articiel dans sa situation actuelle est donc le produit dune
histoire de cinquante ans de recherches et de ralisations. Comme on la vu, un grand nombre de
tches dintelligence articielle et de reconnaissance des formes sappuient ou sont fondes sur
des modules dapprentissage.
On verra dans cet ouvrage comment des programmes peuvent mettre en uvre un apprentis-
sage par amlioration du comportement, en gnral grce des techniques doptimisation. On
verra aussi quil est possible dcrire des programmes qui ralisent un apprentissage par gn-
ralisation : quand on leur donne susamment dexemples et le type du concept apprendre,
ils choisissent un concept qui nest pas seulement valide sur les exemples quils ont vus, mais
qui sera galement valable pour dautres. Cest ainsi quun programme de reconnaissance de la
parole ne peut pas entendre tous les sons avant dlaborer une rgle de dcision. Il est crit
pour extraire une mthode de classication de ceux quon lui a prsents et traiter ensuite du
mieux possible tous les sons quil aura dcoder.
En ralit, dun point de vue informatique, la problmatique nest pas fondamentalement
dirente dans les deux cas. Il sagit dans le premier de faire voluer des rgles de comportement
au l des exemples et dans le second dextraire des rgles partir dun ensemble dexemples
donn a priori. De mme que dans lapprentissage naturel, un panachage de ces deux modes de
fonctionnement est facile concevoir dans lapprentissage articiel.
Il y a une autre facette de lapprentissage que lintelligence articielle explore. Quand un
expert extrait des connaissances dun ensemble de donnes, il apprend une certaine faon de les
rsumer. Mais le rsultat de cet apprentissage ne sera opratoire que si la connaissance extraite
est intelligible, transmissible de lexpert aux utilisateurs, interprtable en clair . Il en est de
1
Alan Turing, dans son article Computing Machine and Intelligence, de la revue Mind en Octobre
1950 (Vol LIX, No 236) avait intitul un paragraphe Learning Machines. On peut consulter un
fac-simil du manuscrit sur le site http ://data.archives.ecs.soton.ac.uk/turing/ et le texte :
http ://www.abelard.org/turpap/turpap.htm
C
e

d
o
c
u
m
e
n
t

e
s
t

l
a

p
r
o
p
r
i


e
x
c
l
u
s
i
v
e

d
e

O
l
i
v
i
e
r

B
E
R
N
H
A
R
D

(
o
l
i
v
i
e
r
.
s
i
m
p
l
e
l
i
f
e
@
g
m
a
i
l
.
c
o
m
)

-

1
2

m
a
i

2
0
1
4


1
4
:
2
2
xviii
mme pour un agent articiel : certaines tches dapprentissage ne se mesurent pas seulement
par leur qualit de prdiction, mais aussi par la manire dont les rsultats sont expliqus. Cet
aspect est reli oprationnellement lintelligence articielle symbolique, aux systmes experts
en particulier : mieux vaut souvent un petit nombre de rgles comprhensibles quun fouillis de
rgles sophistiques, mme avec une performance objective suprieure.
Avant de dcrire plus en dtail les motivations et lorganisation de cet ouvrage, prcisons
travers trois exemples comment sorganise lapprentissage dans des situations concrtes. Cela
nous permettra de donner une typologie des mthodes et de prsenter le plan de cet ouvrage.
Trois exemples dapprentissage
Un exemple ornithologique
Imaginons un tang sur lequel nagent des oies et des cygnes (nous admettons quil ny a pas
dautres oiseaux dans cette rgion). Le brouillard est tomb, quand arrivent deux avimateurs
dont lun est expert et lautre dbutant. Ils naperoivent en arrivant quune partie des animaux,
de manire peu distincte. Pour lexpert, lidentication est cependant facile (il nest pas expert
pour rien). Quant au dbutant, il doit se contenter de mesurer ce qui lui parat caractristique :
le niveau de gris du plumage et la taille de la bte. Pour reprsenter le problme, il va donc
prendre ces deux mesures sur chaque animal quil voit et tablir un graphique : il se place ainsi
dans un certain espace de reprsentation (gure -1.1, gauche).
Fig. -1.1: Le premier graphique de lavimateur dbutant reprsente les oiseaux observs placs
dans son espace de reprsentation. Le second graphique reprsente les mmes oiseaux,
mais il est tiquet par lexpert. La lettre O signie que loiseau est une oie, C quil
est un cygne.
Maintenant, comment lancer une phase dapprentissage ? Il faut que le dbutant se place en
situation dapprenant vis--vis de lexpert, en lui demandant quelle est la dcision correcte pour
chaque oiseau. Une fois que lexpert a agi comme un professeur en donnant toutes les rponses,
notre apprenant possde un graphique enrichi (gure -1.1, droite) qui va lui permettre de
dmarrer lapprentissage proprement dit.
Le problme dapprentissage est maintenant bien pos. Il peut snoncer ainsi : comment
trouver une rgle qui dcide, dans lespace de reprsentation choisi, avec le moins derreurs
possibles, quel oiseau est une oie et quel oiseau est un cygne ? La rgle trouve doit possder
C
e

d
o
c
u
m
e
n
t

e
s
t

l
a

p
r
o
p
r
i


e
x
c
l
u
s
i
v
e

d
e

O
l
i
v
i
e
r

B
E
R
N
H
A
R
D

(
o
l
i
v
i
e
r
.
s
i
m
p
l
e
l
i
f
e
@
g
m
a
i
l
.
c
o
m
)

-

1
2

m
a
i

2
0
1
4


1
4
:
2
2
Avant-propos xix
de bonnes proprits de gnralisation, cest--dire fonctionner au mieux non seulement sur ces
exemples expertiss, mais par la suite sur des oiseaux non encore observs.
Que sera une telle rgle ? Lapprenant peut imaginer de tracer dans le plan de reprsentation
une ligne (courbe ou droite) qui spare les cygnes des oies. partir des exemples connus, il aura
alors induit une loi gnrale : tout oiseau observ dont la reprsentation est situe sous cette
ligne sera un cygne. Ce sera une oie dans le cas contraire. Mais on peut tracer une innit de
telles lignes. Cest ici que lapprenant doit prciser le type des connaissances acqurir, le type
du concept apprendre, en lespce quelle est la forme gnrale de la ligne.
Si lapprenant impose que la ligne soit droite, le but de lapprentissage sera de trouver la
meilleure ligne droite, en optimisant un critre dont il est matre. On remarque dailleurs quau-
cune droite ne spare parfaitement les exemples, mais cest le prix payer pour un concept aussi
simple. La gure -1.2 de gauche reprsente la rgle de dcision que notre dbutant en ornithologie
peut raisonnablement produire. Sil nimpose pas de restriction aussi stricte sur la forme de la
ligne, il pourra obtenir une dcision comme celle de la gure -1.2 droite.
Fig. -1.2: Une rgle de dcision simple et une rgle de dcision complexe pour sparer les oies
des cygnes.
Quand le brouillard se lve, dautres oiseaux deviennent visibles. Lapprenant peut alors vrier
la qualit de la rgle quil a apprise, toujours avec laide de son professeur. Dans lexemple donn
sur la gure -1.3, il est facile de constater que la droite quil a choisie mne une erreur environ
une fois sur cinq
2
. Pas trop mal, pour un dbutant ! Il est assez facile de transposer cet exemple
lcriture dun programme dapprentissage. Remarquons bien quun tel programme napprend pas
tout court mais apprend quelque chose, en loccurence une rgle de dcision sous la forme dune
quation de droite dans le plan. Cet exemple est caractristique de ce que font les programmes
de reconnaissance des formes. Ce type dapprentissage par gnralisation est dune immense
importance mthodologique et pratique.
Un exemple linguistique
Abordons un autre exemple. Supposons que nous disposions dun ensemble de phrases dune
certaine langue. Est-il possible dcrire un programme pour en apprendre automatiquement la
grammaire ? Pour une langue naturelle, le problme est certainement complexe, ne serait-ce que
parce quun trs grand nombre dexemples est ncessaire. Mais on peut essayer de le rsoudre
dans le cas dun langage articiel comme ceux qui servent interroger les bases de donnes ou
2
La ligne courbe donnerait une erreur encore plus grande ; nous reviendrons sur ce phnomne aux chapitres 2
et 3.
C
e

d
o
c
u
m
e
n
t

e
s
t

l
a

p
r
o
p
r
i


e
x
c
l
u
s
i
v
e

d
e

O
l
i
v
i
e
r

B
E
R
N
H
A
R
D

(
o
l
i
v
i
e
r
.
s
i
m
p
l
e
l
i
f
e
@
g
m
a
i
l
.
c
o
m
)

-

1
2

m
a
i

2
0
1
4


1
4
:
2
2
xx
Fig. -1.3: Le test de la rgle simple sur dautres oiseaux.
pour un sous-ensemble bien dlimit de langage naturel. Le langage des changes entre un client
et un employ dagence de voyage en est un exemple.
Dans de tels cas, il est eectivement possible dapprendre une grammaire. Il faut cependant
imposer au programme des restrictions sur le type de la syntaxe que lon cherche. Lespace de
reprsentation est ici lensemble de toutes les squences de mots possibles, dont on ne connat
que certaines, linguistiquement correctes. Mais comment dnir la grammaire apprendre ? On
verra au chapitre 7 que si on oblige cette grammaire tre un automate ni, on peut dmontrer
que tous les automates nis qui sont compatibles avec les exemples forment un ensemble limit et
structur par une relation dordre. Le programme dapprentissage a alors pour tche de chercher
le meilleur automate dans cet ensemble structur, encore une fois au sens dun critre lui
prciser. Remarquons encore que le programme napprend pas tout court, mais apprend quelque
chose : en lespce, une grammaire reprsente par un automate ni.
Un exemple dextraction de connaissances
Une compagnie dassurances cherche lancer un nouveau produit, destin couvrir le risque
de vol dobjets de valeur domicile. Elle veut faire une campagne de publicit cible auprs
dune partie de ses clients. Cette compagnie ne dispose que de peu de produits du mme type et
par consquent sa base de donnes ne comporte quune petite proportion denregistrements o
un client est dj associ une assurance contre le vol domicile. De plus, comme ces clients
possdent dj un produit analogue, ce nest pas vers eux quil faut principalement cibler la
campagne. Mais comment savoir si un client qui na pas encore dassurance de ce type sera
intress par le nouveau produit ?
Une solution est de chercher un prol commun aux clients qui se sont dj montrs intresss
par un produit de ce type pour cibler parmi tous les clients ceux qui ont un prol analogue. Que
sera un tel prol ? Dans la base de donnes, chaque client est dcrit par un certain nombre de
champs, que lon peut supposer binaires. Par exemples : ge infrieur trente ans , possde
une maison , a un ou plusieurs enfants , vit dans une zone risque de vol , etc. Certains
champs peuvent tre non remplis : les clients qui ont seulement une assurance automobile nont
pas t interrogs la constitution de leur dossier sur lexistence dun systme dalarme dans
leur appartement.
Une faon de constituer un prol consiste dcouvrir des associations dans les donnes, cest-
-dire des implications logiques approximatives. Disons par exemple que la plupart des clients
qui possdent dj une assurance contre le vol dobjets de valeur domicile sont plutt gs et
nont en gnral quune voiture, mais haut de gamme. Il semble raisonnable de dmarcher parmi
C
e

d
o
c
u
m
e
n
t

e
s
t

l
a

p
r
o
p
r
i


e
x
c
l
u
s
i
v
e

d
e

O
l
i
v
i
e
r

B
E
R
N
H
A
R
D

(
o
l
i
v
i
e
r
.
s
i
m
p
l
e
l
i
f
e
@
g
m
a
i
l
.
c
o
m
)

-

1
2

m
a
i

2
0
1
4


1
4
:
2
2
Avant-propos xxi
tous les clients ceux qui rpondent au mme prol. Lhypothse est donc que possder une seule
voiture (mais de luxe) et tre dge mr est un prol qui implique sans doute la possession
domicile dobjets de valeur.
Ce type dapprentissage relve de lextraction de connaissances et de lapprentissage non super-
vis. Ce dernier terme signie que le programme dapprentissage se dbrouille sans professeur :
lexpertise est prsente dans les donnes, mais de manire implicite, cest au programme de la
dcouvrir et de lutiliser. La combinatoire sous-jacente ce type dapprentissage est videmment
trs importante.
Organisation et plan de louvrage
Lorganisation de cet ouvrage rete en partie des caractristiques importantes des exemples
prcdents. Nous disons que, pour le premier, lespace de recherche est peu structur. Pourquoi
cela ? Parce quon ne peut pas dire si telle droite est meilleure que telle autre sans les tester
toutes les deux explicitement sur les donnes. Il sagit de ce quon appelle en gnral un problme
doptimisation. En revanche, dans le second exemple, nous avons mentionn une relation dordre
entre deux solutions, intimement lie leur qualit relative. Dans ce cas, une exploration partielle
de lensemble des solutions est possible ; elle sera guide la fois par sa structure algbrique et
par les donnes, exemples et contre-exemples, alors que seules les donnes pouvaient conduire le
programme dans le premier cas. Pour le troisime exemple, il ny a mme pas de guidage dans
lespace de recherche par des exemples et des contre-exemples.
Ces remarques sont cruciales pour la conception des algorithmes. Cest la raison pour laquelle
nous avons choisi dorganiser le prsent ouvrage selon le critre suivant : nous traitons les m-
thodes dapprentissage en commenant par celles pour lesquelles lespace de reprsentation des
concepts apprendre est fortement structur, puis celles pour lesquelles cette hypothse doit
tre aaiblie et enn celles pour lesquelles linformation a priori sur la nature des concepts
apprendre est trs faible ou nulle.
Partie 1 : Les fondements de lapprentissage
Une partie de fondements mthodologiques est dabord ncessaire. Nous y faisons une prsen-
tation gnrale de la problmatique de lapprentissage et nous donnons les dnitions de base
(Chapitre 1 : De lapprentissage naturel lapprentissage articiel). Le chapitre suivant
propose une introduction aux thories de lapprentissage par gnralisation (Chapitre 2 : Pre-
mire approche thorique de linduction). Un approfondissement de ce thme sera men
au chapitre 21. Le troisime chapitre traite de la reprsentation des donnes et des connaissances
et des types dalgorithmes qui sont mis en jeu par la suite (Chapitre 3 : Lenvironnement
mthodologique de lapprentissage).
Partie 2 : Apprentissage par exploration
Nous analysons dans la deuxime partie les mthodes dapprentissage quand les reprsentations
des concepts forment des ensembles fortement structurs. Nous lavons appele lapprentissage
par exploration. On y trouve dabord une mthode trs gnrale (Chapitre 4 : Induction
et relation dordre : lespace des versions), puis un chapitre sur lapprentissage dans la
logique des prdicats (Chapitre 5 : La programmation logique inductive). Le chapitre
suivant complte ce point de vue en montrant comment modier des concepts dans des espaces
C
e

d
o
c
u
m
e
n
t

e
s
t

l
a

p
r
o
p
r
i


e
x
c
l
u
s
i
v
e

d
e

O
l
i
v
i
e
r

B
E
R
N
H
A
R
D

(
o
l
i
v
i
e
r
.
s
i
m
p
l
e
l
i
f
e
@
g
m
a
i
l
.
c
o
m
)

-

1
2

m
a
i

2
0
1
4


1
4
:
2
2
xxii
structurs ; il aborde aussi lapprentissage par analogie (Chapitre 6 : Transfert de connais-
sances et apprentissage par analogie). Le septime chapitre (Chapitre 7 : Linfrence
grammaticale) traite de lapprentissage des automates et des grammaires. Enn les mthodes
dapprentissage par volution simule, fondes sur lexploration par algorithmes gntiques, sont
exposes (Chapitre 8 : Apprentissage par volution simule).
Partie 3 : Apprentissage par optimisation et interpolation
Dans la troisime partie, les connaissances sur la structure des espaces sont plus faibles. En fait,
il nexiste plus quune mesure de qualit des hypothses induites par le critre inductif et une dis-
tance dans lespace des hypothse permettant de mettre en uvre des techniques doptimisation
par gradient. Il sagit de lapprentissage par optimisation. On y trouve le problme de lappren-
tissage de droites, soit pour la rgression, soit pour la classication, mentionn ci-dessus, et leur
gnralisation des hyperplans (Chapitre 9 : Lapprentissage de modles linaires). Une
extension dsormais classique mne aux rseaux connexionnistes multicouche (Chapitre 10 :
Lapprentissage de rseaux connexionnistes). Le fonctionnement et lapprentissage des r-
seaux de probabilits conditionnelles est ensuite abord (Chapitre 11 : Lapprentissage de
rseaux baysiens). Le chapitre suivant traite comme le chapitre 7 de lapprentissage de cer-
taines machines produire des squences, mais sous un aspect probabiliste (Chapitre 12 :
Lapprentissage de modles de Markov cachs).
Pour nir cette partie, nous abordons dans le chapitre suivant lapprentissage des arbres de
dcision (Chapitre 13 : Apprentissage par infrence darbres).
Partie 4 : Apprentissage par approximation
La partie suivante, intitule lapprentissage par approximation et interpolation, traite des m-
thodes les moins informes, celles o lespace des concepts cherchs possde le moins de proprits.
Elle commence par un chapitre qui expose un ensemble de mthodes rcentes qui permettent de
prendre des dcisions non linaires tout en sappuyant sur des mthodes linaires (Chapitre 14 :
Mthodes noyaux).
Nous dcrivons ensuite les techniques dapprentissage de rgles de classication par des m-
thodes statistiques qui cherchent approcher la rgle de dcision baysienne. Ce chapitre in-
clut aussi certains aspects de lapprentissage par analogie, en particulier la mthodes des plus
proches voisins (Chapitre 15 : Lapprentissage baysien et son approximation ). Le cha-
pitre suivant sintresse un apprentissage numrique de type punition ou rcompense ,
typiquement applicable lapprentissage de son comportement par un robot (Chapitre 16 :
Lapprentissage de rexes par renforcement).
Partie 5 : Au-del de lapprentissage supervis.
La partie suivante, intitule au-del de lapprentissage supervis a pour ambition de regrouper
un ensemble de techniques autour ou au-dessus de lapprentissage supervis. Le Chapitre 17 :
Apprentissage de combinaison dexperts sintresse la combinaison de plusieurs mthodes
de classication pour quelles sentraident sur un problme donn. La mthode du boosting y est
en particulier traite. Dans le chapitre suivant, on sintresse aux donnes non tiquetes par un
expert : il sagit de les organiser et dy dcouvrir des rgularits et des associations ( Chapitre
18 : La classication non supervise et la fouille de donnes). Ensuite, nous dveloppons
le cas o seulement une partie des exemples est supervise : il sagit de tirer parti des exemples
non superviss pour aider la classication (Chapitre 19 : Lapprentissage semi-supervis).
C
e

d
o
c
u
m
e
n
t

e
s
t

l
a

p
r
o
p
r
i


e
x
c
l
u
s
i
v
e

d
e

O
l
i
v
i
e
r

B
E
R
N
H
A
R
D

(
o
l
i
v
i
e
r
.
s
i
m
p
l
e
l
i
f
e
@
g
m
a
i
l
.
c
o
m
)

-

1
2

m
a
i

2
0
1
4


1
4
:
2
2
Avant-propos xxiii
Le chapitre suivant dresse un panorama non exhaustif mais vocateur de nouvelles directions
de recherche visant dpasser les ides classiques de lapprentissage articiel (Chapitre 20 :
Vers de nouvelles tches et de nouvelles questions). Pour terminer, le chapitre suivant
revient sur les aspects thriques de lapprentissage abords au Chapitre 2 et explore la notion
dinduction sous ses aspects mathmatiques, avant dvoquer dautres cadres possibles dappren-
tissage (Chapitre 21 : Analyse de linduction : approfondissements et ouvertures).
Ce livre se termine par des annexes, qui dtaillent des points techniques ; celles qui traitent de
lalgorithme estimation-maximisation et de loptimisation par gradient sont sans doute
les plus rfrences dans les chapitres prcdents.
Finalement, une bibliographie fournit les ouvrages fondamentaux et les articles plus pointus
cits dans le texte.
Guide de lecture
Aprs plus de quarante ans de recherches et de ralisations en apprentissage articiel, il est
dicile pour un non initi de savoir comment aborder ce domaine et comment sy orienter. Nos
collaborations avec des utilisateurs des techniques dapprentissage et avec des chercheurs dautres
disciplines, comme notre activit denseignement et dencadrement avec nos tudiants nous ont
amplement montr lintrt dun ouvrage dintroduction cohrent, articul autour de grandes
lignes directrices.
Il existe dj des livres denseignement et de recherche sur pratiquement chaque sujet abord
dans les chapitres de ce livre et nous ne manquons pas dy faire rfrence. Mais si la somme
des connaissances qui sy trouvent est au total bien suprieure celle contenue dans notre livre,
leur lecture conduit des contradictions dans les notations, des approfondissements thoriques
de niveau trs variable, des analyses direntes du mme problme et des prsentations
redondantes voire contradictoires des mmes sujets.
Il nous a donc paru que la discipline de lapprentissage articiel pouvait tre prsente de
manire unie, dans un but dabord didactique. Ce souci commande le fond comme la forme de
cet ouvrage.
Compte tenu de la varit technique des sujets abords et de lintrt personnel de chaque
lecteur (autodidacte, enseignant ou tudiant), des parcours de lecture dirents peuvent tre
suivis.
Nous proposons en particulier les itinraires suivants, mais ce nest pas exclusif :
1. Pour une vue densemble sur lapprentissage articiel, un rapide aperu des mthodes et
un point de vue sur leurs applications : chapitres 1, 2 (paragraphes 2.1 et 2.2), 3 et 4.
2. Pour un point de vue approfondi sur les principes mthodologiques, en particulier
statistiques de lapprentissage : chapitres 1, 2, 3, 8, 9, 13, 14, 15, 17, 18, 19, 20 et 21.
3. Pour comprendre lapprentissage de phnomnes essentiellement numriques et pour les
applications la reconnaissance des formes : chapitres 1, 2 (paragraphes 2.1 et 2.2), 3,
9, 10, 12, 13, 15, 16, 17 et 18.
4. Pour acqurir un point de vue sur lapprentissage dans les systmes experts et le trai-
tement des donnes symboliques : chapitres 1, 3, 4, 5, 6, 7, 8, 11, 15 et ventuellement
16.
5. Pour qui veut raliser lapprentissage de concepts partir de donnes squentielles
(signaux, textes, etc.) : chapitres 1, 3, 5, 7 et 12.
C
e

d
o
c
u
m
e
n
t

e
s
t

l
a

p
r
o
p
r
i


e
x
c
l
u
s
i
v
e

d
e

O
l
i
v
i
e
r

B
E
R
N
H
A
R
D

(
o
l
i
v
i
e
r
.
s
i
m
p
l
e
l
i
f
e
@
g
m
a
i
l
.
c
o
m
)

-

1
2

m
a
i

2
0
1
4


1
4
:
2
2
xxiv
6. Pour qui sintresse plus la robotique, lapprentissage de comportement : chapitres 1,
3, 7, 11, 12, 15 et 16.
7. Pour qui sintresse la fouille de donnes, lextraction de connaissances : chapitres
9, 10, 17, 11, 15 et 18. 9, 10, 11, 13, 15 et 18.
C
e

d
o
c
u
m
e
n
t

e
s
t

l
a

p
r
o
p
r
i


e
x
c
l
u
s
i
v
e

d
e

O
l
i
v
i
e
r

B
E
R
N
H
A
R
D

(
o
l
i
v
i
e
r
.
s
i
m
p
l
e
l
i
f
e
@
g
m
a
i
l
.
c
o
m
)

-

1
2

m
a
i

2
0
1
4


1
4
:
2
2
Glossaire francais-anglais
3
Apprenant Learner
Apprentissage actif Active learning
Apprentissage en ligne On-line learning
Apprentissage hors ligne Batch learning
Apprentissage par examen de preuve (EBL) Explanation-based learning
Apprentissage quand T , = H Agnostic learning
Apprentissage de tri Learning to rank
Astuce de reprsentation unique Single representation trick
Attribut Feature
Biais de reprsentation Reprsentation bias
Catgorisation Clustering
Classes dsquilibres Imbalanced data sets
Connaissance a priori Domain theory (sometimes hints)
chantillon dapprentissage Learning set
chantillon de test Test set
chantillon de validation Validation set
Exemple critique Support vector or near-miss
Fonction de cot Loss function
Fonction cible Target function
Fonction de performance Fitness function
Hypothse correcte (par rapport des donnes) Consistent hypothesis
Mthodes noyaux Kernel methods
Optimisation de performance Speed-up learning
Perceptron multi-couches (PMC) Multi-layer perceptron (MLP)
Point aberrant Outlier
Principe de longueur minimale de description Minimum description length principle
Programmation logique inductive (PLI) Inductive logic programing (ILP)
Raisonnement partir de cas Case-based reasoning
Reconnaissance des formes Pattern recognition
Rseaux baysiens Bayes nets or graphical models
Rseaux connexionnistes Neural networks
Risque empirique Empirical risk
Risque rel Expected risk or true risk
Sparateurs vaste marge Support vector machines
Suradaptation ou surapprentissage Over-tting
Systme de classication Classier
3
Les termes importants sont traduits en anglais au l du texte.
C
e

d
o
c
u
m
e
n
t

e
s
t

l
a

p
r
o
p
r
i


e
x
c
l
u
s
i
v
e

d
e

O
l
i
v
i
e
r

B
E
R
N
H
A
R
D

(
o
l
i
v
i
e
r
.
s
i
m
p
l
e
l
i
f
e
@
g
m
a
i
l
.
c
o
m
)

-

1
2

m
a
i

2
0
1
4


1
4
:
2
2
C
e

d
o
c
u
m
e
n
t

e
s
t

l
a

p
r
o
p
r
i


e
x
c
l
u
s
i
v
e

d
e

O
l
i
v
i
e
r

B
E
R
N
H
A
R
D

(
o
l
i
v
i
e
r
.
s
i
m
p
l
e
l
i
f
e
@
g
m
a
i
l
.
c
o
m
)

-

1
2

m
a
i

2
0
1
4


1
4
:
2
2
Notations
Notations gnrales
#. . . Nombre de . . .
P Une probabilit
p Une densit de probabilits
E[x] Lesprance de la variable x
N Lensemble des entiers naturels
IR
d
Lespace euclidien de dimension d
B
d
= 0, 1
d
Lespace boolen de dimension d
O() Lordre de grandeur maximal de complexit dun algorithme
x =
_
_
_
x
1
.
.
.
x
d
_
_
_
Un vecteur
x

= (x
1
, . . . , x
d
) Un vecteur transpos
x = (x
1
, . . . , x
d
)

Un vecteur
xy) = x

y Le produit scalaire des vecteurs x et y


[[ x [[ La norme du vecteur x
M
1
La matrice inverse dune matrice carre M
M

La matrice transpose dune matrice M


M
+
La matrice pseudo-inverse dune matrice M.
Par dnition, M
+
= M

(MM

)
1
(x, y) La distance euclidienne entre deux vecteurs x et y de IR
d

x
f(x, y) La drive partielle par rapport x
de la fonction f des deux variables x et y

A
J(A, B) Le vecteur driv par rapport au vecteur A
de la fonctionnelle J des deux vecteurs A et B
C
e

d
o
c
u
m
e
n
t

e
s
t

l
a

p
r
o
p
r
i


e
x
c
l
u
s
i
v
e

d
e

O
l
i
v
i
e
r

B
E
R
N
H
A
R
D

(
o
l
i
v
i
e
r
.
s
i
m
p
l
e
l
i
f
e
@
g
m
a
i
l
.
c
o
m
)

-

1
2

m
a
i

2
0
1
4


1
4
:
2
2
xxviii
Les lments en jeu dans lapprentissage
A Lespace de reprsentation des objets (des formes)
Lespace de sortie
F Espace de redescription ou Feature space
o Lchantillon dapprentissage (un ensemble ou une suite dexemples)
o
+
Les exemples positifs
o

Les exemples ngatifs


/ Lchantillon dapprentissage quand on divise o en /, T et 1
T Lchantillon de test
1 Lchantillon de validation
m La taille dun chantillon dapprentissage (le nombre dexemples)
z
i
= (x
i
, u
i
) Un exemple (lment dun chantillon dapprentissage)
x
i
La description dun objet dans un espace de reprsentation
x
ij
La valeur de la coordonne j de la description de lobjet x
i
dans IR
d
Les principes de lapprentissage inductif
u
i
La supervision, ou sortie dsire, dun exemple
f : A La fonction cible (celle que lon cherche apprendre)
H Lespace des hypothses dapprentissage
h H Une hypothse produite par un apprenant (un algorithme dapprentissage)
y = h(x) La prdiction faite par lhypothse h sur la description x dun exemple
(f, h) La perte (ou distance) entre la fonction cible et une hypothse
R
Rel
(h) Le risque rel associ lhypothse h
R
Emp
(h) Le risque empirique associ lhypothse h
R

Le risque (optimal) de la rgle de dcision de Bayes


h

Lhypothse de H qui minimise le risque rel


h

S
Lhypothse de H qui minimise le risque empirique sur o

S
Lhypothse trouve par lalgorithme dapprentissage ayant o en entre
et cherchant h

S
dans H
Lapprentissage dune rgle de classication
( Lensemble des classes
C Le nombre de classes

i
Une classe de (
La logique
a b a ET b, quand a et b sont des valeurs binaires
a b a OU b
a NON a
a b a implique b
C
e

d
o
c
u
m
e
n
t

e
s
t

l
a

p
r
o
p
r
i


e
x
c
l
u
s
i
v
e

d
e

O
l
i
v
i
e
r

B
E
R
N
H
A
R
D

(
o
l
i
v
i
e
r
.
s
i
m
p
l
e
l
i
f
e
@
g
m
a
i
l
.
c
o
m
)

-

1
2

m
a
i

2
0
1
4


1
4
:
2
2
Premire partie
Les fondements de lapprentissage
C
e

d
o
c
u
m
e
n
t

e
s
t

l
a

p
r
o
p
r
i


e
x
c
l
u
s
i
v
e

d
e

O
l
i
v
i
e
r

B
E
R
N
H
A
R
D

(
o
l
i
v
i
e
r
.
s
i
m
p
l
e
l
i
f
e
@
g
m
a
i
l
.
c
o
m
)

-

1
2

m
a
i

2
0
1
4


1
4
:
2
2
C
e

d
o
c
u
m
e
n
t

e
s
t

l
a

p
r
o
p
r
i


e
x
c
l
u
s
i
v
e

d
e

O
l
i
v
i
e
r

B
E
R
N
H
A
R
D

(
o
l
i
v
i
e
r
.
s
i
m
p
l
e
l
i
f
e
@
g
m
a
i
l
.
c
o
m
)

-

1
2

m
a
i

2
0
1
4


1
4
:
2
2
Chapitre 1
De lapprentissage naturel ` a
lapprentissage articiel
Sommaire
1 Lapprentissage articiel . . . . . . . . . . . . . . . . . . . . . . . . . . 4
2 Deux exemples : apprendre jouer, apprendre lire . . . . . . . . . 6
2.1 Apprendre jouer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
2.2 Apprendre reconnatre des caractres manuscrits . . . . . . . . . . . . 7
3 Deux approches : la cyberntique et les sciences cognitives . . . . . 10
3.1 La cyberntique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
3.2 Le pari du cognitivisme . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
4 Les concepts de base de lapprentissage . . . . . . . . . . . . . . . . . 14
4.1 Un scnario de base pour linduction . . . . . . . . . . . . . . . . . . . . 14
4.2 Quelques notions cls . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
4.2.1 Le critre de succs . . . . . . . . . . . . . . . . . . . . . . . . 14
4.2.2 Notion de protocole dapprentissage . . . . . . . . . . . . . . . 15
4.2.3 Notion de tche dapprentissage . . . . . . . . . . . . . . . . . 16
4.3 Linduction considre comme estimation de fonction . . . . . . . . . . . 19
5 Linduction comme un jeu entre espaces . . . . . . . . . . . . . . . . 22
5.1 Lapprentissage est impossible. . . . . . . . . . . . . . . . . . . . . . . . . 23
5.2 . . . sans limiter lespace des hypothses . . . . . . . . . . . . . . . . . . . 25
5.3 Lexploration de lespace des hypothses . . . . . . . . . . . . . . . . . . 27
6 Retour sur lorganisation de louvrage . . . . . . . . . . . . . . . . . . 29
C
e

d
o
c
u
m
e
n
t

e
s
t

l
a

p
r
o
p
r
i


e
x
c
l
u
s
i
v
e

d
e

O
l
i
v
i
e
r

B
E
R
N
H
A
R
D

(
o
l
i
v
i
e
r
.
s
i
m
p
l
e
l
i
f
e
@
g
m
a
i
l
.
c
o
m
)

-

1
2

m
a
i

2
0
1
4


1
4
:
2
2
4 PARTIE 1 : Les fondements de lapprentissage
1. Lapprentissage articiel
Mme les machines ont besoin dapprendre.
Depuis plus dun demi-sicle, les chercheurs en intelligence articielle travaillent programmer
des machines capables deectuer des tches qui requirent lexercice de lintelligence. Nous cite-
rons laide la dcision, par exemple laide au diagnostic mdical ; la reconnaissance de formes,
par exemple la reconnaissance de la parole ou la vision articielle ; le contrle de processus, par
exemple la conduite de procds industriels ; la prdiction, par exemple la prdiction de consom-
mation lectrique ou la prdiction de cours boursiers ; la conduite de robots, y compris dquipes
de robots comme dans la RoboCup
1
; lexploration de grandes bases de donnes (on dit aussi la
fouille de donnes), tant il est vrai que si nous croulons sous les informations, il nous manque
souvent la connaissance. Chacune de ces tches et bien dautres ont stimul linventivit des
chercheurs et donn lieu de nombreuses ralisations impressionnantes. Cependant, program-
mer des machines capables de sadapter toutes les situations et ventuellement dvoluer en
fonction de nouvelles contraintes est dicile. Lenjeu est de contourner cette dicult en dotant
la machine de capacits dapprentissage lui permettant de tirer parti de son exprience. Cest
pourquoi, paralllement aux recherches sur le raisonnement automatique, se sont dveloppes
des recherches sur lapprentissage par les machines. Avant daborder ce type dapprentissage,
examinons rapidement certaines activits dapprentissage par des organismes naturels.
Lapprentissage naturel
Ds sa naissance, un enfant apprend reconnatre lodeur de sa mre, puis sa voix et plus
largement lambiance du lieu o il vit. Ensuite, il apprend coordonner ses perceptions, comme sa
vue ou son toucher, avec ses mouvements. Par des essais gratiants ou pnalisants, il apprend plus
tard marcher, manifestant une grande capacit intgrer des signaux dirents : la vue, le sens
de lquilibre, la proprioception, la coordination motrice. Il apprend pendant le mme temps
segmenter et catgoriser des sons et les associer des signications. Il apprend aussi la structure
de sa langue maternelle et acquiert simultanment un rpertoire organis de connaissances sur
le monde qui lenvironne.
Il va aussi apprendre lire. Il sait dj faire la distinction entre texte et non texte, parce quil
a souvent manipul des livres illustrs o il a observ lassociation des images et des symboles de
lcriture. Il apprend dabord par cur des mots associs des sons et leur signication. Plus
tard, il extrait des rgles permettant de distinguer des groupements syllabiques lintrieur des
mots et de les prononcer. Cet apprentissage est long et progressif, et demande des rptitions et
des squences dexercices bien choisies. Il est en partie supervis par des adultes qui prparent
les tches dapprentissage, accompagnent son cheminement et sanctionnent, par rcompense ou
punition, les rsultats observs.
Au cours des annes qui suivent, lenfant apprend par tapes matriser des concepts et des
oprations de plus en plus abstraits. Finalement, cette fois sans professeur pour lescorter, il
dcouvrira et noncera des points de vue personnels, des thories sur les phnomnes sociaux,
sportifs, conomiques, naturels et autres.
Les modalits de lapprentissage naturel sont donc multiples : apprentissage par cur, par ins-
truction, par gnralisation, par dcouverte, apprentissage impliquant des catgorisations voire
1
La RoboCup est une comptition annuelle organise depuis 1997 entre quipes de robots footballeurs. Il existe
plusieurs types de comptitions mettant en jeu soit des agents simuls, soit des robots rels de tailles diverses.
Pour plus dinformation, voir par exemple http://www.robocup.org/.
C
e

d
o
c
u
m
e
n
t

e
s
t

l
a

p
r
o
p
r
i


e
x
c
l
u
s
i
v
e

d
e

O
l
i
v
i
e
r

B
E
R
N
H
A
R
D

(
o
l
i
v
i
e
r
.
s
i
m
p
l
e
l
i
f
e
@
g
m
a
i
l
.
c
o
m
)

-

1
2

m
a
i

2
0
1
4


1
4
:
2
2
Chapitre 1 De lapprentissage naturel lapprentissage articiel 5
la formation de thories, apprentissage plus ou moins supervis ou autonome, etc. Ces diverses
formes dapprentissage auront-elles une contrepartie lorsquil sagira dapprentissage par des ma-
chines ? Et comment envisagera-t-on lapprentissage naturel aprs cette tude ?
Apprentissage articiel ou apprentissage automatique ?
Au fait, comment appeler cette discipline ? Un terme courant est apprentissage automatique.
Cependant, bien que consacr par lhabitude, il ne nous semble pas compltement satisfaisant.
Il sous-entend en particulier une sorte dactivit inconsciente de bas niveau, qui sexcute en
tche de fond comme disent les informaticiens pour parler dun processus se droulant au second
plan sans perturber la tche principale courante. Si certains types dapprentissages, comme lha-
bituation, voire mme certaines formes dassociations (comme chez le fameux chien de Pavlov),
peuvent correspondre ce schma, celui-ci est cependant beaucoup trop restrictif.
On peut aussi penser utiliser les expressions apprentissage machine pour traduire directement
lexpression amricaine machine learning ou apprentissage algorithmique pour insister sur les
aspects oprationnels.
Il nous semble que la notion dapprentissage articiel apporte quelque chose de plus profond
que la simple ide d automatique . Il est vrai que le mot articiel voque aussi quelque chose
de factice, voire de frelat et que nous savons combien le terme dintelligence articielle a souert
de ces connotations ; mais nous nous plaons ici sous le patronage de Herbert Simon (1916-2001),
prix Nobel dconomie et lun des fondateurs de lintelligence articielle, qui a bien su montrer
la marque et lintrt de la notion de sciences de larticiel [Sim81].
Sciences naturelles et sciences de larticiel
Le projet des sciences naturelles est de comprendre les phnomnes en formulant des lois sous-
jacentes, de prfrence simples. Lambition fondamentale des sciences de larticiel nest pas
dirente mais, par le but poursuivi et les moyens utiliss, elles sen cartent cependant su-
samment pour se dnir part entire. Ainsi, le but des sciences de larticiel, en particulier de
lapprentissage articiel, est bien de comprendre les phnomnes de la nature. Mais cette compr-
hension doit passer par la construction de modles qui (naturellement pour des informaticiens)
doivent tre capables de raliser des simulations.
Selon le point de vue des sciences de larticiel, comprendre implique la capacit de fabriquer
pour reproduire. Connatre, dans cette optique, cest concevoir un modle opratoire du monde
pour le soumettre des manipulations rgles. Connatre, cest donc prendre de la distance par
rapport lobjet et se donner les moyens de lapprocher dans son comportement, den faire varier
des paramtres et dnoncer des conditions de ralisabilit.
Les sciences de larticiel prsentent deux aspects qui les distinguent des sciences naturelles.
Dune part, elles conoivent la connaissance et la comprhension comme une capacit de si-
mulation, ce qui implique la possibilit dexplorer eectivement les consquences de postulats
initiaux.
Dautre part, ce sont des sciences qui cherchent des normes permettant de dnir ce quest
un raisonnement valide, un apprentissage correct et les conditions ncessaires pour quil
puisse avoir lieu. En ceci, les sciences de larticiel sont aussi des sciences normatives, par
opposition laspect principalement descriptif des sciences naturelles.
Cest dans ce double sens que nous dsirons prsenter lapprentissage articiel dans cet ouvrage.
Certes, il sera bien question dapprentissage automatisable, donc dapprentissage automatique
et dun apprentissage ralisable sur des machines, donc dapprentissage machine, mais lun des
soucis sous-jacents sera de rechercher les conditions de ralisabilit des modles de lapprentissage,
C
e

d
o
c
u
m
e
n
t

e
s
t

l
a

p
r
o
p
r
i


e
x
c
l
u
s
i
v
e

d
e

O
l
i
v
i
e
r

B
E
R
N
H
A
R
D

(
o
l
i
v
i
e
r
.
s
i
m
p
l
e
l
i
f
e
@
g
m
a
i
l
.
c
o
m
)

-

1
2

m
a
i

2
0
1
4


1
4
:
2
2
6 PARTIE 1 : Les fondements de lapprentissage
cest--dire les lois profondes qui rglent la possibilit dapprendre. Ainsi, lapprentissage articiel
est la science qui cherche et tablit des liens entre les principes gnraux dapprenabilit et les
mthodes et outils permettant de raliser un apprentissage dans un contexte particulier. La
premire partie de louvrage est davantage tourne vers lexpos des principes tandis que le reste
prsente des techniques justies en particulier la lumire des principes fondamentaux. Le
thoricien et lingnieur tablissent ainsi un dialogue. Nous avons cherch conserver cet esprit
dans lorganisation de louvrage.
2. Deux exemples : apprendre jouer, apprendre lire
Avant de xer un cadre mthodologique et de prsenter les concepts de base sur lesquels
sorganise cet ouvrage, examinons brivement deux tches dapprentissage, simples en apparence,
pour faire merger les multiples questions sous-jacentes.
2.1 Apprendre jouer
Prenons dabord le cas dun jeu deux adversaires sans hasard et sans information cache. Le
jeu dchecs, le jeu de go ou le morpion en sont les exemples les plus immdiats. Supposons que
lon veuille faire apprendre une machine jouer lun de ces jeux. Comment sy prendre ?
Il faut dabord dnir exactement le but poursuivi. Sagit-il de faire apprendre les rgles du
jeu la machine partir dobservations de parties joues ? Sagit-il de lui faire apprendre
bien jouer ? Sagit-il de lui faire dcouvrir les variables pertinentes pour prdire comment jouera
ladversaire (son niveau, son style de jeu) ? Sagit-il de prdire le gagnant, ou bien le nombre de
coups restant jouer ? La liste est dej varie, elle nest pas exhaustive.
Prenons maintenant la situation du jeu dchecs schmatise dans la gure 1.1. Imaginons que
ce soit la machine (pices blanches) de choisir son prochain coup. En supposant quelle connaisse
les rgles du jeu, elle a le choix entre plusieurs dizaines de coups lgaux. Lequel est le meilleur ?
Pour simplier, choisissons comme critre de succs une grandeur lie simplement au gain de la
partie, en ignorant la dure de jeu, le nombre de coups restant, etc. Comment dterminer le coup
jouer ? Lapproche classique en intelligence articielle utilise lalgorithme MinMax [RN10] fond
sur la notion de fonction dvaluation. En pratique, dans cet algorithme, la machine eectue une
recherche en avant dans larbre des coups possibles, aussi loin que le temps et les ressources de
calcul le lui permettent (aux checs, une dizaine de demi-coups environ). Ensuite, elle value
chaque position atteinte en fonction de certains critres (par exemple : loccupation du centre,
lavantage matriel, etc.), et nalement joue le coup lui permettant de maximiser le gain que
ladversaire est oblig de lui concder. Dans ce cadre, lapprentissage consiste naturellement
apprendre cette fonction dvaluation, car cest elle qui dtermine la qualit des dcisions.
Mais dautres possibilits sont envisageables. Par exemple, la machine pourrait simplement
apprendre par cur une table dassociation entre une position et le coup jouer, une look-up
table gante. videmment, dans le cas des jeux intressants, ceux qui comportent un trs grand
espace de situations possibles, cela semble absurde. Nous verrons cependant au chapitre 16, ddi
lapprentissage par renforcement, comment rendre cette ide possible. Dautre part, il est clair
que les joueurs humains prennent des dcisions motives par des considrations de stratgie et de
tactique : ils oprent rarement par une exploration exhaustive avec mise en uvre dune fonction
dvaluation simple . Une simulation plus dle de lapprentissage naturel pourrait chercher
identier tactiques et stratgies, et les apprendre directement.
C
e

d
o
c
u
m
e
n
t

e
s
t

l
a

p
r
o
p
r
i


e
x
c
l
u
s
i
v
e

d
e

O
l
i
v
i
e
r

B
E
R
N
H
A
R
D

(
o
l
i
v
i
e
r
.
s
i
m
p
l
e
l
i
f
e
@
g
m
a
i
l
.
c
o
m
)

-

1
2

m
a
i

2
0
1
4


1
4
:
2
2
Chapitre 1 De lapprentissage naturel lapprentissage articiel 7
Fig. 1.1: Une position dans une partie dchecs.
Un problme qui na pas encore t abord est celui du choix des donnes dapprentissage :
quelles sont les informations dont le systme apprenant va bncier pour apprendre ? Dans le
cas du jeu dchecs, il peut sagir dobservations de parties. Doit-on lui proposer des parties
joues par des champions, ou des parties mdiocres feraient-elles aussi bien laaire, ou peut-
tre des parties joues par lapprenant contre lui-mme ? Des exemples de coups faibles sont-ils
favorables, voire indispensables, lapprentissage ? On peut aussi penser proter de corpus de
parties commentes par un professeur, comme dans la littrature chiquenne. Dans le cas de
lapprentissage des rgles du jeu, des exemples de coups illgaux seraient-ils favorables, voire
indispensables, lapprentissage ?
Il se pose aussi la question du squencement des leons : y a t-il un ordre de prsentation
plus favorable quun autre ? Doit-on tenir compte dune vitesse dassimilation, comme chez les
apprenants humains, lie aux capacits de calcul et de mmoire de lapprenant ?
Autant de questions qui ressortent tant dune analyse thorique sur les conditions de possibilit
de lapprentissage que dune tude exprimentale.
Finalement on nvitera pas le problme de la validation de lapprentissage ralis. Comment
mesurer la performance de lapprenant aprs lapprentissage ? En comptant la proportion de
parties gagnes contre un chantillon reprsentatif de joueurs ? En incluant le temps de rexion ?
En demandant des explications des dcisions prises ? Et dans ce cas, qui jugera de leur validit ?
Mme dans le contexte familier et apparemment simple de lapprentissage dun jeu, on voit
donc que lensemble des questions ouvertes est vaste.
2.2 Apprendre reconnatre des caractres manuscrits
Maintenant, supposons que nous voulions entraner une machine reconnatre des caractres
manuscrits tels quils apparassent dans ladresse gurant sur une enveloppe, cest--dire en gn-
ral assez bien tracs et spars les uns des autres. La gure 1.2 donne un exemple de caractres
tels quils peuvent se prsenter dans la ralit. Comment une machine peut-elle apprendre
identier ces formes ?
C
e

d
o
c
u
m
e
n
t

e
s
t

l
a

p
r
o
p
r
i


e
x
c
l
u
s
i
v
e

d
e

O
l
i
v
i
e
r

B
E
R
N
H
A
R
D

(
o
l
i
v
i
e
r
.
s
i
m
p
l
e
l
i
f
e
@
g
m
a
i
l
.
c
o
m
)

-

1
2

m
a
i

2
0
1
4


1
4
:
2
2
8 PARTIE 1 : Les fondements de lapprentissage
Le codage
La dicult de base est que la varit des formes rencontres est innie. Il ne peut donc tre
question dapprentissage par cur. Il faut par consquent, partir dun chantillon dexemples
bien choisis (comment ?) tre capable de gnraliser. De manire informelle, nous dnissons
un exemple comme lassociation dune forme et dune tiquette. Cest ainsi que la forme de la
gure 1.2 est associe ltiquette a (lettre de la catgorie a). Nous avons alors aaire ce
quon appelle de lapprentissage supervis
2
.
Ici se pose la premire question : comment coder les formes ? Par une matrice binaire transcri-
vant lclairement des pixels de la rtine de la camra ? Dans cette hypothse, chaque caractre
serait dni par une matrice, disons de taille 16 32
3
. Avant de sintresser lexploitation de
telles reprsentations, il faut rsoudre un problme dhomognit. Les caractres seront-ils cen-
trs sur la rtine ? Seront-ils tous la mme chelle ? Auront-ils une orientation impose ? On voit
que mme dans le cas dun codage trs primitif des formes, un prtraitement est indispensable.
Fig. 1.2: Une tche de reconnaissance de caractres manuscrits.
Pourquoi ne pas demble coder les formes de manire plus pertinente, en extrayant des carac-
tristiques essentielles ou invariantes ? Par exemple la prsence de boucles, ou bien la hauteur ou
la largeur ou le nombre de points de retour. Il est probable que lapprentissage subsquent sen
trouverait facilit. Mais... qui a appris ce codage ? Et comment ?
Alors que la description des formes comme des projections sur la rtine de la camra est
immdiate, une redescription adapte lapprentissage implique des oprations non triviales et
surtout des connaissances a priori sur le mcanisme de cet apprentissage. Il sagit dliminer les
descripteurs non pertinents, par exemple la couleur de lencre ou celle du fond de limage, de
recoder pour tenir compte des invariances par translation ou par changement dchelle, voire
dintroduire de nouveaux descripteurs. Certains de ces nouveaux descripteurs, non prsents dans
la description brute des donnes, nimpliquent pas nssairement des attributs complexes. Ainsi,
pour distinguer un a dun b, il sut en gnral de considrer le rapport de leur hauteur leur
largeur. Mais, le plus souvent, il faudra tre capable dinventer des descripteurs sophistiqus. Une
autre technique consiste calculer une grande collection de descripteurs partir des descripteurs
primitifs dont lapprentissage essaiera de tirer le meilleur parti.
2
Par contraste avec lapprentissage non supervis dans lequel les tiquettes ne sont pas fournies.
3
Notons quaprs ce codage le nombre de formes possible nest plus stricto sensu inni. Si chaque pixel est noir
ou blanc, le nombre de formes direntes est cependant de 2
1632
10
30
.
C
e

d
o
c
u
m
e
n
t

e
s
t

l
a

p
r
o
p
r
i


e
x
c
l
u
s
i
v
e

d
e

O
l
i
v
i
e
r

B
E
R
N
H
A
R
D

(
o
l
i
v
i
e
r
.
s
i
m
p
l
e
l
i
f
e
@
g
m
a
i
l
.
c
o
m
)

-

1
2

m
a
i

2
0
1
4


1
4
:
2
2
Chapitre 1 De lapprentissage naturel lapprentissage articiel 9
La mesure de performance
Retournons maintenant au problme de la dnition du critre de performance. Sagit-il sim-
plement du nombre derreurs de classication aprs apprentissage, que lon peut ramener une
probabilit de mauvaise classication? Sagit-il dune mesure de risque plus labore, prenant en
compte le fait quil vaut mieux se tromper sur une lettre que sur un chire (le code postal est plus
dicile reconstruire que le nom de la commune) ? Ici encore, les possibilits sont nombreuses
et cest lapplication qui commande le choix faire.
Dans tous les cas, lvaluation de lapprentissage devra tre conduite avec soin. En gnral, on
mesure la performance aprs le droulement de lapprentissage sur un certain nombre de don-
nes que lon appelle chantillon dapprentissage. Si lon fait varier la taille de cet chantillon,
on obtient une courbe dapprentissage comme celle donne sur la gure 1.3. Cependant, il faut
sassurer que la mesure de performance seectue sur un chantillon de test dirent de lchan-
tillon dapprentissage. Autrement, ce ne serait pas la capacit de gnralisation qui serait teste,
mais une capacit lapprentissage par cur, qui nest pas pertinente dans ce contexte (mais qui
pourrait ventuellement ltre dans le cas de caractres dimprimerie).
Exploitation de l'chantillon d'apprentissage
Mesure de performance
Performance en reconnaissance
(sur l'chantillon d'apprentissage)
Performance en gnralisation
(sur un chantillon test)
Fig. 1.3: Courbes de performance. On suppose ici que lapprentissage est supervis : la machine
peut exploiter les informations contenues dans un chantillon dapprentissage en vue
dtablir des prdictions sur des observations nouvelles. En abscisse gure lexploitation
de lchantillon dapprentissage, par exemple mesure en nombre de fois o lchantillon
est utilis par le systme dapprentissage. En ordonne est porte une mesure de per-
formance, par exemple le taux derreur du systme en prdiction sur des exemples vus
en apprentissage (erreur de reconnaissance), soit sur des exemples non vus (erreur en
gnralisation). Normalement, la performance samliore au fur et mesure que lalgo-
rithme exploite davantage linformation (le taux derreur diminue). Elle est gnrale-
ment meilleure en reconnaissance quen gnralisation. On observe aussi frquemment
une baisse des performances en gnralisation lorsque lapprenant exploite trop les
donnes. Ce phnomne, appel surapprentissage (ou parfois suradaptation), qui peut
sembler paradoxal trouvera son explication dans la suite de louvrage.
C
e

d
o
c
u
m
e
n
t

e
s
t

l
a

p
r
o
p
r
i


e
x
c
l
u
s
i
v
e

d
e

O
l
i
v
i
e
r

B
E
R
N
H
A
R
D

(
o
l
i
v
i
e
r
.
s
i
m
p
l
e
l
i
f
e
@
g
m
a
i
l
.
c
o
m
)

-

1
2

m
a
i

2
0
1
4


1
4
:
2
2
10 PARTIE 1 : Les fondements de lapprentissage
La modlisation
Finalement, il faudra dcider de la forme dapprentissage raliser, cest--dire de ce qui est
appris en interne par le systme apprenant. Pour donner un exemple, on peut se gurer les ca-
ractres comme tant dcrits dans un espace de descripteurs plusieurs dimensions. Certains
des points de cet espace correspondent la lettre a, dautres la lettre b, etc. Le problme
est alors dapprendre associer chaque point la lettre correspondante. Ceci peut tre eectu
de plusieurs manires. Le but de cet ouvrage est de les prsenter et dorir un cadre conceptuel
pour orienter les choix oprer. Pour donner dj quelques exemples, on peut imaginer une
approche gomtrique : apprendre des frontires entre les rgions correspondant aux direntes
classes. Une nouvelle forme inconnue sera alors tiquete en fonction de sa place par rapport
aux frontires trouves. On peut aussi adopter un point de vue probabiliste et apprendre des
probabilits conditionnelles dappartenance des points aux classes, ou rciproquement des pro-
babilits conditionnelles des classes connaissant la description des points. On pourrait galement
envisager dutiliser un critre de dcision par les plus proches voisins dont on connat ltiquette.
Il faudra alors disposer dun nombre susant de points tiquets et dune relation de voisinage
dnie proprement. Et il existe encore bien dautres possibilits...
3. Deux approches : la cyberntique et les sciences cognitives
Commencer rchir lapprentissage, cest naturellement voquer dautres notions. Dabord,
celles dvolution, de transformation, de modication. Il ny a pas dapprentissage sans volution.
Mais cette notion dvolution nest pas susante. Le vin aussi volue, on ne dira pourtant pas
quil apprend. Il faut donc y ajouter la notion de progrs. Lapprentissage vise rendre plus
performant, meilleur, quelle quen soit la mesure. Mais le vin qui se bonie apprend-il ? Non.
Cest que lapprentissage implique aussi une notion dadaptation un environnement, une tche.
Il faut quil y ait une sorte de rtroaction de lenvironnement sur le systme pour que lon puisse
qualier dapprentissage le processus de transformation qui en dcoule ventuellement. Si le vin
ragit son environnement, cest de manire minimale, totalement passive, comme tout objet
ou matire. Finalement, lapprentissage voque aussi souvent la notion de transfert dautres
situations, voire de gnralisation. Quelquun qui apprend par cur nest quun perroquet ou
un savant idiot . On attend davantage dun authentique apprentissage, savoir quil y ait
capacit savoir tirer prot dune exprience particulire pour faire face une nouvelle situation
susamment proche pour que le transfert de lune lautre puisse tre pertinent.
Transformation, progrs, adaptation, transfert et gnralisation : chacune de ces notions renvoie
son tour des questions que toute tude de lapprentissage devra aborder.
Quest-ce qui est transform lors de lapprentissage ? En particulier, dans une machine
apprenante, comment reprsente-t-on ce qui dtermine le comportement du systme et qui
subira ventuellement une modication ? Le neurobiologiste voquera immdiatement le
support biologique : les neurones, leurs connexions, les neurotransmetteurs ; le psychologue
raisonnera en termes de croyances, de connaissances ; linformaticien envisagera des rseaux
de neurones articiels, des assertions Prolog dun systme expert, etc.
Comment peut seectuer le processus de transformation ?
En rponse quel type de sollicitation ? Quest-ce qui informe le systme apprenant quil
doit se transformer ? Comment mesurer son progrs ou son degr dadaptation ?
C
e

d
o
c
u
m
e
n
t

e
s
t

l
a

p
r
o
p
r
i


e
x
c
l
u
s
i
v
e

d
e

O
l
i
v
i
e
r

B
E
R
N
H
A
R
D

(
o
l
i
v
i
e
r
.
s
i
m
p
l
e
l
i
f
e
@
g
m
a
i
l
.
c
o
m
)

-

1
2

m
a
i

2
0
1
4


1
4
:
2
2
Chapitre 1 De lapprentissage naturel lapprentissage articiel 11
Comment un observateur extrieur peut-il mesurer le progrs et attribuer un systme
une capacit dapprentissage et une amlioration de performance ?
Comment caractriser le transfert entre deux situations ? Comment mesurer leurs di-
rences et ce que lexprience de lune apporte lexprience de lautre ?
Nous npuisons pas ici lensemble des questions qui peuvent se poser propos de lapprentis-
sage. Nous voulons seulement signaler les plus videntes, les plus immdiates. Nous lavons fait
dans des termes volontairement gnraux et relativement vagues pour ne pas demble embrasser
un point de vue, un type de questionnement. Dans cette section, sans vouloir, ni pouvoir na-
turellement tre exhaustif, nous voulons brosser grands traits deux modes dapproche qui ont
constitu deux moments de ltude de la cognition au XX
e
sicle, et qui ont faonn le point de
vue de lapprentissage articiel durant ces dernires dcennies.
3.1 La cyberntique
Dans les annes quarante et cinquante, certains scientiques se donnent pour ambition ddier
une science gnrale du fonctionnement de lesprit. Sous linuence du mathmaticien Norbert
Wiener (1894-1964), ils identient ce programme par le terme de cyberntique. Leurs travaux,
leurs discussions et dbats donnrent lieu dix confrences tenues New-York sous le nom de
confrences Macy du nom de la fondation philanthropique les nanant. Une partie des articles
fondateurs de ce mouvement sont reproduits dans [PT95], tandis que [Dup94] retrace lhistorique
et les clivages conceptuels de la cyberntique et des sciences cognitives orthodoxes.
Lun des postulats des cybernticiens de la premire heure, cest quil est vain de vouloir
apprhender directement les notions dintelligence, de conscience, de mmoire, danticipation,
dintentionalit. Pour tudier lesprit, il faut le naturaliser ou le matrialiser et pour cela, dune
part assimiler lesprit lactivit du cerveau et dautre part, poser que celui-ci est une machine.
Il en dcoule une triple focalisation, dune part sur lagent cognitif considr individuellement
(plutt que par exemple sur le fonctionnement global de la culture, de la socit ou de lenvi-
ronnement), dautre part sur les mcanismes matriels, par exemple neurobiologiques, agissant
lintrieur de la machine, et enn sur les rgles logiques qui sous-tendent le comportement
mesur.
Un agent cognitif devient ainsi un module oprant sur des entres pour les transformer en
sorties. La notion de sujet disparait pour faire place aux concepts de programme, syntaxe et
information telles quelles gurent dans la dnition de la machine de Turing (1912-1954), des
systmes asservis et autorguls de Wiener, et de la thorie de linformation de Shannon (1916-
2001). On cherche donc prciser les entres dont dispose un systme, en essayant dvaluer la
quantit dinformations disponibles et corollairement leet dune quantit plus ou moins grande
dinformations sur la performance de lagent. Les cybernticiens se concentrent galement sur
les modules fonctionnels qui permettent de raliser une fonction suprieure donne, telle que
la capacit sorienter dans lespace ou prendre une dcision. De mme, on cherche de quels
comportements gnriques est capable une structure donne de modules fonctionnels. Plus tard,
lors de la deuxime cyberntique , on tendra cette qute ltude des totalits engendres
par une collection de relations et aux systmes auto-organiss.
Dans ce cadre, les questions concernant lapprentissage deviennent relatives leet dune
quantit croissante dinformations sur la performance du systme : comment celui-ci sadapte-t-
il de nouvelles stimulations ou un nouvel environnement, comment retrouve-t-il un nouvel
quilibre ? On cherche galement ce quune modication de structure peut entraner comme chan-
gement de performance. Avec la deuxime cyberntique, lapprentissage devient compltement li
la capacit du systme sautoadapter ou continuer exister dans une nouvelle situation.
C
e

d
o
c
u
m
e
n
t

e
s
t

l
a

p
r
o
p
r
i


e
x
c
l
u
s
i
v
e

d
e

O
l
i
v
i
e
r

B
E
R
N
H
A
R
D

(
o
l
i
v
i
e
r
.
s
i
m
p
l
e
l
i
f
e
@
g
m
a
i
l
.
c
o
m
)

-

1
2

m
a
i

2
0
1
4


1
4
:
2
2
12 PARTIE 1 : Les fondements de lapprentissage
Le cybernticien se proccupe de dnir une structure dunits en interaction et dtudier, par
simulation, ses capacits dadaptation spontane toutes sortes de milieux.
Ce qui est intressant, cest que la dimension dynamique de lapprentissage et sa fonction
dadaptation un milieu sont prises en compte. En revanche, la mise en valeur trop exclusive de
simulations exprimentales et de reproductions de comportements, par exemple thologiques, a
jusqu prsent nuit une construction thorique de lapprentissage. Il y a plthore dexpriences
singulires, parfois spectaculaires, et pnurie de cadres thoriques.
Le cognitivisme, qui est en partie hritier de la cyberntique, ore curieusement une image
presque inverse, nous allons le voir, avec une myopie sur laspect dynamique de lapprentissage
et son rle adaptatif, mais avec une forte construction thorique.
3.2 Le pari du cognitivisme
Le cognitivisme reprend son compte lapproche fonctionnaliste de lesprit selon laquelle celui-
ci peut, dune part, tre abord par ses manifestations sans avoir prsupposer de quelconques
facults mentalistes, et, dautre part, tre considr comme une fonction calculable, cest--dire
ralisable par une machine de Turing. Cette dernire ide permet en outre denvisager la spa-
ration de laspect matriel (le hardware) de la machine de son aspect logiciel. De cette manire,
cest entirement sur le logiciel, les programmes, que se trouve reporte la charge de toutes les
ventuelles proprits cognitives du systme.
Mais le cognitivisme va plus loin. Si pour lui, comme pour la cyberntique, penser cest calculer
comme un ordinateur, il ne sagit pas en revanche de manipuler des symboles dnus de sens,
mais de manipulation rgle de symboles ayant le statut de reprsentation dtat du monde. Pour
le dire autrement, les symboles envisags par le cognitivisme ont la fois une ralit matrielle
et une valeur smantique. Ils reprsentent certains aspects du monde, et, de ce fait, les calculs
oprs par la machine deviennent une simulation qui prserve la structure de la ralit. toute
opration mentale correspond ainsi une transformation possible du monde. Le cognitivisme
pose de la sorte des contraintes beaucoup plus fortes sur le systme de symboles manipuls que la
cyberntique. Pour donner un exemple, les nombres manipuls dans les rseaux connexionnistes
nont pas le statut de symboles pour le cognitivisme, et si un cognitiviste tudie un tel rseau, il
le fera en labordant un autre niveau, dans lequel il pourra lui attribuer des connaissances et
des rgles de raisonnement.
Il sagit alors dnoncer comment est constitue une reprsentation et ce qui peut rendre sa
manipulation smantiquement correcte. Pour cela, le cognitivisme sest naturellement trouv in-
uenc par le mouvement de pense le plus caractristique et le plus inuent du XX
e
sicle,
savoir celui selon lequel la ralit est organise comme un langage. linstar dautres disci-
plines comme la biologie, maintenant entirement conue comme lucidation du code gntique,
lethnologie de Claude Levi-Strauss (1908-2009) inscrite dans le mouvement structuraliste, la
psychanalyse cherchant le code de linconscient, et mme la physique
4
, les sciences cognitives ont
t chercher du ct de la philosophie analytique essentiellement une philosophie du langage
une solution leur problme. Selon cette approche, la pense procde partir de propositions
portant sur le monde, dotes dune syntaxe, et manipules suivant des rgles dinfrence strictes
dun langage formel, parmi lesquelles gurent au premier plan la dduction, labduction, la g-
nralisation, etc., cest--dire des rgles dinfrence lies la logique.
4
Dont une grande partie de lactivit est tourne vers lexploration des consquences de manipulations du langage
mathmatique (par exemple la thorie des groupes qui permet de prdire, et avec quel succs, lexistence de
particules). Si la physique senivre dune telle puissance, elle ne peut que sinterroger sur le pouvoir prdictif
draisonable des mathmatiques [Wig60].
C
e

d
o
c
u
m
e
n
t

e
s
t

l
a

p
r
o
p
r
i


e
x
c
l
u
s
i
v
e

d
e

O
l
i
v
i
e
r

B
E
R
N
H
A
R
D

(
o
l
i
v
i
e
r
.
s
i
m
p
l
e
l
i
f
e
@
g
m
a
i
l
.
c
o
m
)

-

1
2

m
a
i

2
0
1
4


1
4
:
2
2
Chapitre 1 De lapprentissage naturel lapprentissage articiel 13
On ne sattardera pas ici sur les dicults de nature philosophique rencontres par cette ap-
proche, touchant entre autres au problme de la rfrence et de lintentionalit (voir par exemple
lexcellent livre de Jolle Proust [Pro97]). En revanche, il est important de souligner les cons-
quences de ce point de vue pour ltude de lapprentissage.
partir du moment o la cognition est considre comme la manipulation, suivant un ensemble
de rgles strictes, de propositions sur le monde, il devient naturel denvisager lensemble de toutes
les propositions possibles sur le monde et de toutes les thories correspondantes. Cet ensemble
de mondes possibles sera assimil un espace dhypothses potentielles pouvant expliquer les
manifestations observes du monde. Selon cette perspective, lapprentissage devient la recherche
dune, ou plusieurs, hypothse(s), saccordant aux donnes recueillies jusque-l. Et ltude de
lapprentissage selon ce point de vue amne alors naturellement considrer un certain nombre
de questions.
Nous invitons ici le lecteur faire une pause et sinterroger sur le programme de recherche
quil envisagerait ce point. Il sagit l en eet de tester quel point un parti pris philosophique
sur un sujet dtermine ensuite de manire trs profonde la nature du questionnement qui va
faonner toute la discipline.
Voici, par exemple, un ensemble de questions fondamentales qui faonnent le point de vue
cognitiviste :
Comment volue lespace dhypothses en fonction des donnes disponibles sur le monde ?
Peut-on montrer quil se rduit ? Si oui, quelle vitesse ? Peut-il y avoir espoir de converger
vers une hypothse unique ? Et si, aprs le recueil dun certain nombre dinformations, il
reste plusieurs hypothses, peut-il y avoir espoir quelles aient une parent ou une proximit
pour pouvoir, sans trop de risque, en choisir une plutt quune autre ?
Comment peut-on rendre ecace lexploration de lespace des hypothses en cours dap-
prentissage ?
Quelles sont les rgles dinfrence appropries pour rendre compte de lapprentissage ? En
particulier, par quels oprateurs peut-on modliser les rgles dinfrence telles que linduc-
tion, lanalogie, labduction, qui correspondent des formes de raisonnement permettant
dlaborer une reprsentation plus opratoire que la simple mmorisation des entres ?
ce stade, ces questions sont encore vagues. Nous verrons comment elles peuvent tre prcises
dans les modles et les algorithmes de lapprentissage, comme dans le cadre des thories de
lapprenabilit. Il ne faudra pour autant pas oublier le formidable rductionnisme dont elles sont
issues, en particulier la projection opre ainsi de la cognition sur le plan des reprsentations et
des rgles de la logique formelle. Par ailleurs, trop se mettre au niveau de la proposition et de la
rgle dinfrence, la scne globale, le fonctionnement des thories et de la connaissance en gnral
nissent par tre occults. Cest sans doute le prix payer pour faire les premiers pas. Il ne faut
cependant pas en devenir dupe et ngliger lobjectif qui est la comprhension de lapprentissage,
en particulier dans sa dimension lie la construction de connaissances, telle que lenvisage par
exemple la didactique.
Nous pensons que le reste de louvrage montrera que lapprentissage articiel tel quil est
abord actuellement est plac la rsultante des inuences de la cyberntique et du cogniti-
visme. Du second, il a pris les concepts despace dhypothses, de langage de reprsentation, de
rgles dinfrence, de recherche dans un espace de possibilits. Cela a rendu possible les pre-
mires simulations, les premiers programmes. Mais il a fallu aussi lapport du premier courant
pour que, en relchant les contraintes sur les symboles manipuls, on ose se servir de toute une
panoplie doutils mathmatiques permettant de caractriser lapprentissage comme un proces-
sus de convergence vers une fonction cible. Il reste sans doute maintenant dpasser ces deux
C
e

d
o
c
u
m
e
n
t

e
s
t

l
a

p
r
o
p
r
i


e
x
c
l
u
s
i
v
e

d
e

O
l
i
v
i
e
r

B
E
R
N
H
A
R
D

(
o
l
i
v
i
e
r
.
s
i
m
p
l
e
l
i
f
e
@
g
m
a
i
l
.
c
o
m
)

-

1
2

m
a
i

2
0
1
4


1
4
:
2
2
14 PARTIE 1 : Les fondements de lapprentissage
perspectives, mais pour cela il est utile de les connatre et den peser linuence.
La suite de ce chapitre vise fournir les concepts et notations de base ncessaires la com-
prhension du reste de louvrage.
4. Les concepts de base de lapprentissage
An de prsenter les principaux concepts permettant dtudier lapprentissage, nous allons
nous rfrer dans ce chapitre introductif un scnario certes limit, mais servant de cadre idal
la majorit des recherches actuelles sur lapprentissage articiel : celui de linduction supervise.
Nous envisagerons dautres apprentissages plus tard.
Quest-ce que linduction? Cest le processus par lequel on tire des lois de porte gnrale en
partant de lobservation de cas particuliers. Cest ainsi que lavimateur novice voqu dans la
prface cherche une loi gnrale lui permettant de distinguer les oies des cygnes. Pour ce faire, il
dispose de quelques exemples de volatiles, sur lesquels il eectue des mesures comme la couleur
ou la taille. De plus, il est assist dun expert qui lui dit quelle espce appartient chacun deux.
Dans ce cas, dans lequel un oracle fournit la bonne rponse, on parle dinduction supervise.
Nous dnissons ceci plus formellement ci-dessous.
4.1 Un scnario de base pour linduction
Dans ce scnario, nous supposons quun systme apprenant reoit des donnes de lunivers
dans lequel il est plac. Nous ne nous interrogerons pas ici sur ce qui permet de dnir et de
segmenter ces donnes . Dans le cas de lapprentissage supervis, chacune de ces donnes
prend la forme dun couple dans lequel on distingue dune part la description dune situation ou
encore observation (par exemple une situation de jeu, ou bien une matrice de niveaux de gris),
et dautre part une rponse, que lon appelle aussi frquemment sortie dsire, (par exemple
situation de mat en trois coups ou bien lettre a, ou encore volatile = cygne) qui est suppose
tre fournie par un oracle. Une donne z
i
est ainsi dnie par un couple (observation, sortie
dsire) que nous noterons (x
i
, u
i
)
5
. (Voir la gure 1.5).
4.2 Quelques notions cls
4.2.1 Le critre de succs
Dans le scnario de lapprentissage supervis, la tche de lapprenant est dessayer dapproximer
au mieux la sortie dsire u
i
pour chaque entre observe x
i
. Dans le cas idal, lapprenant devient
capable, aprs un certain temps dapprentissage, de prdire exactement, pour chaque entre x
i
, la
sortie dsire u
i
. En gnral cependant, il faudra se contenter dune approximation de la rponse
de loracle. Nous formaliserons plus loin cette notion dapproximation grce une fonction de
risque, encore appele critre de succs, qui dpendra la fois du domaine tudi et de lobjectif
de lapprentissage.
5
Nous utilisons la lettre u en accord avec les notations de lautomatique et de la thorie du contrle, pour la
distinguer de la vraie rponse de lenvironnement, note y
i
, pour une forme dentre x
i
. Par ailleurs, la
sortie (dsire, u, ou vraie, y) est rarement un vecteur et cest pourquoi nous nutilisons pas de caractre gras
pour la dnoter. Il ne faut cependant pas en dduire que la sortie ne peut pas tre un vecteur. La plupart
des rsultats dcrits dans cet ouvrage pourraient tre tendus, souvent au prix dune plus grande complexit
calculatoire, au cas dune sortie vectorielle, voire dun tri.
C
e

d
o
c
u
m
e
n
t

e
s
t

l
a

p
r
o
p
r
i


e
x
c
l
u
s
i
v
e

d
e

O
l
i
v
i
e
r

B
E
R
N
H
A
R
D

(
o
l
i
v
i
e
r
.
s
i
m
p
l
e
l
i
f
e
@
g
m
a
i
l
.
c
o
m
)

-

1
2

m
a
i

2
0
1
4


1
4
:
2
2
Chapitre 1 De lapprentissage naturel lapprentissage articiel 15
Le critre de succs est ce qui est mesur dans lvaluation de la performance. Il sagit donc dun
critre relatif un observateur externe. Par exemple, la performance sera mesure en fonction
du nombre derreurs commises par lapprenant en cours dapprentissage, ou en fonction de son
taux derreur aprs apprentissage. Dans une tche qui prend une importance grandissante avec
le rseau Internet, celle qui consiste chercher des documents relatifs une requte particulire,
la performance sera fonction la fois du nombre de documents pertinents trouvs par le systme
rapport au nombre rel de documents pertinents et du nombre de documents pertinents non
trouvs. Plus gnralement, la mesure de performance peut inclure des facteurs indpendants de
ladquation aux donnes dapprentissage et de natures trs diverses. Par exemple, la simplicit
du rsultat dapprentissage produit par lapprenant, sa comprhensibilit, son intelligibilit par
un expert, la facilit de son intgration dans une thorie courante, le faible cot computationnel
ncessaire son obtention, etc.
Il faut ici faire une remarque importante. Le critre de succs, mesur par un observateur
externe, nest pas ncessairement identique la fonction de cot ou de perte qui est interne
lapprenant et le guide pour faire converger les paramtres de son modle dapprentissage.
Par exemple, un algorithme dapprentissage de rseau connexionniste cherche gnralement
minimiser un cart quadratique entre ce quil prdit sur chaque exemple dapprentissage et la
sortie dsire. Cette mesure est interne au systme, elle lui permet de mesurer la qualit de
lapproximation de son modle courant avec les donnes dapprentissage, mais elle nest pas
gnralement celle qui intresse lobservateur externe qui examine par exemple le taux derreur
ou prend ventuellement en compte dautres critres comme ceux voqus plus haut.
4.2.2 Notion de protocole dapprentissage
Lapprentissage et son valuation dpendent du protocole qui rgle les interactions entre lap-
prenant et son environnement, incluant loracle. Il faut ainsi distinguer lapprentissage hors ligne
(batch learning), dans lequel toutes les donnes dapprentissage sont fournies dun seul coup
lapprenant, de lapprentissage squentiel, incrmental ou apprentissage en ligne (on-line lear-
ning) dans lequel les donnes arrivent en squences et o lapprenant doit dlibrer et fournir
une rponse aprs chaque entre ou groupe dentres.
Le protocole stipule galement le type dentres fournies lapprenant et le type de sorties
attendues. Par exemple, un scnario peut spcier qu chaque instant lapprenant reoit une
observation x
i
, quil doit alors fournir une rponse y
i
, et que seulement alors loracle produit
la rponse correcte u
i
(voir gure 1.4, partie droite). Une illustration dun tel protocole est
fournie par le cas dun systme essayant de prdire le cours du lendemain dun titre en bourse
partir dinformations sur le contexte conomique courant. chaque fois la rponse correcte
est disponible le lendemain seulement. On parle alors naturellement de tche de prdiction. Plus
fondamentalement, les tches dites de prdiction sintressent prvoir correctement une rponse
en un point prcis : quel sera le cours du soja demain midi, la consommation lectrique dans
trois mois, quelle est la pathologie de ce patient particulier, etc.
Les tches de prdiction sont contraster avec les tches didentication dans lesquelles le but
est de trouver une explication globale parmi toutes celles possibles, qui une fois connue permettra
ltablissement de prdictions quelle que soit la question. Un systme danalyse boursire pour-
rait ainsi chercher identier la fonction suivie par le cours du soja. De mme, un fournisseur
dlectricit pourrait vouloir connatre lensemble de la courbe de la consommation sur une anne.
Dans le cas de la mdecine, une tche didentication consisterait trouver des lois permettant
de fournir un diagnostic pour nimporte quel malade et non pour un patient particulier.
Le scnario sera alors dirent. Par exemple, il pourra prvoir que le systme apprenant doit
C
e

d
o
c
u
m
e
n
t

e
s
t

l
a

p
r
o
p
r
i


e
x
c
l
u
s
i
v
e

d
e

O
l
i
v
i
e
r

B
E
R
N
H
A
R
D

(
o
l
i
v
i
e
r
.
s
i
m
p
l
e
l
i
f
e
@
g
m
a
i
l
.
c
o
m
)

-

1
2

m
a
i

2
0
1
4


1
4
:
2
2
16 PARTIE 1 : Les fondements de lapprentissage
produire aprs chaque nouvelle entre (x
i
, u
i
) une hypothse sur la fonction cache de loracle
par laquelle celui-ci dtermine u
i
en fonction de x
i
. On conoit que le critre de succs ne soit
pas le mme dans le cas dune tche de prdiction que dans celui dune tche didentication.
Dans ce dernier cas, en eet, on demande beaucoup plus lapprenant puisquon attend de lui
une hypothse explicite, donc une sorte dexplication de ses prdictions (voir gure 1.4, partie
gauche).
Par ailleurs, lapprenant peut tre plus ou moins actif. Dans les protocoles dcrits jusquici,
lapprenant reoit passivement les donnes sans avoir dinuence sur leur slection. Il est possible
denvisager des scnarios dans lesquels lapprenant a une certaine initiative dans la recherche din-
formations. Dans certains cas, cette initiative est limite, par exemple lorsque lapprenant, sans
avoir la totale matrise du choix de lchantillon dapprentissage, est simplement capable dorien-
ter sa distribution de probabilit. Les mthodes de boosting, dcrites dans le chapitre 17, en sont
une illustration. Dans dautres cas, lapprenant peut poser des questions sur la classe dapparte-
nance dune observation, on parle alors dapprentissage par requte dappartenance (membership
queries), ou mme organiser des expriences sur le monde, et on parle alors dapprentissage actif.
Le jeu de MasterMind, qui consiste deviner une conguration de pions de couleurs cachs en
posant des questions suivant certaines rgles, est un exemple simple dapprentissage actif dans
lequel lapprenant possde linitiative des questions.
Fig. 1.4: Dirence entre un protocole didentication ( gauche) et un protocole de prdiction
( droite). Dans le protocole didentication, lobjectif de lapprenant est de trouver une
hypothse h qui rende bien compte des donnes dapprentissage. Dans le protocole de
prdiction, lapprenant doit seulement chercher trouver la bonne rponse une
question particulire. Ici, on suppose quaprs chaque prdiction, lapprenant reoit une
conrmation ou une inrmation de sa prdiction, ce qui correspond un apprentissage
en-ligne, par contraste avec un apprentissage batch .
4.2.3 Notion de tche dapprentissage
Il est possible daborder lobjectif du processus dapprentissage suivant plusieurs points de vue.
C
e

d
o
c
u
m
e
n
t

e
s
t

l
a

p
r
o
p
r
i


e
x
c
l
u
s
i
v
e

d
e

O
l
i
v
i
e
r

B
E
R
N
H
A
R
D

(
o
l
i
v
i
e
r
.
s
i
m
p
l
e
l
i
f
e
@
g
m
a
i
l
.
c
o
m
)

-

1
2

m
a
i

2
0
1
4


1
4
:
2
2
Chapitre 1 De lapprentissage naturel lapprentissage articiel 17
Par rapport la connaissance
Le but de lapprentissage peut tre de modier le contenu de la connaissance
6
. On parle alors
dacquisition de connaissances, de rvision, et, pourquoi pas, doubli. En parlant de manire
informelle, lapprenant sait dsormais plus ou moins de choses. Mais cela ne prjuge pas de sa
capacit utiliser ses connaissances.
Le but de lapprentissage peut aussi tre, sans ncessairement modier le contenu de
la connaissance, de le rendre plus ecace par rapport un certain but, par rorganisation,
optimisation ou compilation par exemple. Ce pourrait tre le cas dun joueur dchecs ou dun
calculateur mental qui apprend aller de plus en plus vite sans pour autant connatre de nouvelles
rgles de jeu ou de calcul. On parle dans ce cas doptimisation de performance (speed-up learning).
Par rapport lenvironnement
La tche de lapprentissage peut aussi tre dnie par rapport ce que lagent apprenant doit
raliser pour survivre dans son environnement. Cela peut inclure :
Apprendre reconnatre des formes (par exemple : des caractres manuscrits, des oiseaux,
des prdateurs, une tendance haussire la bourse, une appendicite, etc.). Lorsque lap-
prentissage sopre avec un professeur, ou oracle, qui fournit les rponses dsires, on parle
dapprentissage supervis. Sinon, on parle dapprentissage non supervis. Dans ce cas, la
tche dapprentissage consiste la fois dcouvrir des catgories et trouver des rgles de
catgorisation.
Apprendre prdire. Il y a alors une notion de dpendance temporelle ou de causalit.
Apprendre tre plus ecace. Cest le cas notamment des situations de rsolution de pro-
blme, ou de recherche de plans daction dans le monde.
Par rapport des classes abstraites de problmes
Indpendamment mme dun algorithme dapprentissage, il est possible de caractriser lap-
prentissage par une classe gnrale et abstraite de problmes et de processus de rsolution qui
leur sont lis. Cest ainsi quun certain nombre de disciplines, en particulier issues des math-
matiques ou de la thorie de linformation, se sont dcouvertes un intrt pour les problmes
dapprentissage.
Les thories de compression dinformation. En un certain sens, lapprentissage peut tre
abord comme un problme dextraction et de compression dinformation. Il sagit dextraire
linformation essentielle ou le message initial dun metteur idal, dbarass de toutes ses
redondances. Ainsi, les sciences dobservation, telles lastronomie ou lornithologie, procdent
par limination des dtails superus ou redondants et par la mise en vidence de rgularits
caches.
La cryptographie. Dans une perspective analogue, proche des proccupations de la thorie
de linformation, lapprentissage peut tre considr comme une tche de dcodage ou mme
de dcryptage dun message cod par lmetteur idal et intercept en tout ou partie par
lagent. Aprs tout, cest parfois ainsi quest vu le scientique tudiant la nature. Il est alors
logique de se demander sous quelles conditions un message peut tre cass , cest--dire
sous quelles conditions un apprentissage est possible.
6
Qui peut-tre mesur par exemple par sa clture dductive, cest--dire, dans une reprsentation logique, tout
ce qui peut tre dduit correctement partir de la base de connaissances courante.
C
e

d
o
c
u
m
e
n
t

e
s
t

l
a

p
r
o
p
r
i


e
x
c
l
u
s
i
v
e

d
e

O
l
i
v
i
e
r

B
E
R
N
H
A
R
D

(
o
l
i
v
i
e
r
.
s
i
m
p
l
e
l
i
f
e
@
g
m
a
i
l
.
c
o
m
)

-

1
2

m
a
i

2
0
1
4


1
4
:
2
2
18 PARTIE 1 : Les fondements de lapprentissage
Lanalyse. Lapprentissage peut galement tre examin comme un problme dapproxima-
tion. Cest particulirement clair lorsque lon adopte le point de vue de la gure 1.5. La
tche de lapprenant est bien alors de trouver une approximation aussi bonne que possible
dune fonction cache connue uniquement par lintermdiaire dun chantillon de donnes.
Le problme de lapprentissage devient alors souvent celui de ltude des conditions dap-
proximation et de convergence. Nous aurons largement loccasion de dvelopper ce point de
vue, actuellement dominant, dans les chapitres 2 et 21.
Linduction. Dans les annes soixante-dix et au dbut des annes quatre-vingts, sous lin-
uence du point de vue cognitiviste, une large communaut de chercheurs, particulirement
active en France, sest penche sur lapprentissage en tant que problme de gnralisation.
Cette approche part de deux prsupposs essentiels. Dune part, lagent cognitif apprenant
doit apprendre quelque chose quun autre agent cognitif quivalent connat. Il est donc nor-
malement capable datteindre parfaitement la connaissance cible. Dautre part, les connais-
sances et les donnes peuvent tre dcrites par un langage. On cherche alors les oprateurs
dans ce langage qui peuvent correspondre des oprations de gnralisation ou de sp-
cialisation utiles pour linduction, et on construit des algorithmes les utilisant, permettant
de rsumer les donnes tout en vitant de les surgnraliser et den tirer des consquences
illgitimes.
Les mathmatiques appliques. Finalement, lingnieur peut tre tent de voir dans lap-
prentissage un cas particulier de rsolution de problme inverse. Dans le cas dun problme
direct, on se donne une structure et on en cherche les consquences. Par exemple, tel
avion est capable de supporter telle charge dans telles conditions. Dans le cas dun problme
inverse, on se donne des spcications sur les capacits souhaites et on cherche concevoir
un objet qui les vrie. Cest videmment typiquement le problme auquel sont confronts
les ingnieurs. Prenons trois exemples :
On peut dire que la thorie des probabilits est une thorie sattachant un problme
direct (tant donn un modle paramtr, quelles sont les probabilits associes tel
vnement ?), tandis que la thorie des statistiques sattaque un problme inverse (tant
donn un chantillon de donnes, quel modle permet de lexpliquer, cest--dire peut
lavoir produit ?).
tant donns deux nombres, il est facile den trouver le produit (problme direct), il est
en revanche gnralement impossible de trouver partir dun nombre ceux dont il est le
produit (problme inverse).
tant donn un chantillon dapprentissage o = (x
1
, u
1
), (x
2
, u
2
), . . . , (x
m
, u
m
))
7
, iden-
tier la fonction qui permet de calculer ltiquette u de nimporte quelle forme dentre
x. Il sagit encore une fois dun problme inverse.
Les problmes inverses sont ainsi souvent des problmes que lon dits mal poss, cest--dire
nayant pas de solution unique. Selon cette perspective, ltude de lapprentissage peut tre
vue comme celle des conditions permettant de rsoudre un problme mal pos, cest--dire
des contraintes quil faudra ajouter pour que la procdure de rsolution puisse trouver une
solution particulire
8
.
7
Nous utilisons la notation . . .) pour lchantillon dapprentissage qui peut tre un multi-ensemble (voir la
section 5 et le chapitre 2 pour plus de dtails).
8
Dj en 1902, Hadamard (1865-1963) armait quun problme bien pos devrait avoir la proprit quil existe
une solution unique, qui, en plus, devrait dpendre des donnes de manire continue.
C
e

d
o
c
u
m
e
n
t

e
s
t

l
a

p
r
o
p
r
i


e
x
c
l
u
s
i
v
e

d
e

O
l
i
v
i
e
r

B
E
R
N
H
A
R
D

(
o
l
i
v
i
e
r
.
s
i
m
p
l
e
l
i
f
e
@
g
m
a
i
l
.
c
o
m
)

-

1
2

m
a
i

2
0
1
4


1
4
:
2
2
Chapitre 1 De lapprentissage naturel lapprentissage articiel 19
Par rapport aux structures de donnes ou types dhypothses vises
Il arrive frquemment que lon impose le type de structure de donnes (ou de langage dexpres-
sion dhypothses) qui doit tre recherch par le systme apprenant. Cela permet de guider la
fois la dtermination de lalgorithme dapprentissage utiliser, mais aussi les donnes qui seront
ncessaires pour que lapprentissage soit possible
9
. Sans chercher tre exhaustif, le chapitre 3
y reviendra plus longuement, les reprsentations les plus tudies incluent :
Les expressions boolennes, qui sont souvent appropries pour apprendre des concepts dnis
sur un langage attribut-valeurs (par exemple des rgles de systme expert).
Les grammaires et les processus markoviens, utiliss pour reprsenter des squences dv-
nements.
Les fonctions de dcision, linaires ou non linaires, permettant soit de discriminer des
formes appartenant un sous-espace ou son complmentaire (tches de classication), soit
didentier un processus sous-jacent (tches de rgression).
Les arbres de dcision qui autorisent lexpression de classications par des hirarchies de
questions. Les arbres de dcisions ont lavantage dtre souvent la fois concis et interpr-
tables.
Les programmes logiques auxquels il faut songer lorsque lon cherche apprendre des concepts
relationnels.
Les rseaux baysiens permettant la fois de reprsenter des univers structurs par des
relations de causalit et de prendre en compte et dexprimer des mesures de certitude ou de
conance.
Parfois lapprentissage peut consister changer de structure de donnes pour en trouver une
quivalente mais plus ecace du point de vue calculatoire. Cest encore une fois, sous un autre
angle, le problme de loptimisation de performance.
4.3 Linduction considre comme estimation de fonction
Aprs avoir brivement pass en revue les facteurs et les points de vue en jeu dans lappren-
tissage articiel, nous esquissons dans cette section la manire dont est actuellement envisag le
processus dapprentissage. Nous allons considrer la tche de lapprenant, ainsi que lapproche
suivie pour la mener bien. Il sagit ici dun premier expos qui sera prcis, de manire plus for-
melle dans le chapitre 2 et dans son complment, le chapitre 21, et qui permettra de comprendre
le fonctionnement des algorithmes dapprentissage dcrits dans les chapitres suivants.
Revenons sur le scnario esquiss dans la section 4.1 et dans la gure 1.5. Nous supposons que
lenvironnement, quil soit mesur par les senseurs dun robot ou quil sexprime sous la forme
dune base de donnes, fournit une collection de formes x
i
dnies sur lespace des entres A
et tires alatoirement chacune suivant une distribution de probabilits note P
.
(on parle de
tirage indpendant et identiquement distribu ou tirage i.i.d.). On peut ainsi imaginer quune
webcam prenne des images intervalles rguliers dun carrefour New-York, et que les formes
x
i
mesures correspondent aux vhicules observs. On pourra supposer que ces vhicules sont
indpendants les uns des autres (sauf dans le cas de cortges ociels ou mortuaires), mais que
leur distribution dpendra de la ville, New-York se rvlant sans doute dirent de Londres ou
Nouakchott
10
sous cet aspect.
9
Cette manire dorganiser les mthodes dapprentissage articiel a t utilise par Pat Langley (1953-...) dans
son livre [Lan96] de 1996.
10
Capitale de la Rpublique islamique de Mauritanie.
C
e

d
o
c
u
m
e
n
t

e
s
t

l
a

p
r
o
p
r
i


e
x
c
l
u
s
i
v
e

d
e

O
l
i
v
i
e
r

B
E
R
N
H
A
R
D

(
o
l
i
v
i
e
r
.
s
i
m
p
l
e
l
i
f
e
@
g
m
a
i
l
.
c
o
m
)

-

1
2

m
a
i

2
0
1
4


1
4
:
2
2
20 PARTIE 1 : Les fondements de lapprentissage
distribution de probabilite p
X
y
1
, y
2
, . . . , y
m
x
1
, x
2
, . . . , x
m
u
1
, u
2
, . . . , u
m
Apprenant : h()
Environnement X :
Oracle
x
1
, x
2
, . . . , x
m
Fig. 1.5: Le scnario classique de lapprentissage par induction. Lenvironnement fournit des
donnes x
i
tires alatoirement suivant une distribution P
.
sur lespace dentre A.
Ces donnes sont tiquetes par un oracle qui utilise pour cela une fonction f T.
Lapprenant reoit un chantillon dexemples ou couples (x
i
, u
i
) = (x
i
, f(x
i
)), et
partir de cet chantillon, doit chercher deviner f, ou au moins en trouver une
approximation h.
Dans le cadre de lapprentissage supervis, nous supposons galement quun oracle tiquette
les formes x
i
grce une fonction inconnue de lapprenant, que nous appellerons fonction cible,
note f. Lapprenant reoit donc un ensemble dexemples (voir gure 1.5).
o = (x
i
, u
i
))
1im
= (x
i
, f(x
i
)))
1im
On supposera que loracle choisit la fonction cible f dans une famille de fonctions note T,
galement inconnue. On supposera galement ici, quune fois slectionne par loracle, la fonction
f reste constante, de mme que la distribution P
.
des formes x
i
. Nous tudierons plus tard le
cas dune fonction cible bruite ou prsentant une drive au cours du temps, ainsi que le cas
dune distribution variable des exemples.
Cette description de lapprentissage, plus prcisment de linduction, conduit naturellement
voir lapprentissage comme une tche destimation de fonction partir dun chantillon de son
comportement. Il sagit l eectivement du point de vue dominant actuellement.
Notons que le cadre de lestimation de fonction cible est trs gnral puisquil couvre de
nombreuses tches dapprentissage classiques. Par exemple :
Un problme de rgression peut tre considr comme un problme destimation dans lequel
il sagit de trouver une fonction h telle que :
x A, h(x) f(x) = y
Lapprentissage dune classication dobjets (par exemple apprendre classer des images
de pices de mobilier en types de meubles, des volatiles caractriss par un certain nombre
dattributs en types doiseaux, etc.) peut-tre vu comme lestimation dune fonction valeur
discrte, o chaque entre correspond une valeur associe une classe. Lapprentissage de
la reconnaissance des lettres de lalphabet peut ainsi tre abord comme lestimation dune
fonction dnie sur un espace dentre (par exemple une matrice de pixels) vers un espace
de sortie 26 valeurs.
Lapprentissage de concept, dans lequel il sagit dapprendre reconnatre une classe dobjets
parmi tous les autres objets, peut tre considr comme lestimation dune fonction binaire
(on dit aussi fonction indicatrice), prenant la valeur 1 quand la forme dentre est de la
classe cible et 0 autrement.
C
e

d
o
c
u
m
e
n
t

e
s
t

l
a

p
r
o
p
r
i


e
x
c
l
u
s
i
v
e

d
e

O
l
i
v
i
e
r

B
E
R
N
H
A
R
D

(
o
l
i
v
i
e
r
.
s
i
m
p
l
e
l
i
f
e
@
g
m
a
i
l
.
c
o
m
)

-

1
2

m
a
i

2
0
1
4


1
4
:
2
2
Chapitre 1 De lapprentissage naturel lapprentissage articiel 21
Un problme doptimisation multicritres dans lequel on cherche optimiser la fois plusieurs
critres objectifs peut tre peru comme lestimation dune fonction multi-value.
Toujours pour simplier, nous supposerons que lapprenant cherche une approximation de la
fonction cible lintrieur dune famille H de fonctions hypothses h. Cest le cas par exemple
dun apprenant utilisant un rseau de neurones dont larchitecture contraint le type de fonctions
ralisables un certain ensemble de fonctions. De mme, le dsormais fameux avimateur novice
ne cherche que des sparations linaires dans lespace des descriptions des oies et des cygnes.
Pour dnir le problme dapprentissage, il faut maintenant se donner un critre de perfor-
mance. On valuera la qualit de lestimation h relativement une esprance de performance
dans un environnement donn. Cest pourquoi on spcie gnralement le critre de performance
dune fonction hypothse h sous la forme dune expression exprimant ce que cotera le choix de
la fonction hypothse h si la vraie fonction inconnue est f. Par exemple, la performance dun
systme dapprentissage de diagnostic mdical sera mesure par lesprance de cot de la dcision
h(x) lorsque la vraie pathologie est f(x). Cest ce que dnote lquation suivante :
R(h) =
_
x.
l(h(x), f(x)) P
.
dx (1.1)
dans laquelle R(h) dnote une fonction de risque, tandis que l dsigne une fonction de perte
dnie pour chaque exemple. Lintgrale est prise sur lensemble des formes x A possibles
suivant la distribution donne P
.
.
Par exemple, si lapprenant se trouve New-York, la distribution des voitures de couleur
jaune est dirente de celle observe Londres. En supposant que le problme soit dapprendre
reconnatre des taxis, il faut prendre en compte la distribution des vhicules dans lenvironnement
dapprentissage. On suppose naturellement que cette distribution P
.
des formes est aussi celle qui
sera rencontre aprs lapprentissage. Cest pourquoi cette distribution apparat dans lexpression
du risque. (Apprendre reconnatre des taxis dans New-York peut se rvler dune utilit limite
si lon doit ensuite se dbrouiller Londres, ou, plus encore, en Mauritanie). La tche dinduction
sera bien plus complique si cest un chantillon de donnes non reprsentatif de lenvironnement
qui sera rencontr ensuite par lapprenant qui lui est fourni en apprentissage. Il faudra en eet
lui demander den tirer une information qui le rende performant dans un nouvel environnement
inconnu pour lui.
La fonction de risque (1.1) mesure donc lesprance de perte dans un environnement donn,
spci par la distribution P
.
des vnements mesurables par lapprenant.
Formellement, lapprenant cherche donc trouver lhypothse h

H minimisant lesprance
de cot, cest--dire :
h

= ArgMin
h1
R(h) = ArgMin
h1
_
x.
l(h(x), f(x)) P
.
dx (1.2)
Cependant, comme la fonction cible f et la distribution des formes P
.
sont inconnues, lap-
prenant ne peut directement chercher h

et doit sappuyer sur linformation sa disposition,


savoir une connaissance a priori sous la forme dun espace dhypothses H considrer, et un
chantillon o = (x
i
, u
i
))
1im
de donnes supposes reprsentatives du monde, pour trouver
une bonne hypothse

h dfaut de h

.
Lhypothse

h optimise un critre inductif, cest--dire un critre dni sur lchantillon dap-
prentissage o et tenant lieu de la fonction objectif ou risque (voir quation 1.1) inconnu. Ce
C
e

d
o
c
u
m
e
n
t

e
s
t

l
a

p
r
o
p
r
i


e
x
c
l
u
s
i
v
e

d
e

O
l
i
v
i
e
r

B
E
R
N
H
A
R
D

(
o
l
i
v
i
e
r
.
s
i
m
p
l
e
l
i
f
e
@
g
m
a
i
l
.
c
o
m
)

-

1
2

m
a
i

2
0
1
4


1
4
:
2
2
22 PARTIE 1 : Les fondements de lapprentissage
critre inductif, dni de Ho R permet dvaluer chaque hypothse h H. Par exemple, il
peut prendre la forme dun risque empirique :
R
Emp
(h) =
1
m
m

i=1
l(h(x
i
), y
i
)) (1.3)
Nous reviendrons plus formellement sur le problme de linduction dans les chapitre 2 et 21.
Pour le moment, ce cadre simpli sut introduire les concepts et questions fondamentaux.
Nous avons ainsi dni la tche dapprentissage comme celui dun problme destimation de
fonction partir de lobservation dun chantillon de donnes. Nous nous tournons maintenant
vers les principes permettant de raliser cette estimation.
5. Linduction comme un jeu entre espaces
Dans le but de simplier toute la discussion qui suit et de permettre une visualisation aise des
problmes, nous nous focalisons dans cette section sur lapprentissage supervis de concept, cest-
-dire sur lapprentissage de fonctions indicatrices ou encore valeur dans 0, 1. Les notions
abordes seront cependant dune porte beaucoup plus gnrale et valables pour lessentiel dans
toutes les situations dapprentissage.
Lapprentissage supervis de concept consiste chercher une fonction f : A 0, 1, cest--
dire un tiquetage de chaque forme x A par 0 (x nappartient pas au concept vis) ou 1 (x
appartient au concept)
11
. Cette fonction est apprise partir dun chantillon de points tiquets
que lon appelle chantillon dapprentissage. Nous noterons
12
o = (x
1
, u
1
), (x
2
, u
2
), ..., (x
m
, u
m
))
un chantillon dapprentissage de m points non ncessairement tous distincts (lorsquil sera im-
portant de prciser la taille de lchantillon dapprentissage, nous le noterons o
m
). Pour des
raisons videntes, on appelle souvent exemples ou exemples positifs les points tiquets par 1 ou
par +, et contre-exemples ou exemples ngatifs les points tiquets par 0 ou par . Il arrivera
cependant dans la suite de louvrage que nous parlions dexemples pour dnoter les points tique-
ts, quils le soient positivement (exemples au sens propre) ou ngativement (contre-exemples).
La gure 1.6 schmatise la tche dapprentissage de concepts.
Nous supposons maintenant, dune part que lchantillon dapprentissage nest pas bruit,
cest--dire que les exemples sont correctement dcrits et tiquets, dautre part quil nest pas
incohrent, au sens o la mme forme nest pas la fois exemple et contre-exemple.
Dans ce cadre, lchantillon dapprentissage o = (x
1
, u
1
), (x
2
, u
2
), ..., (x
m
, u
m
)) fournit une
information cohrente ou encore consistante (un anglicisme qui sest introduit dans le jargon de
lapprentissage articiel mais que, pour notre part, nous viterons) lapprenant dans la mesure
o la partie de A quil cherche doit couvrir tous les exemples positifs de lchantillon (ce que
11
Ces deux classes sont aussi notes |+, .
12
Il arrivera galement que nous notions S = |(x
1
, u
1
), (x
2
, u
2
), ..., (x
m
, u
m
) lchantillon dapprentissage quand
la rptition des exemples nest pas prise en compte par lalgorithme (ce qui est le cas par exemple de lalgo-
rithme de lespace des versions (chapitre 4)). Nous verrons galement des cas dans lesquels les exemples sont
associs un poids non entier (cas du boosting par exemple, au chapitre 17).
C
e

d
o
c
u
m
e
n
t

e
s
t

l
a

p
r
o
p
r
i


e
x
c
l
u
s
i
v
e

d
e

O
l
i
v
i
e
r

B
E
R
N
H
A
R
D

(
o
l
i
v
i
e
r
.
s
i
m
p
l
e
l
i
f
e
@
g
m
a
i
l
.
c
o
m
)

-

1
2

m
a
i

2
0
1
4


1
4
:
2
2
Chapitre 1 De lapprentissage naturel lapprentissage articiel 23
Fig. 1.6: partir dun chantillon de points tiquets, ici gurs par des points + et des points
, lapprenant cherche une partition de A permettant de discriminer les formes x
appartenant au concept de celles ny appartenant pas.
lon appelle la proprit de compltude) et ne couvrir aucun des exemples ngatifs (ce que lon
appelle la proprit de correction).
Dans ce cadre restreint, on peut maintenant poser deux questions :
Quelle information est fournie par chaque exemple ?
Comment, sur la base de lchantillon dapprentissage, choisir une hypothse, cest--dire,
dans le cas de lestimation dune fonction indicatrice, une partition de A ?
5.1 Lapprentissage est impossible. . .
Dans le cadre de linduction de concept, donc dune fonction indicatrice dnie sur lespace
A des entres, lapprentissage revient chercher une partition de lespace A. En eet, il sagit
didentier les rgions de A, donc les formes x, correspondant au concept vis (voir gure 1.6).
Que peut nous apprendre un chantillon dexemples o sur cette partition ?
Supposons que lapprenant soit prt considrer toutes les partitions possibles de A, donc que
nimporte quel tiquetage des formes x A soit possible a priori. Cela signie que si le cardinal
de A, not [A[, est ni, il existe 2
[.[
partitions possibles de A.
Supposons alors que nous cherchions dterminer la classe dun point x A inconnu connais-
sant la classe de tous les points dapprentissage x
i
A. Comment procder ?
Puisque nous manipulons des partitions de A, nous pourrions considrer toutes les partitions
cohrentes avec lchantillon dapprentissage, puis dcider alors de la classe de x en fonction de
ces partitions. Si toutes les partitions cohrentes avec lchantillon o prescrivent que x appartient
au concept, ou au contraire ny appartient pas, cela dterminera notre dcision pour la classe
de x. Supposons mme que toutes ces partitions ne soient pas daccord sur la classe de x, nous
pourrions encore dcider que la classe de x est la classe majoritaire parmi les prdictions de
toutes les partitions cohrentes avec lchantillon dapprentissage.
Malheureusement, aucun de ces deux cas de gure ne se prsente. Il se trouve que si lon prend
toutes les partitions cohrentes avec nimporte quel ensemble de points dapprentissage o (cest-
-dire prdisant correctement ltiquette de chacun de ces points), et si lon prend nimporte quel
point x , o, alors il existe autant de partitions prdisant ltiquette 1 pour x que de partitions
prdisant ltiquette 0. Lchantillon dapprentissage lui tout seul ne fournit donc pas une base
C
e

d
o
c
u
m
e
n
t

e
s
t

l
a

p
r
o
p
r
i


e
x
c
l
u
s
i
v
e

d
e

O
l
i
v
i
e
r

B
E
R
N
H
A
R
D

(
o
l
i
v
i
e
r
.
s
i
m
p
l
e
l
i
f
e
@
g
m
a
i
l
.
c
o
m
)

-

1
2

m
a
i

2
0
1
4


1
4
:
2
2
24 PARTIE 1 : Les fondements de lapprentissage
susante pour dcider de la classe dun point nouveau. Linduction, cest--dire lextrapolation
du connu linconnu est impossible. Seul un apprentissage par cur est ralisable.
Les deux questions soulignes dans la section prcdente ont donc reu une rponse qui jette
pour le moins une ombre sur la possibilit de linduction. Chaque exemple ne fournit aucune infor-
mation sur une forme inconnue. Toutes les partitions de lespace A cohrentes avec lchantillon
sont galement probables et leurs prdictions sannulent en chaque point inconnu. Laventure de
lapprentissage articiel tournerait-elle court ?
Exemple Apprentissage de fonction boolnne (1)
Soit un ensemble A de points dcrits par n attributs binaires. Chaque partition de A corres-
pond un tiquetage particulier des 2
n
points de A. Il existe donc 2
2
n
partitions direntes
de A ou encore 2
2
n
fonctions indicatrices dnies de A sur {0,1}.
Supposons que lchantillon dapprentissage comporte m exemples distincts. Le nombre de
partitions de A compatibles avec ces m exemples est : 2
2
n
m
puisque m points sur les 2
n
sont xs.
Prenons le cas de n = 10 attributs binaires et de m = 512 exemples dapprentissage. Le
cardinal de A est [A[ = 2
10
, soit 1024 points dirents, ce qui nest pas un espace trs
grand. Il existe 2
1024
manires direntes de les tiqueter par 1 ou 0. Aprs lobservation de
la moiti de ces 1024 points, il reste 2
1024512
partitions possibles, soit 2
512
. On voit que ces
512 exemples laissent un ensemble considrable de partitions possibles.
x
1
x
2
x
3
f(x)
0 0 0 +
0 0 1
0 1 0 +
0 1 1 ?
1 0 0 +
1 0 1 ?
1 1 0 ?
1 1 1
Fig. 1.7: Soit f une fonction binaire dnie sur un espace dentre trois attributs. La table
fournit un chantillon de 5 exemples de cette fonction.
tudions un problme plus simple dans lequel les exemples sont dcrits par trois attributs
binaires. Cela fait 2
3
= 8 formes possibles. Supposons que cinq exemples parmi ces huit
aient t tiquets par loracle, comme le montre la table 1.7. Pour xer compltement une
fonction, il faut dterminer la valeur des trois dernires formes. Il faut donc faire un choix
entre 2
3
= 8 fonctions. Supposons que nous voulions dterminer la valeur associe lentre
(0 1 1). Il y a quatre fonctions parmi les huit qui sont associes la sortie + et quatre
associes la sortie -. Il est donc impossible davoir mme seulement une prfrence pour
une prdiction plutt quune autre concernant ltiquette de ce point.
Nous nous sommes placs dans le cas o lapprenant cherche directement une partition de
lespace dentre A, cest--dire quil cherche dterminer ltiquette de chaque forme x
A. Cest videmment impossible, sauf dans le cas despaces A trs restreints pour lesquels un
apprentissage par cur est envisageable. En dautres termes, il est gnralement impossible
dapprendre une partition de A en extension, cest--dire en numrant toutes les formes et leur
tiquette associe.
C
e

d
o
c
u
m
e
n
t

e
s
t

l
a

p
r
o
p
r
i


e
x
c
l
u
s
i
v
e

d
e

O
l
i
v
i
e
r

B
E
R
N
H
A
R
D

(
o
l
i
v
i
e
r
.
s
i
m
p
l
e
l
i
f
e
@
g
m
a
i
l
.
c
o
m
)

-

1
2

m
a
i

2
0
1
4


1
4
:
2
2
Chapitre 1 De lapprentissage naturel lapprentissage articiel 25
5.2 . . . sans limiter lespace des hypothses
Cest pourquoi on utilise gnralement pour dcrire des partitions de A un langage de descrip-
tion des hypothses, que nous noterons L
1
. Celui-ci permet de dnir un espace dexpressions ou
dhypothses H, par exemple lespace des hypothses dcrites par une conjonction de conditions
sur les descripteurs
13
.
Ainsi, dans lexemple prcdent, on pourrait dcrire des fonctions binaires du type (x
1
=
0) (x
2
= 1) (x
3
= 1). En revanche, ce langage interdit de considrer une fonction telle que
(x
1
= 0 x
2
= 1 x
3
= 1) (x
1
= 0 x
2
= 0 x
3
= 0).
La gure 1.8 donne des exemples de la restriction de lespace des hypothses par un langage
de description.
Fig. 1.8: Introduction dun espace dhypothses H. Chaque point de H, ou encore hypothse,
correspond une partition de lespace des entres A.
Lorsquun espace dhypothses H est disponible, la recherche dune partition de A seectue
par lintermdiaire de H. Il sagit de chercher dans H, une hypothse h correspondant une
partition de A approprie.
Les avantages de lutilisation explicite dun espace dhypothses sont multiples :
1. Dabord, grce au langage L
1
, lapprenant manipule des partitions de A en intension et
non plus en extension. Il travaille sur des expressions du langage L
1
et non pas sur des
ensembles dnis par lnumration de leurs lments.
2. Ensuite, et cest un point capital daprs la discussion de la section prcdente, il devient
possible deectuer une induction partir dun chantillon limit dexemples. Il sut pour
cela que L
1
ne permette pas de dcrire toutes les partitions de A.
Voyons pourquoi.
Nous allons dabord le montrer en reprenant lexemple prcdent.
Exemple Apprentissage de fonction boolnne (2)
Supposons que pour une raison quelconque, lapprenant qui reoit des entres dcrites
sur les trois descripteurs binaires x
1
, x
2
, x
3
ne puisse prendre en compte en fait que le
premier et le troisime descripteurs, cest--dire x
1
et x
3
, pour dcider de ltiquette
de la forme reue. Cela revient dire que le nombre de fonctions que lapprenant peut
considrer est de 4 (2
2
) au lieu des 8 (2
3
) possibles lorsque lon prend en compte les
trois descripteurs.
Cela signie en particulier que si lchantillon dapprentissage contient les exemples
(000) et (010) +, lapprenant ne pourra pas construire une hypothse, cest--
dire une fonction, qui permette den rendre compte.
13
Nous verrons au chapitre 3 quil sagit du langage CNF (Conjunctive Normal Form).
C
e

d
o
c
u
m
e
n
t

e
s
t

l
a

p
r
o
p
r
i


e
x
c
l
u
s
i
v
e

d
e

O
l
i
v
i
e
r

B
E
R
N
H
A
R
D

(
o
l
i
v
i
e
r
.
s
i
m
p
l
e
l
i
f
e
@
g
m
a
i
l
.
c
o
m
)

-

1
2

m
a
i

2
0
1
4


1
4
:
2
2
26 PARTIE 1 : Les fondements de lapprentissage
En revanche, cette fois-ci lchantillon dapprentissage fourni dans la table donne pr-
cdemment lui permet de faire une prdiction pour le point (0 1 1). Ceci parce que la
seule fonction valeur sur x
1
, x
3
et cohrente avec les exemples dapprentissage est la
fonction dont le tableau est le suivant :
x
1
x
3
f(x)
0 0 +
0 1
1 0 +
1 1
Et selon cette fonction, ltiquette de la forme (0 1 1) est .
Nous voyons donc quune limitation de lespace dhypothses rend possible linduction.
Naturellement, ce pouvoir a un prix. Si les illres dont on a muni lapprenant ne cor-
respondent pas avec la fonction cible de la nature ou de loracle, on ne peut pas lapprendre
correctement.
La gure 1.9 est galement une illustration de cette mme ide.
Fig. 1.9: Supposons que le langage de reprsentation des hypothses L
1
corresponde une res-
triction aux parties de A qui sont des rectangles. Dans ce cas, la donne du point +
indiqu par la che implique que tous les points inscrits dans le rectangle dont il dli-
mite un angle sont de classe +. On voit que ds lors, il devient possible dinduire la
classe de points jamais observs dans lchantillon dapprentissage. Par exemple, selon
ce biais, le point dnot par un rond noir est prdit appartenir la classe +.
Pour qualier ces illres qui limitent lespace des fonctions hypothses que peut
considrer lapprenant, on parle dun biais de reprsentation. videmment, tout biais de
reprsentation correspond un acte de foi sur le type dhypothses adquat pour dcrire
le monde. Cet acte de foi peut tre erron auquel cas lapprentissage peut donner de trs
mauvais rsultats (voir gure 1.10). Il faudra parvenir dtecter cette situation.
Nous verrons plus loin que la notion de biais en apprentissage se dnit comme toute
restriction de lensemble des hypothses potentielles, y compris des restrictions qui vont
plus loin que les restrictions portant sur le langage dexpression des hypothses.
3. Finalement, lespace Hdes hypothses peut orir des structures permettant son exploration
de manire plus ou moins systmatique et plus ou moins ecace. En particulier, une relation
dordre sur H corrle avec la gnralit de linduction eectue est trs utile (voir le
chapitre 4).
C
e

d
o
c
u
m
e
n
t

e
s
t

l
a

p
r
o
p
r
i


e
x
c
l
u
s
i
v
e

d
e

O
l
i
v
i
e
r

B
E
R
N
H
A
R
D

(
o
l
i
v
i
e
r
.
s
i
m
p
l
e
l
i
f
e
@
g
m
a
i
l
.
c
o
m
)

-

1
2

m
a
i

2
0
1
4


1
4
:
2
2
Chapitre 1 De lapprentissage naturel lapprentissage articiel 27
Fig. 1.10: Supposons que le langage de reprsentation des hypothses L
1
corresponde une res-
triction aux parties de A qui sont des rectangles et que la partition vraie de
la nature, correspondant aux exemples positifs, soit reprsente par les deux pata-
todes . Dans ce cas, il est impossible dapproximer correctement le concept cible
laide dune hypothse de H.
5.3 Lexploration de lespace des hypothses
Soient un espace dhypothses H, un espace dentre A et un chantillon dapprentissage
o = (x
1
, u
1
), (x
2
, u
2
), ..., (x
m
, u
m
)). La tche de lapprenant est de trouver une hypothse h
approximant au mieux, au sens de la mesure de performance objectif souvent le risque rel ,
une fonction cible f sur la base de lchantillon o dans lequel on suppose que chaque tiquette
y
i
a t calcule grce la fonction f applique la forme x
i
.
Comment trouver une telle hypothse h H? Deux pralables sont ncessaires :
1. savoir valuer la qualit dune hypothse, et ainsi pouvoir dterminer quune hypothse
satisfaisante (voire optimale) a t trouve ;
2. savoir organiser la recherche dans H.
Quel que soit le processus guidant lexploration de H, il est ncessaire que lapprenant puisse
valuer les hypothses h quil considre un instant t de sa recherche. Pour cela, il utilise un
critre inductif, tel que nous lavons esquiss en section 4.3, par exemple un risque empirique.
Cela permet lapprenant de mesurer sa performance sur lchantillon dapprentissage et de
dcider sil doit poursuivre sa recherche dans H ou sil peut sarrter.
Par exemple, dans le cas de lapprentissage supervis de concept, en supposant des descriptions
non bruites des entres, lapprenant cherche une hypothse exprimable dans le langage L
1
couvrant tous les exemples positifs de lchantillon dapprentissage et ne couvrant aucun des
exemples ngatifs. Dans ce cas, le risque empirique sera en eet nul.
La gure 1.11 schmatise la recherche dune hypothse dans le cas dun apprentissage hors
ligne (quand tout lchantillon dapprentissage est suppos demble disponible). La gure 1.12
est relative un apprentissage en ligne, dans lequel les exemples sont fournis squentiellement.
Dans ce dernier cas, on suppose ici que lhypothse courante h
t
est compare lentre courante
z
t+1
= (x
t+1
, u
t+1
) et modie sil y a lieu. Mais on peut galement considrer une squence
dhypothses h
t
) dans le cas o lapprenant calcule itrativement son hypothse sur la base de
lchantillon dapprentissage o.
En supposant qu linstant t, lapprenant juge insatisfaisante son hypothse courante h
t
,
comment peut-il en changer ? Cest l que se dcide lecacit de lapprentissage et que joue la
structure exploitable sur lespace H. Plus celle-ci sera accorde lapprentissage, et plus il sera
C
e

d
o
c
u
m
e
n
t

e
s
t

l
a

p
r
o
p
r
i


e
x
c
l
u
s
i
v
e

d
e

O
l
i
v
i
e
r

B
E
R
N
H
A
R
D

(
o
l
i
v
i
e
r
.
s
i
m
p
l
e
l
i
f
e
@
g
m
a
i
l
.
c
o
m
)

-

1
2

m
a
i

2
0
1
4


1
4
:
2
2
28 PARTIE 1 : Les fondements de lapprentissage
Fig. 1.11: Si lhypothse courante h
t
est insatisfaisante ici elle nexclue pas tous les exemples
ngatifs connus , alors il faut que lapprenant cherche une nouvelle hypothse dans
H. La question est : o doit-il chercher ?
Fig. 1.12: Si lhypothse courante h
t
est insatisfaisante ici elle ne couvre pas le nouvel exemple
z
t+1
= (x
t+1
, u
t+1
) , alors il faut que lapprenant cherche une nouvelle hypothse dans
H. Encore une fois, la question est : o doit-il chercher ?
envisageable dorganiser ecacement lexploration de H. Ainsi, on peut distinguer quatre grandes
classes de possibilits correspondant des connaissances a priori croissantes sur le monde.
1. Il ny a pas despace dhypothse. Cela signie que lapprentissage ne met en jeu que
lespace dentre A et que le rsultat de lapprentissage ne peut tre quune rgle de dcision
ne sappuyant que sur les exemples dapprentissage. Cest le cas de la mthode des plus
proches voisins (voir chapitre 15).
2. Lespace H des hypothses ne prsente aucune structure. Dans ce cas, seule une explo-
ration alatoire est possible. Rien ne permet de guider la recherche, ni mme de tirer parti
des informations dj glanes sur H. Cest le cas o lon ne connatrait rien a priori sur H.
3. Une notion de voisinage est dnissable sur H. Il est alors possible doprer une
exploration par des techniques doptimisation comme le gradient
14
. Lavantage de ces tech-
niques, et ce qui les rend si populaire, cest quelles sont dun usage trs gnral puisquil est
souvent possible de dnir une notion de voisinage sur un espace. Un problme fondamental
est celui de la pertinence de cette notion de voisinage. Une mauvaise relation de voisinage
peut en eet loigner lapprenant des rgions prometteuses de lespace ! Par ailleurs, cest
encore une structure faible qui, sauf dans des cas particuliers (direntiabilit, convexit,
etc. de lespace des hypothses) ne permet pas une exploration rapide.
14
Ce terme inclut ici des mthodes plus ou moins sophistiques y compris les approches de type volution simule
(algorithmes gntiques) et celles des rseaux connexionnistes.
C
e

d
o
c
u
m
e
n
t

e
s
t

l
a

p
r
o
p
r
i


e
x
c
l
u
s
i
v
e

d
e

O
l
i
v
i
e
r

B
E
R
N
H
A
R
D

(
o
l
i
v
i
e
r
.
s
i
m
p
l
e
l
i
f
e
@
g
m
a
i
l
.
c
o
m
)

-

1
2

m
a
i

2
0
1
4


1
4
:
2
2
Chapitre 1 De lapprentissage naturel lapprentissage articiel 29
4. Il est parfois possible de disposer dune structure plus forte permettant dorganiser lexplo-
ration de H. Cest le cas en particulier des structures dordre partiel induites par
des relations de gnralit entre hypothses. Dans ce cas, par exemple, il devient
possible de modier une hypothse errone en la spcialisant juste assez pour quelle ne
couvre plus le nouvel exemple ngatif, ou au contraire en la gnralisant juste assez pour
quelle couvre le nouvel exemple positif fourni. Ce type dexploration, possible en parti-
culier quand lespace des hypothses est structur par un langage (voir chapitre 4), est
gnralement mieux guid et plus ecace quune exploration aveugle.
De ce qui prcde, il est vident que plus la structuration de lespace des hypothses est
forte et adapte au problme dapprentissage, et plus les connaissances a priori, sexprimant en
particulier dans les biais et dans le critre de performance, sont importantes, plus lapprentissage
sera facilit. En contrepartie, bien sr, cela ncessitera un travail de rexion pralable dautant
plus important.
6. Retour sur lorganisation de louvrage
Toute tude de lapprentissage articiel peut se situer par rapport trois ples :
Une approche thorique de lapprentissage sattachant identier ce quil est possible dap-
prendre ou, plus prcisment, ce qui est ncessaire pour quun apprentissage soit possible en
principe.
Une approche dingnieur concern par la ralisation de mthodes dapprentissage sous
formes dalgorithmes et de programmes informatiques.
Une approche dutilisateur intress par les ralisations des programmes dapprentissage et
les problmes quils permettent de rsoudre.
Nous avons essay de rendre compte de ces trois points de vue tout au long de louvrage, mme
si la progression logique impose de partir de prmices plutt conceptuelles et thoriques pour
aller vers la conception de systmes dapprentissage et, de l, vers les applications.
Tout ouvrage gnral sur lapprentissage articiel doit aronter la dicult davoir pr-
senter une collection de mthodes et dalgorithmes parfois issus de communauts scientiques
direntes, pour des motivations diverses (mtaphores biologiques, modles de la physique, ar-
chitecture cognitive...) et souvent dcrits dans les articles scientiques laide de notations non
homognes. Chaque auteur doit alors faire un choix pour organiser, le moins arbitrairement
possible, lexposition de toutes ces techniques. Parmi nos illustres prdcesseurs, Tom Mitchell
[Mit97] a choisi dquilibrer tout au long de louvrage thorie et pratique, limage de son cours
luniversit de Carnegie-Mellon (CMU), sans suivre de principe directeur particulier et en as-
sumant les dirences de notations entre les coles de pense. Pat Langley [Lan96] a fait le pari
audacieux de structurer tout son ouvrage sur les langages de reprsentation des hypothses mani-
puls par les systmes apprenants, en imposant une notation uniforme et des exemples de tches
dapprentissage illustrant lensemble des mthodes. Plus rcemment, Christopher Bishop, dans
un excellent ouvrage [Bis06], propose une lecture compltement baysienne de lapprentissage en
mettant laccent sur des espaces dhypothses considrs comme des distributions de probabilits
et sur des principes inductifs spciques ce point de vue : maximum de vraisemblance, etc.
Pour leur part, Hastie, Tibshirani et Frieman [HTF09], sans ncessairement adopter strictement
le point de vue baysien, prsentent lapprentissage selon une perspective totalement statistique.
Ils insistent ainsi particulirement sur les tests en validation et gnralement sur la manipulation
C
e

d
o
c
u
m
e
n
t

e
s
t

l
a

p
r
o
p
r
i


e
x
c
l
u
s
i
v
e

d
e

O
l
i
v
i
e
r

B
E
R
N
H
A
R
D

(
o
l
i
v
i
e
r
.
s
i
m
p
l
e
l
i
f
e
@
g
m
a
i
l
.
c
o
m
)

-

1
2

m
a
i

2
0
1
4


1
4
:
2
2
30 PARTIE 1 : Les fondements de lapprentissage
de densits de probabilit. Enn, un autre livre digne dattention est celui de Simon Haykin
[Hay08]. Cet ouvrage remarquable est un livre dingnieur, inuenc par le point de vue de la
thorie du contrle et orient vers les rseaux de neurones.
Comme nous lavons dj dit dans lavant-propos, nous avons choisi de suivre un autre principe
structurant. Nous prsentons dans une premire partie les concepts et principes fondamentaux
qui permettent de comprendre et de justier la plupart des mthodes dapprentissage. En par-
ticulier nous nous sommes attachs ltude des conditions sous lesquelles un apprentissage est
possible, ou impossible, et ceci indpendamment dun algorithme particulier. Ceci nous permet
de cerner les conditions ncessaires un apprentissage, ainsi que de motiver lutilisation de cer-
tains principes inductifs que lon retrouve la base de toutes les mthodes dapprentissage. Le
reste de louvrage est ddi aux mthodes et algorithmes dapprentissage ainsi quaux ralisa-
tions associes. An den organiser lexposition, nous avons choisi de centrer notre attention sur
le problme de la recherche dune ou plusieurs hypothse(s) dans lespace dhypothses H. Dans
la section prcdente, nous avons voqu linuence des connaissances pralables sur le processus
de recherche et son ecacit. Plus lespace H se trouve dot dune structure forte, et plus son
exploration peut tre guide, conduisant en gnral une plus grande ecacit. Louvrage adopte
cette ligne directrice en prsentant les mthodes dapprentissage en fonction de la structuration
de H, partant des espaces les mieux structurs, pour aller graduellement vers lapprentissage dans
des espaces minimaux pour lesquels il nexiste mme plus despace dhypothses propre-
ment parler, mais seulement une notion de voisinage dans lespace A des entres et une mesure
de performance. Les trois grandes parties prsentant ces mthodes regroupent ainsi dabord les
mthodes dapprentissage par exploration suivant les directions de recherche fournies par lespace
dhypothses, ensuite les mthodes dapprentissage par optimisation lorsque H ne dispose plus
que dune notion de voisinage et dune mesure de performance, et que sont donc utilisables essen-
tiellement des techniques de gradient, nalement les mthodes dapprentissage par interpolation
qui sont les seules utilisables quand on ne connat plus despace dhypothses a priori.
Plus la connaissance pralable est faible, et plus lapprentissage requiert de donnes pour
aboutir. On ne peut pas gagner sur tous les tableaux. En contrepartie, les mthodes dveloppes
pour les tches dans lesquelles on dispose de peu dinformations pralables sont aussi celles
qui sont dusage le plus gnral, sadaptant tous les contextes. Cest pourquoi ces mthodes
(par exemple les rseaux connexionnistes ou les algorithmes gntiques) sont les plus populaires,
prtes tre essayes sans grands eorts de rexion a priori. Nous avons voulu souligner que
ce calcul est parfois mauvais, et quil est souvent rentable de chercher tirer parti de toutes
les connaissances disponibles. Par ailleurs, il nous semble aussi que les tches dapprentissage
essentiellement numriques qui ont fait ors ces dernires annes vont probablement un jour
cder le pas des tches dapprentissage comme la recherche de documents sur le rseau,
leur analyse automatique, etc. requirant des espaces dhypothses beaucoup plus structurs
et prenant en compte une norme quantit de connaissances. Cest pourquoi nous avons rserv
une place importante ces mthodes, malgr leur usage encore modr dans les applications
actuelles.
Notes pour aller plus loin
Lapprentissage articiel est une discipline jeune, linstar de lintelligence articielle et de
linformatique, mais elle a dj une histoire. Nous la brossons ici grands traits, croyant quil
C
e

d
o
c
u
m
e
n
t

e
s
t

l
a

p
r
o
p
r
i


e
x
c
l
u
s
i
v
e

d
e

O
l
i
v
i
e
r

B
E
R
N
H
A
R
D

(
o
l
i
v
i
e
r
.
s
i
m
p
l
e
l
i
f
e
@
g
m
a
i
l
.
c
o
m
)

-

1
2

m
a
i

2
0
1
4


1
4
:
2
2
Chapitre 1 De lapprentissage naturel lapprentissage articiel 31
est toujours intressant de connatre le pass dune discipline, et que cela peut rvler, par les
tensions mises jour, les problmes profonds, les grandes options, les carts ncessaires.
Il serait bien sr intressant dexaminer ltude de lapprentissage articiel dans une pers-
pective plus large, tant historiquement, en remontant lhistoire de la pense, que par la prise
en compte des parrainages exercs par dautres disciplines : philosophie, psychologie, biologie,
logique, mathmatique, etc. Cette tude qui reste mener dpasse cependant de beaucoup le
cadre de notre ouvrage et nous nous limiterons quelques jalons.
Des principes prliminaires thoriques de lapprentissage sont poss ds les premiers travaux
en statistiques, dans les annes 1920 et 1930, cherchant dterminer comment infrer un modle
partir de donnes, mais surtout comment valider une hypothse par rapport un jeu de
donnes. Fisher en particulier tudie les proprits des modles linaires et comment ils peuvent
tre infrs partir dun chantillon de donnes. la mme priode, linformatique nat avec les
travaux de Gdel, Church puis surtout Turing en 1936, et les premires simulations informatiques
deviennent possibles aprs la seconde guerre mondiale. ct des rexions thoriques et des
dbats conceptuels sur la cyberntique et le cognitivisme, dont nous avons parl dans ce chapitre,
des pionniers essaient de programmer des machines pour raliser des tches intelligentes, intgrant
souvent de lapprentissage. Cest particulirement le cas des premires simulations de tortues ou
souris cyberntiques que lon place dans des labyrinthes en esprant les voir apprendre sen
sortir de plus en plus vite. De son ct, Samuel chez IBM, dans les annes 1959-1962, dveloppe
un programme pour jouer au jeu de dames amricain qui apprend une fonction dvaluation des
positions lui permettant de devenir rapidement un trs bon joueur.
Fig. 1.13: La premire priode de lapprentissage articiel.
Dans les annes 1960, lapprentissage est marqu par deux courants. Dune part, un premier
connexionnisme, qui sous la houlette de Rosenblatt pre du perceptron, voit se dvelopper des
petits rseaux de neurones articiels tests sur des tches dapprentissage supervis de classes
dobjets. Dautre part, des outils conceptuels sur la reconnaissance des formes se dveloppent.
la n des annes 1960, la publication du livre de Minsky et Papert [MP69] qui nonce les
limites des perceptrons a pour eet darrter pour une quinzaine dannes presque toutes les
recherches dans ce domaine. De manire concomittante, laccent mis en intelligence articielle,
dans les annes 1970, sur les connaissances, leur reprsentation et lutilisation de rgles dinfrence
sophistiques (priode des systmes experts) encourage les travaux sur lapprentissage dans des
systmes bass sur des reprsentations des connaissances structures mettant en jeu des rgles
C
e

d
o
c
u
m
e
n
t

e
s
t

l
a

p
r
o
p
r
i


e
x
c
l
u
s
i
v
e

d
e

O
l
i
v
i
e
r

B
E
R
N
H
A
R
D

(
o
l
i
v
i
e
r
.
s
i
m
p
l
e
l
i
f
e
@
g
m
a
i
l
.
c
o
m
)

-

1
2

m
a
i

2
0
1
4


1
4
:
2
2
32 PARTIE 1 : Les fondements de lapprentissage
dinfrence complexes comme la gnralisation, lanalogie, etc. Cest alors le triomphe de systmes
impressionnants ralisant des tches dapprentissage spciques en simulant plus ou moins des
stratgies mises en jeu dans lapprentissage humain. On retiendra en particulier le systme Arch
de Winston en 1970 (voir chapitre 2) qui apprend reconnatre des arches dans un monde de blocs
partir dexemples et de contre-exemples ; le systme AM de Lenat en 1976, qui dcouvre des
conjectures dans le domaine de larithmtique par lutilisation dun jeu dheuristiques elles-mmes
apprises dans le systme Eurisko du mme auteur en 1982, ou bien encore le systme Meta-
Dendral de Mitchell qui apprend des rgles dans un systme expert ddi lidentication de
molcules chimiques.
Cest aussi une priode durant laquelle le dialogue est facile et fcond entre les psychologues et
les praticiens de lapprentissage articiel, les hypothses portant dans les deux communauts sur
des concepts comme les mmoires court terme et long terme, le type procdural ou dclaratif
des connaissances, etc. Do aussi des systmes comme ACT de Anderson testant des hypothses
gnrales sur lapprentissage de concepts mathmatiques dans lducation.
Fig. 1.14: La deuxime priode de lapprentissage articiel.
Cependant, aussi spectaculaires soient-ils, ces systmes prsentent des faiblesses qui viennent de
leur complexit. La premire, la moins dterminante mais nammoins inuente, est quils sont la
limite de ce qui est ralisable dans le cadre dun travail de thse, cest--dire le quantum daction
dans linstitution scientique. La deuxime est que leur ralisation implique ncessairement un
grand nombre de choix, petits et grands, souvent implicites, et qui de ce fait ne permettent
pas une rplication aise des expriences, et surtout jettent le doute sur la porte gnrale et
gnrique des principes mis en avant. Cest pourquoi les annes 1980 ont vu progressivement se
tarir les travaux portant sur de telles simulations quelques brillantes exceptions prs comme
les systmes Act ou Soar.
De plus, ces annes ont vu une rmergence trs puissante du connexionnisme en 1985, avec en
particulier la dcouverte dun nouvel algorithme dapprentissage par descente de gradient pour les
perceptrons multicouche (voir chapitre 10). Cela a profondment modi ltude de lapprentis-
sage articiel en ouvrant grand la porte tous les concepts et techniques mathmatiques portant
sur loptimisation et sur les proprits de convergence. Paralllement lintrusion des mathma-
tiques continues, dautres mathmaticiens se sont engours (derrire Valiant en 1984 [Val84])
C
e

d
o
c
u
m
e
n
t

e
s
t

l
a

p
r
o
p
r
i


e
x
c
l
u
s
i
v
e

d
e

O
l
i
v
i
e
r

B
E
R
N
H
A
R
D

(
o
l
i
v
i
e
r
.
s
i
m
p
l
e
l
i
f
e
@
g
m
a
i
l
.
c
o
m
)

-

1
2

m
a
i

2
0
1
4


1
4
:
2
2
Chapitre 1 De lapprentissage naturel lapprentissage articiel 33
dans la brche ouverte par la notion despace des versions due Mitchell (voir chapitre 4) et
qui en gros permet denvisager lapprentissage comme la recherche, dans un espace dhypothses
dni a priori, dune hypothse cohrente avec les donnes. Dun seul coup lapprentissage tait
vu non plus comme la recherche dalgorithmes simulant une tche dapprentissage, mais comme
un processus dlimination dhypothses ne satisfaisant pas, ou mal, un critre doptimisation. Il
sagissait alors dans ce cadre de chercher comment un chantillon de donnes tir alatoirement
pouvait permettre didentier une bonne hypothse dans un espace dhypothses donn. Ctait
extrment droutant, et comme le langage utilis dans ces recherches tait assez loign de celui
des praticiens de lapprentissage articiel, ceux-ci continurent dvelopper des algorithmes plus
simples mais plus gnraux que ceux de la dcennie prcdente : arbres de dcision (chapitre 13),
algorithmes gntiques (chapitre 8), induction de programmes logiques (chapitre 5), etc.
Ce nest que dans les annes 1990, et surtout aprs 1995 et la parution dun petit livre de
Vapnik [Vap95], que la thorie statistique de lapprentissage (chapitres 2 et 21) a vritablement
inuenc lapprentissage articiel en donnant un cadre thorique solide des interrogations et
des constatations empiriques eectues dans la pratique de lapprentissage articiel.
Fig. 1.15: La troisime priode de lapprentissage articiel.
Le dveloppement actuel de la discipline est domin la fois par un eort thorique vigoureux
dans les directions ouvertes par Vapnik et les thoriciens de lapproche statistique, et par un
redploiement vers la mise lpreuve des techniques dveloppes sur de grandes applications
nalit conomique, comme la fouille de donnes, ou nalit socio-conomiques, comme la
gnomique.
Par ailleurs, ct des tches classiques dinduction, telles la classication ou la rgression,
de nouvelles applications sollicitent de nouvelles formes dapprentissage. Ainsi, par exemple,
les systmes de recommandation qui se dveloppent sur Internet bncieraient, et bncient,
dalgorithmes capables dapprendre trier partir dexemples particuliers de prfrences. Cest ce
que lon appelle le problme du ranking (voir chapitres 2 et 20). De mme, la disponibilit de
trs grandes bases dexemples, dont la plupart non tiquets, par exemple les pages indexes sur
Internet, a motiv une approche de lapprentissage pouvant tirer parti des informations fournies
par un tel chantillon. Il sagit de lapprentissage semi-supervis (voir chapitre 19). Les donnes
proviennent de plus en plus de mesures schelonnant sur le temps, ce que lon appelle des ots
de donnes. L encore, de nouveaux algorithmes, de data streaming et dapprentissage en ligne,
C
e

d
o
c
u
m
e
n
t

e
s
t

l
a

p
r
o
p
r
i


e
x
c
l
u
s
i
v
e

d
e

O
l
i
v
i
e
r

B
E
R
N
H
A
R
D

(
o
l
i
v
i
e
r
.
s
i
m
p
l
e
l
i
f
e
@
g
m
a
i
l
.
c
o
m
)

-

1
2

m
a
i

2
0
1
4


1
4
:
2
2
34 PARTIE 1 : Les fondements de lapprentissage
doivent tre mis au point. Nous citerons aussi des apprentissages partir dexemples composites,
comme des molcules, qui ne peuvent pas tre dcrits par des vecteurs. Lapprentissage multi-
instance (voir chapitre 21) est lune des rponses ce problme.
Il est indniable que pour le moment lapprentissage est ressenti comme ncessaire dans de trs
nombreux champs et que nous vivons un ge dor pour cette discipline. Cela ne doit cependant
pas faire oublier les immenses territoires laisss en friche (voir chapitre 20), ni la ncessit de
renouer le dialogue avec les psychologues, les didacticiens, et plus gnralement tous ceux qui
travaillent sur lapprentissage sous une forme ou une autre.
Les lecteurs intresss par des articles gnraux sur lapprentissage peuvent se reporter
des articles parus dans des magazines scientiques, dont : plusieurs numros hors srie de la
revue Science & Vie : Le cerveau et lintelligence dc. 1991, quoi sert le cerveau ? juin 1996,
Le cerveau et la mmoire mars 1998, Les performances de la mmoire humaine sept. 2000, Le
sicle des robots juin 2009 ; des numros hors srie de la revue La Recherche : Lintelligence
articielle oct. 1985, La mmoire juil. 1994, Lintelligence dc. 1998, La mmoire et loubli juil.
2001, Cerveau sans mmoire 2003, La mmoire 2006, Lintelligence mars 2009, Spcial Mmoire.
Nouveaux regards sur le cerveau juillet-aot 2009 ; un numro hors srie de la revue Pour la
Science : La mmoire : le jardin de la pense avril 2001.
Une large littrature existe sur les fondements philosophiques de lintelligence articielle ou
sur son histoire, dont une part non ngligeable provient de travaux franais. Nous citons ici
des ouvrages faciles se procurer, mais nous encourageons le lecteur faire des recherches plus
amples (voir [And92, BKL00, Cre97, Dup94, Eng96, Pin97]).
Voici une liste non exhaustive de revues spcialises sur lapprentissage articiel :
Journal of Articial Intelligence Research (JAIR) accessible gratuitement sur Internet (http:
//www.jair.org/)
Journal of Machine Learning Research (disponible gratuitement sur
http://jmlr.csail.mit.edu/)
Machine Learning journal (ncessite un abonnement :
http://www.springer.com/computer/ai/journal/10994)
Data Mining and Knowledge Discovery journal
Transactions on Knowledge and Data Engineering
IEEE PAMI
Voici aussi une liste de confrences compltement ddies lapprentissage articiel. Beaucoup
dautres dans le domaine de lintelligence articielle, de la reconnaissance des formes et de la
fouille de donnes sont aussi pertinentes :
Confrence francophone dApprentissage (CAP) : confrence annuelle francophone qui a pris
la suite des Journes Franaises dApprentissage (JFA) depuis 1999.
European Conference on Machine Learning and on Principles of Knowledge Discovery in
Databases (ECML-PKDD) : confrence annuelle europenne (mais internationale).
International Conference on Machine Learning (ICML) : confrence annuelle internationale
(mais domine par les Amricains).
Neural Information Processing Systems (NIPS) : confrence annuelle internationale ddie
lapproche numrique et statistique de lapprentissage et la modlisation du systme
nerveux.
International conference on Knowledge Discovery in Databases (KDD) : confrence annuelle
C
e

d
o
c
u
m
e
n
t

e
s
t

l
a

p
r
o
p
r
i


e
x
c
l
u
s
i
v
e

d
e

O
l
i
v
i
e
r

B
E
R
N
H
A
R
D

(
o
l
i
v
i
e
r
.
s
i
m
p
l
e
l
i
f
e
@
g
m
a
i
l
.
c
o
m
)

-

1
2

m
a
i

2
0
1
4


1
4
:
2
2
Chapitre 1 De lapprentissage naturel lapprentissage articiel 35
internationale ddie aux applications de lapprentissage articiel et de la fouille de donnes.
Pacic-Asia Conference on Knowledge Discovery and Data Mining (PAKDD) : confrence
annuelle internationale ddie aux applications de lapprentissage articiel et de la fouille
de donnes.
Uncertainty in Articial Intelligence (UAI) : confrence annuelle internationale ddie prin-
cipalement lapproche statistique de lintelligence articielle et de lapprentissage.
Une liste plus complte de ressources et dappels communication se trouve sur notre site :
http://www.lri.fr/~antoine/Research/intro-cfp.html
Rsum
Il existe plusieurs types ou problmes dapprentissage qui sont dnis par un certain
nombre de caractristiques dont lespace des donnes, lespace des hypothses et
le protocole rgissant les interractions de lapprenant avec son environnement. On
distingue particulirement lapprentissage supervis pour lequel un oracle fournit les
rponses dsires, lapprentissage non supervis et lapprentissage par renforcement.
Ltude de lapprentissage tourne en particulier autour de deux questions :
Lapprentissage est-il possible pour un problme et des donnes dapprentissage
particuliers ?
Lapprentissage est-il ralisable ecacement ?
Les rponses ces deux questions dpendent en grande partie de lespace des hypo-
thses :
Pour que lapprentissage soit possible, il est ncessaire quil existe un biais dap-
prentissage.
Lecacit de lapprentissage dpend de la force de ce biais et de la structuration
de lespace des hypothses.
C
e

d
o
c
u
m
e
n
t

e
s
t

l
a

p
r
o
p
r
i


e
x
c
l
u
s
i
v
e

d
e

O
l
i
v
i
e
r

B
E
R
N
H
A
R
D

(
o
l
i
v
i
e
r
.
s
i
m
p
l
e
l
i
f
e
@
g
m
a
i
l
.
c
o
m
)

-

1
2

m
a
i

2
0
1
4


1
4
:
2
2
C
e

d
o
c
u
m
e
n
t

e
s
t

l
a

p
r
o
p
r
i


e
x
c
l
u
s
i
v
e

d
e

O
l
i
v
i
e
r

B
E
R
N
H
A
R
D

(
o
l
i
v
i
e
r
.
s
i
m
p
l
e
l
i
f
e
@
g
m
a
i
l
.
c
o
m
)

-

1
2

m
a
i

2
0
1
4


1
4
:
2
2
Chapitre 2
Premi` ere approche th eorique de
linduction
Regardons passer un vol de cygnes en le indienne. Pouvons-nous prdire quel sera
le prochain oiseau passer ? Encore un cygne ? Une oie ? Le vol va-t-il sarrter ?
Dans combien de temps passera un autre vol ? Que ce soit laide dexpriences de
pense impliquant des volatiles ou plus classiquement des meraudes (vertes jusquici,
mais bleues peut-tre partir de demain
1
), les philosophes ont cherch comprendre
linduction, ce qui rend possible le passage de lobservation dvnements passs la
prdiction.
ses dbuts, lapprentissage articiel a eectu de linduction comme M. Jourdain de
la prose, sans sarrter tous les problmes profonds lis linduction comme forme
de raisonnement. Aprs la ralisation de quelques systmes pionniers et de quelques
techniques impressionnantes, mais diciles matriser, ltude de linduction est
devenue petit petit plus rigoureuse.
En apprentissage articiel, linduction met en jeu dabord un problme, donc des rgles
du jeu et une mesure de performance, ensuite un principe inductif qui spcie ce quest
lhypothse idale tant donn un problme, et nalement un algorithme qui ralise
au mieux le principe inductif, cest--dire qui cherche eectivement loptimum dni
par le principe inductif. Ce chapitre est concern par les deux premiers points. Une
fois le problme dapprentissage pos, plusieurs principes inductifs sont imaginables :
choisir lhypothse qui saccorde le mieux avec les donnes observes jusque-l, ou bien
choisir lhypothse permettant la description la plus conomique de ces donnes, ou
dautres encore. Ltude thorique, relativement rcente, des conditions de validit de
ces grands principes a conduit la dnition de principes inductifs plus sophistiqus
qui sont la base de nouvelles mthodes dapprentissage.
1
Il sagit dune mtaphore classique, initialement introduite par le philosophe Goodman, pour discuter de
linduction. Voir le chapitre de J.G Ganascia dans [DKBM00].
C
e

d
o
c
u
m
e
n
t

e
s
t

l
a

p
r
o
p
r
i


e
x
c
l
u
s
i
v
e

d
e

O
l
i
v
i
e
r

B
E
R
N
H
A
R
D

(
o
l
i
v
i
e
r
.
s
i
m
p
l
e
l
i
f
e
@
g
m
a
i
l
.
c
o
m
)

-

1
2

m
a
i

2
0
1
4


1
4
:
2
2
38
Sommaire
1 Poser un problme dapprentissage . . . . . . . . . . . . . . . . . . . . 40
1.1 Dnition du scnario dapprentissage . . . . . . . . . . . . . . . . . . . 40
1.1.1 Cas de lapprentissage supervis pour la classication . . . . . 41
1.1.2 Cas de la rgression . . . . . . . . . . . . . . . . . . . . . . . . 41
1.1.3 Cas de lapprentissage de fonction de tri (ranking) . . . . . . . 42
1.2 Formalisation des objectifs de lapprentissage . . . . . . . . . . . . . . . 43
1.2.1 Cas de lapprentissage supervis pour la classication et la r-
gression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
1.2.2 Cas de lapprentissage de fonction de tri (ranking) . . . . . . . 45
2 Approches baysiennes et approche directe pour dcider . . . . . . 46
2.1 Approches baysiennes . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
2.2 Approche directe par calcul de fonction de dcision . . . . . . . . . . . . 48
3 Le critre inductif . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
3.1 Trois grands principes inductifs . . . . . . . . . . . . . . . . . . . . . . . 49
3.1.1 Principe de minimisation du risque empirique (MRE) . . . . . 49
3.1.2 Apprentissage baysien . . . . . . . . . . . . . . . . . . . . . . 50
3.1.3 Principe de compression maximale dinformation . . . . . . . . 52
3.2 Les infrences baysiennes . . . . . . . . . . . . . . . . . . . . . . . . . . 53
3.2.1 Linfrence baysienne pure . . . . . . . . . . . . . . . . . . . . 54
3.2.2 La rgle du maximum a posteriori (MAP) . . . . . . . . . . . . 55
3.2.3 La rgle du maximum de vraisemblance . . . . . . . . . . . . . 55
3.2.4 Discussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
3.3 Minimisation du risque empirique : exemples de traductions . . . . . . . 57
3.3.1 Cas de lapprentissage pour classer . . . . . . . . . . . . . . . . 57
3.3.2 Cas de la rgression . . . . . . . . . . . . . . . . . . . . . . . . 58
3.3.3 Cas de lestimation de densit . . . . . . . . . . . . . . . . . . 59
3.3.4 Cas de lapprentissage de fonction de tri (ranking) . . . . . . . 60
3.3.5 Cas de la prdiction en ligne . . . . . . . . . . . . . . . . . . . 60
4 Analyse du principe de minimisation du risque empirique . . . . . 60
4.1 La loi des grands nombres . . . . . . . . . . . . . . . . . . . . . . . . . . 63
4.2 Le compromis biais-variance . . . . . . . . . . . . . . . . . . . . . . . . . 67
4.3 La consistance du MRE dans le cas de H ni . . . . . . . . . . . . . . . 68
4.4 Le cas o H contient la fonction cible . . . . . . . . . . . . . . . . . . . 70
4.5 Quelques leons partielles . . . . . . . . . . . . . . . . . . . . . . . . . . 72
4.6 Vers un principe MRE contrl . . . . . . . . . . . . . . . . . . . . . . . 73
5 Le lien entre le pass et le futur et le no-free-lunch theorem . . . . 73
5.1 Le no-free-lunch theorem : toutes les mthodes se valent ! . . . . . . . . 74
5.2 Leons tirer du no-free-lunch theorem . . . . . . . . . . . . . . . . . . 77
6 Notes historiques et bibliographiques . . . . . . . . . . . . . . . . . . 78
PARTIE 1 : Les fondements de lapprentissage
C
e

d
o
c
u
m
e
n
t

e
s
t

l
a

p
r
o
p
r
i


e
x
c
l
u
s
i
v
e

d
e

O
l
i
v
i
e
r

B
E
R
N
H
A
R
D

(
o
l
i
v
i
e
r
.
s
i
m
p
l
e
l
i
f
e
@
g
m
a
i
l
.
c
o
m
)

-

1
2

m
a
i

2
0
1
4


1
4
:
2
2
Chapitre 2 Premire approche thorique de linduction 39
T
out le monde sait distinguer un corbeau dun canard. La couleur, le cri, la vitesse du
vol, la silhouette, beaucoup dattributs les sparent. Toute personne qui observe lun
de ces deux oiseaux peut lui donner son nom pratiquement sans erreur. Pourtant, cet
observateur na certainement pas dj vu tous les corbeaux ni tous les canards. Mais
partir dobservations en nombre limit, il a appris les distinguer, cest--dire trouver des
rgularits permettant leur identication. Cette forme dapprentissage, tirant des lois gnrales
partir dobservations particulires, sappelle induction ou gnralisation.
Il y a dans le paragraphe ci-dessus un autre exemple dinduction : il est crit tout le monde
sait ... , ce qui est une gnralisation (exagre). Il faudrait dabord xer le cadre o cette loi
est opratoire, la temprer par des contraintes gographiques ( En France, tout le monde... ),
zoologiques (il y a en France beaucoup despces de canards et plusieurs de corbeaux), etc. Mais
mme dans un cadre plus prcis, cette armation ne fait que gnraliser des observations. Elle
signie en ralit presque tous les gens que jai observs dans cet exercice sont capables sous
certaines conditions de distinguer un corbeau dun canard . Do la formulation raccourcie, qui
nonce une loi extraite dobservations.
Induire : expliquer, prdire, faire simple
Si lon se place dun point de vue philosophique, linduction est lie plusieurs notions :
La gnralisation, cest--dire le passage dobservations particulires des classes dvne-
ments ou des lois sappuie souvent sur une recherche dexplications. En eet, classiquement,
une explication scientique est dnie comme une assignation causale. On parvient ex-
pliquer un phnomne si on la reli de faon univoque des antcdents travers une ou
plusieurs loi(s) de la nature. Ainsi un corbeau est dirent dun canard parce que la thorie
de lvolution des espces selon un certain schma idalement dductif dicte que, dans nos
rgions tempres, en cette priode de lvolution, peuvent coexister un certain nombre des-
pces prsentant certaines caractristiques spciques. Cela dtermine des classes danimaux
possibles, dont celles que lon nomme corbeaux et canards. Si tout va bien, cette thorie va
expliquer pourquoi les volatiles peuvent exister dans certaines classes de poids, prsenter
certaines couleurs, etc. partir de l, il devient possible de savoir comment distinguer des
classes doiseaux.
Une explication, qui consiste remonter dun phnomne connu ses causes inconnues,
est valide quand elle peut tre retourne en un outil de prdiction permettant daller de
causes connues des phnomnes encore inconnus. Linduction est donc galement lie
la capacit de prdiction. Cette prdiction nest peut-tre pas vraie 100%, mais elle est
fonde et gnralement valide. Il est rare de rencontrer en France des canards noirs comme
des corbeaux, et cela pourrait sexpliquer par la thorie de lvolution.
Finalement, ct de leur pouvoir prdictif, les descriptions et les explications sont aussi ju-
ges laune de leur simplicit, de leur lgance et de leur fcondit par rapport lensemble
des connaissances. La thorie de lvolution est-elle bien insre dans les connaissances g-
nrales ? Est-elle performante dans dautres contextes ? Plus prosaquement, cette thorie
permet-elle de prdire que lon peut distinguer les canards des corbeaux partir de leur
couleur seulement (en France) ? Est-il besoin pour distinguer un canard dun corbeau de
mesurer la longueur des plumes de leurs ailes, alors que des critres simples susent.
Linduction est donc intrinsquement lie aux concepts dexplication, de prdiction et dconomie
de description. Nous trouverons la trace de ces liens tout au long de louvrage.
C
e

d
o
c
u
m
e
n
t

e
s
t

l
a

p
r
o
p
r
i


e
x
c
l
u
s
i
v
e

d
e

O
l
i
v
i
e
r

B
E
R
N
H
A
R
D

(
o
l
i
v
i
e
r
.
s
i
m
p
l
e
l
i
f
e
@
g
m
a
i
l
.
c
o
m
)

-

1
2

m
a
i

2
0
1
4


1
4
:
2
2
40 PARTIE 1 : Les fondements de lapprentissage
Linduction articielle
Le point de vue dcrit ci-dessus prsuppose chez lagent cognitif lexistence de tout un en-
semble de connaissances sophistiques. Ce genre de connaissances complexes (comme la thorie
de lvolution) ne se trouve pas encore chez les agents cognitifs articiels. Du point de vue de
lingnieur, le problme est dinfrer par des moyens automatiques une bonne rgle de dcision
partir dun chantillon restreint de donnes sur le phnomne tudi. Cette rgle de dcision peut
avoir deux buts, non contradictoires : soit permettre uniquement la prdiction sur une nouvelle
observation (loiseau que je vois maintenant, est-ce un canard ou un corbeau ?), soit correspondre
la dcouverte dune thorie gnrale du phnomne qui la fois lexplique et permet de prdire
ce qui se passera dans chaque cas particulier possible (il sut de considrer la couleur pour savoir
quel type doiseau on a aaire : corbeau ou canard).
Do les questions fondamentales suivantes :
Quest-ce qui autorise gnraliser partir dun chantillon limit de donnes ?
Comment raliser cette extrapolation ? Suivant quel principe ? Est-ce quune bonne explica-
tion des donnes disponibles est la promesse dune bonne capacit de prdiction ?
Quelles garanties peut-on avoir sur les performances dune extrapolation ?
Ce chapitre a pour objectif de prsenter les outils conceptuels et thoriques qui ont t dvelopps
pour rpondre ces questions.
1. Poser un problme dapprentissage
Supposons que lon ait un objectif du type :
Raliser un systme capable dapprendre quels sont les traitements les plus ecaces partir
de lexamen de bases de donnes mdicales.
Concevoir un centre de contrle domotique optimisant les dpenses nergtiques dune mai-
son partir de lobservation des habitudes de ses occupants.
Concevoir un systme de surveillance domicile de personnes victimes de la maladie dAlz-
heimer capable dadapter ses missions et ses seuils dalarme lvolution de la maladie.
...
Comment sy prendre ?
La premire tape consiste prciser les objectifs de lapprentissage et le scnario dinteraction
entre le systme apprenant et son environnement.
1.1 Dnition du scnario dapprentissage
Le scnario dapprentissage spcie :
la forme des entres (e.g. vecteurs dattribut-valeur, ensembles de valeurs, squences, des-
criptions semi-structures (par exemple, une description XML), descriptions structures) ;
la forme des sorties (e.g. dcision binaire (0/1), classication : une classe parmi un ensemble
de classes, dcision associe un degr de certitude, sortie structure (par exemple, un rseau
smantique)) ;
le protocole, cest--dire ce qui rgle les interactions entre lapprenant et lenvironnement
(voir section 4.2.2).
An de prciser la forme que doit prendre un scnario dapprentissage, nous allons envisager
plusieurs cas.
C
e

d
o
c
u
m
e
n
t

e
s
t

l
a

p
r
o
p
r
i


e
x
c
l
u
s
i
v
e

d
e

O
l
i
v
i
e
r

B
E
R
N
H
A
R
D

(
o
l
i
v
i
e
r
.
s
i
m
p
l
e
l
i
f
e
@
g
m
a
i
l
.
c
o
m
)

-

1
2

m
a
i

2
0
1
4


1
4
:
2
2
Chapitre 2 Premire approche thorique de linduction 41
1.1.1 Cas de lapprentissage supervis pour la classication
Dans lapprentissage supervis, lapprenant reoit des entres constitues de couples (entre,
tiquette), nots (x
i
, u
i
) et appels exemples dapprentissage. Les entres, ou formes dappren-
tissage x
i
sont prises dans un espace dentres A, et les tiquettes u
i
dans un espace de sortie
. Dans le cas o lespace de sortie est restreint deux valeurs : 0, 1, vrai, faux par
exemple, on parle dapprentissage supervis de concept (concept learning). Si lespace de sortie
est constitu dun ensemble ni dtiquettes
k

1kK
, on parle de classication.
La plupart des tudes existantes supposent que lincertitude propos des exemples rencontrs
est modlise par un processus alatoire correspondant une distribution de probabilit jointe
p
.
sur lespace produit A
2
.
Deux mcanismes deux tapes peuvent tre envisags pour rendre compte de cette distribu-
tion sur les exemples.
1. Dans le premier (voir gure 2.1), on suppose une premire tape dans laquelle les formes x
sont engendres selon une distribution p
.
dnie sur A. On suppose que dans une deuxime
tape chaque forme x engendre une sortie y (ou u si il sagit dun exemple dapprentissage)
selon une distribution conditionnelle chaque forme p
[.
.
P
Y|X
P
X
x < x, y >
Fig. 2.1: Premier scnario de gnration dexemples.
2. Le second scnario est dual du prcdent. On y suppose que cest dabord la classe y dun
exemple qui est engendre selon une distribution a priori p

, puis que la forme associe x


est engendre selon une distribution conditionnelle p
.[
(voir gure 2.2).
P
Y
P
X|Y
y < x, y >
Fig. 2.2: Second scnario de gnration dexemples.
La loi jointe sur les exemples peut ainsi tre dcompose comme : p
.
= p

p
.[
= p
.
p
[.
.
Dans ce cadre, lorsque lapprenant agit comme un classieur, il doit rsoudre le problme
suivant : tant donne une ralisation dun exemple x, dcider quelle classe appartient x. Une
rgle de classication ou de dcision est donc une fonction h : A , qui dtermine la classe, ou
ltiquette, h(x) laquelle devrait tre assigne la forme dentre x. En apprentissage articiel,
cette fonction, qui est eectivement ralise grce un algorithme, est appele hypothse, do
la notation h
3
.
1.1.2 Cas de la rgression
Dans le cas de la rgression, la supervision est numrique. Lapprenant reoit de lexpert des
couples (entre, sortie), nots (x
i
, u
i
), o u
i
est un scalaire de R (dans le cas gnral, un vecteur
de R
n
).
2
An dallger les notations, nous utiliserons p
XY
pour dnoter p
XY
(x, y), et de mme pour p
X
au lieu de p
X
(x)
et p
Y
au lieu de p
Y
(y), sauf si le contexte ncessite de prciser.
3
En statistique, la tradition est de nommer cette notion modle.
C
e

d
o
c
u
m
e
n
t

e
s
t

l
a

p
r
o
p
r
i


e
x
c
l
u
s
i
v
e

d
e

O
l
i
v
i
e
r

B
E
R
N
H
A
R
D

(
o
l
i
v
i
e
r
.
s
i
m
p
l
e
l
i
f
e
@
g
m
a
i
l
.
c
o
m
)

-

1
2

m
a
i

2
0
1
4


1
4
:
2
2
42 PARTIE 1 : Les fondements de lapprentissage
1.1.3 Cas de lapprentissage de fonction de tri (ranking)
Le problme dapprendre trier des objets ou les ordonner a stimul un intrt croissant
ces dernires annes. Ce problme apparat en eet naturellement dans des tches de recherche
dinformation (information retrieval ) sur Internet par exemple, de recommandation (collaborative
ltering) ou, en gnral, chaque fois que lon veut ordonner les rponses possibles, comme cest
le cas aussi dans la prise de dcision.
La formalisation de ce problme est loin dtre stabilise tant les variations rencontres dans
les applications peuvent tre importantes concernant la forme des exemples dapprentissage, celle
des sorties dsires, les mesures de performance considrer, etc.
Le scnario le plus gnrique semble cependant tre celui rencontr en recherche dinformation.
Le systme de tri prend en entre une liste de documents D = d
1
, d
2
, . . . , d
m
, dune part, et une
requte q, dautre part. Le systme produit en sortie la liste ordonne, soit de tous les documents,
soit des n meilleurs dentre eux (voir gure 2.3).
D = {d
1
, d
2
, . . . , d
m
}
q

d
(1)
d
(2)
.
.
.
d
(n)

Fig. 2.3: Tche de tri de documents.


Pour raliser ce tri, le systme met en uvre une fonction qui peut soit attribuer une valeur
h(q, d) chaque document d en fonction de la requte q, ce qui permet de classer les documents,
soit plus directement tablir une relation de prfrence, note ~, sur les documents telle que
d
i
~ d
j
si le document d
i
est prfr au document d
j
.
Lapprentissage seectue laide dun chantillon de requtes q
1
, . . . , q
m
et des rponses as-
socies, cest--dire de listes ordonnes de documents. Dans le cas de la gure 2.4, on a suppos
que lapprentissage produit une fonction h(q, d) permettant de calculer la valeur dun document
d pour une requte q. Une autre possibilit pourrait tre que la fonction h calcule directement
le rang du document d pour la requte q.
Ici encore, on suppose gnralement que lchantillon dapprentissage est tir alatoirement
suivant une distribution inconnue sur les requtes et sur les documents.
Les scnarios exposs ci-dessus pour des problmes dapprentissage frquents sont loin dtre
exhaustifs. Ainsi, par exemple, le chapitre 16 dcrit le scnario correspondant lapprentissage
par renforcement pour des apprentissages stendant dans le temps. Des scnarios types, peu
nombreux, ont t dnis en apprentissage articiel, et, force dtre repris, ils ont ni par
simposer comme des vidences. Il ne faut pourtant pas hsiter les aborder avec un esprit
critique et tre prt dnir un nouveau scnario si la tche limpose
4
.
4
Nous ne pouvons ici rsister rapporter une anecdote. En 1994, lun dentre nous discutait avec un minent
thoricien et dfendait le besoin daborder des scnarios pouvant rendre compte des eets de squence en
apprentissage, cest--dire du fait que lordre de prsentation des exemples peut jouer un rle. Ce chercheur
balaya cette ide ses yeux totalement iconoclaste. Puisque le scnario standard de donnes i.i.d. (indpen-
C
e

d
o
c
u
m
e
n
t

e
s
t

l
a

p
r
o
p
r
i


e
x
c
l
u
s
i
v
e

d
e

O
l
i
v
i
e
r

B
E
R
N
H
A
R
D

(
o
l
i
v
i
e
r
.
s
i
m
p
l
e
l
i
f
e
@
g
m
a
i
l
.
c
o
m
)

-

1
2

m
a
i

2
0
1
4


1
4
:
2
2
Chapitre 2 Premire approche thorique de linduction 43
Echantillon
d'apprentissage
Hypothse
h(q, d)

d
1
, h(q, d
1
)
d
2
, h(q, d
2
)
.
.
.
d
n
, h(q, d
n
)

q
{(d
1
, ?), (d
2
, ?),
. . . , (d
n
, ?)}

d
1
, 5
d
2
, 3
.
.
.
d
n
, 22

.
.
.

d
1
, 2
d
2
, 7
.
.
.
d
l
, 4

q
1
q
m
Fig. 2.4: Scnario pour lapprentissage de tri.
Aprs avoir spci le scnario dapprentissage, il faut dnir lobjectif de lapprentissage.
1.2 Formalisation des objectifs de lapprentissage
chaque problme dapprentissage peut tre associ un problme doptimisation, cest--dire
un ou plusieurs critres mesurant les aspects que lon cherche amliorer.
Lorsque lobjectif principal est dtablir des prdictions et de prendre des dcisions, laccent est
naturellement mis sur une mesure derreur sur les prdictions. Lorsque lobjectif est davantage de
comprendre un phnomne dont on a observ un chantillon limit, la mesure de performance peut
inclure des critres dinterprtabilit de la fonction de dcision produite, ct de sa performance
en prdiction.
Nous allons examiner comment lobjectif de lapprentissage a t formalis dans le cadre de
plusieurs tches.
1.2.1 Cas de lapprentissage supervis pour la classication et la rgression
Lorsque lapprentissage a pour but la prdiction dtiquettes partir de la description de
formes dentre, lidal serait naturellement que la fonction de dcision apprise h concide avec la
fonction cible f qui serait utilise par la nature. dfaut de pouvoir atteindre un tel objectif, une
mesure de performance raisonnable est la probabilit derreur de la fonction de dcision apprise :
R
Rel
(h) = p
.
h(x) ,= y (2.1)
cest--dire la mesure, selon la distribution de probabilit p
.
, de lerreur commise par lhypo-
thse apprise h.
damment et identiquement distribues) sappuyait sur des thormes de type MinMax, cest--dire face au
pire cas, il ntait nul besoin de faire appel des formalisations plus nes. Quelques annes plus tard, ce mme
thoricien devenait un ardent dfenseur de nouveaux critres adapts lapprentissage en ligne et clamait quil
tait vident quaucun jeu de donnes ntait rellement i.i.d. et que donc le scnario standard tait limit,
voire dfectueux !
C
e

d
o
c
u
m
e
n
t

e
s
t

l
a

p
r
o
p
r
i


e
x
c
l
u
s
i
v
e

d
e

O
l
i
v
i
e
r

B
E
R
N
H
A
R
D

(
o
l
i
v
i
e
r
.
s
i
m
p
l
e
l
i
f
e
@
g
m
a
i
l
.
c
o
m
)

-

1
2

m
a
i

2
0
1
4


1
4
:
2
2
44 PARTIE 1 : Les fondements de lapprentissage
Exemple
Supposons que lespace dentre A corresponde une mesure de taille (A = R), et que
lespace de sortie soit deux valeurs : = Femme, Homme. Le monde est caractris par une
certaine distribution de probabilit sur A et : p
XY
. Par exemple, p
X
pour x = 1.80m est
assez forte alors quelle est faible pour x 1.40m (peu dhommes ou de femmes de plus de
18 ans mesurent moins de 1.40m). Supposons aussi que p(y = Femme[x = 1.80m) << p(y =
Homme[x = 1.80m). Dans les zones de forte densit de probabilit de A, il faut que la fonction
de dcision h soit prcise (i.e. quelle prdise souvent y = Homme pour x proche de 1.80m),
car ces zones participent beaucoup la mesure de performance (2.1). Il est moins important
que cette fonction de dcision se trompe dans les rgions de A de faible densit, par exemple
en-dessous de 1.40m.
Plus gnralement, si des cots dirents sont associs des types derreurs dirents, cela est
traduit par une fonction de perte (loss function) , dnie comme suit :
(h) : A R
+
(x, y) (h(x), y) (2.2)
Exemple (Fonction de perte asymtrique)
La fonction de perte peut tre asymtrique. Par exemple, en mdecine, il peut tre moins
coteux de diagnostiquer tort une pathologie et de la traiter (pour rien), que de passer
ct de cette pathologie et de ne rien faire.
Exemple (Fonction de perte 0/1)
Dans lapprentissage de concept, cest--dire lorsque la sortie peut prendre seulement deux
valeurs {vrai, faux} interprtes comme appartenant au concept ou nappartenant pas au
concept, une fonction de perte trs utilise compte pour 1 chaque erreur de prdiction.
l(h(x), y) =
_
0 si h(x) = y
1 si h(x) ,= y
(2.3)
Exemple (Fonction de perte quadratique)
Pour les tches de rgression particulirement la fonction derreur quadratique est gnra-
lement utilise. Elle est en eet adapte au cas o un bruit additif gaussien corrompt les
donnes (voir chapitre 9).
l(h(x), y) = (h(x) y)
2
(2.4)
Exemple (Fonctions de perte distances)
Plus gnralement, les fonctions de distance peuvent tre utilises :
l(h(x), y) = [h(x) y[
p
(2.5)
o p > 0 est un nombre x. Les valeurs p = 1 et p = 2 sont les plus usites.
C
e

d
o
c
u
m
e
n
t

e
s
t

l
a

p
r
o
p
r
i


e
x
c
l
u
s
i
v
e

d
e

O
l
i
v
i
e
r

B
E
R
N
H
A
R
D

(
o
l
i
v
i
e
r
.
s
i
m
p
l
e
l
i
f
e
@
g
m
a
i
l
.
c
o
m
)

-

1
2

m
a
i

2
0
1
4


1
4
:
2
2
Chapitre 2 Premire approche thorique de linduction 45
Dnition 2.1 (Risque rel)
La performance attendue de la fonction de dcision h apprise est dnie comme lesprance du
cot encourue si lon utilise h dans le monde associ la distribution de probabilit p
.
. On
appelle cette performance, le risque rel, (la notation L(h) est souvent galement utilise).
R
Rel
(h) = E[(h(x), y)] =
_
x.,y
(h(x), y) p
.
dxdy (2.6)
Dnition 2.2 (Fonction de dcision optimale)
En supposant que la fonction de dcision h soit prise lintrieur dun ensemble de fonctions
H, lhypothse optimale, note h

, pour un environnement spci par p


.
et par la fonction de
perte est :
h

= ArgMin
h1
R
Rel
(h) (2.7)
Si lon veut spcier la meilleure dcision y pour une entre x, on obtient la rgle de dcision
de Bayes(1702-1761).
Dnition 2.3 (Rgle de dcision optimale de Bayes)
La sortie optimale y

pour une entre x est :


y

= ArgMin
y

_
y
(y
t
, y) p
[.
(y[x) dy (2.8)
Il sagit donc dune sorte de centre de gravit de toutes les dcisions y possibles minimisant
la perte tant donne lentre x. Il faut bien noter que cette rgle de dcision optimale nappartient
pas ncessairement H. On notera son risque rel associ R

.
1.2.2 Cas de lapprentissage de fonction de tri (ranking)
Soit x, y une paire de variables alatoires prise dans A IR, o A est un espace numrable
de formes dentres (e.g. des documents). Et soit x
t
, y
t
une autre paire de variables alatoire
suivant la mme distribution que x, y, et indpendante. Notons Z =
yy

2
.
Dans le problme de tri, on observe x et x
t
, mais gnralement pas leur tiquette (qui peut
tre par exemple une valuation de leur pertinence). On dira que x est meilleur que x
t
si y > y
t
,
cest--dire si Z > 0.
Le but est dordonner x et x
t
de telle manire que la probabilit que la meilleure dentre
ces formes soit aecte dune tiquette plus petite que lautre soit aussi faible que possible.
Formellement, une rgle de tri est une fonction r : A A 1, 1. Si r(x, x
t
) = 1, cela signie
que la rgle met x avant x
t
. La performance de la rgle de tri est mesur par le risque de tri :
L(r) = PZ r(x, x
t
) < 0 (2.9)
cest--dire par la probabilit que r trie deux formes dentre de manire errone.
C
e

d
o
c
u
m
e
n
t

e
s
t

l
a

p
r
o
p
r
i


e
x
c
l
u
s
i
v
e

d
e

O
l
i
v
i
e
r

B
E
R
N
H
A
R
D

(
o
l
i
v
i
e
r
.
s
i
m
p
l
e
l
i
f
e
@
g
m
a
i
l
.
c
o
m
)

-

1
2

m
a
i

2
0
1
4


1
4
:
2
2
46 PARTIE 1 : Les fondements de lapprentissage
Selon ce point de vue, le problme de tri devient quivalent un problme de classication
binaire dans lequel le signe de la variable alatoire Z doit tre estim partir de la paire x, x
t
.
La rgle de tri de risque minimal r

peut alors tre caractrise de la manire suivante :


Soient :

+
(x, x
t
) = PZ > 0 [ x, x
t
,

(x, x
t
) = PZ < 0 [ x, x
t

Alors, la rgle de risque minimal r

est dnie (en utilisant la fonction I


x
qui prend la valeur 1
quand x > 0 et 0 autrement) par :
r

= 2 I
[
+
(x,x

(x,x

)[
1
Notons L

= L(r

) = Emin(
+
(x, x
t
),

(x, x
t
)). Alors pour toute rgle de tri r, on a :
L

L(r).
Le problme dapprentissage consiste trouver une rgle de tri de faible risque partir de
donnes dapprentissage o
m
= (x
1
, y
1
), . . . , (x
m
, y
m
). Pour chaque rgle candidate r, on peut
valuer son risque L(r) = PZ r(x, x
t
) < 0. Lune des estimations les plus utilises est la
U-statistique :
L
m
(r) =
1
m(m1)

i,=j

i,=j
I
[Z
i,j
r(x,x

)<0[
o Z
i,i
=
y
i
y
j
2
Les U-statistiques ont t tudies en profondeur. Une des ingalits classiques les concernant
est celle dHoeding selon laquelle pour tout t > 0, si
2
= Var(I
[Z
i,j
r(x,x

)<0[
) = L(r)(1 L(r)),
alors :
P[L
m
(r) L(r)[ > t 2 exp
_

(n/2)|t
2
2
2
+ 2t/3
_
(2.10)
o le symbole x| dnote lentier immdiatement infrieur x.
Un cadre plus gnral que le prcdent considre le tri non plus de deux observations x
et x
t
seulement, mais celui de m observations dun seul coup. Dans ce cas, une rgle de tri
r(x
1
, x
2
, . . . , x
m
) fournit un classement sous la forme dune permutation de 1, . . . , m. Le
but est alors que concide ou soit aussi proche que possible de la permutation pour laquelle
y
(1)
. . . y
(m)
. tant donne une fonction de perte l qui retourne un nombre compris dans
[0, 1] pour une paire de permutations en entre, le risque de tri est dni comme :
L(r) = El(r(x
1
, . . . , x
m
), )
On a alors gnralement recours une U-statistique dordre m.
2. Approches baysiennes et approche directe pour dcider
Nous avons dcrit le problme de lapprentissage comme celui de la recherche dune hypothse
ou fonction de dcision performante en terme desprance de perte sur les vnements venir.
Plusieurs approches permettent daborder ce problme.
2.1 Approches baysiennes
Les approches baysiennes dcomposent le processus en deux tapes. Dabord, une tape
dinfrence de modles statistiques des donnes de type p
[.
(x), puis une tape de dcision
C
e

d
o
c
u
m
e
n
t

e
s
t

l
a

p
r
o
p
r
i


e
x
c
l
u
s
i
v
e

d
e

O
l
i
v
i
e
r

B
E
R
N
H
A
R
D

(
o
l
i
v
i
e
r
.
s
i
m
p
l
e
l
i
f
e
@
g
m
a
i
l
.
c
o
m
)

-

1
2

m
a
i

2
0
1
4


1
4
:
2
2
Chapitre 2 Premire approche thorique de linduction 47
sappuyant sur ces probabilits a posteriori pour calculer la dcision y

optimale, selon lqua-


tion (2.8). Il faut donc dterminer p
[.
(y[x).
Il existe deux manires daborder ce problme. (Rappelons que nous tudions ici un problme
de classication, cest--dire que lespace de sortie est ni, chaque lment u
k
tant
interprt comme ltiquette dune classe de formes).
1. La premire consiste utiliser la formule de Bayes :
p
[.
(y[x) =
p
.[
(x[y) p

(y)
p
.
(x)
(2.11)
Cela implique de calculer la distribution de probabilit conditionnelle p
.[
(x[u
k
) pour
chaque classe u
k
, et dinfrer les probabilits a priori des classes p

(u
k
). Le dnomi-
nateur peut se calculer comme :
p
.
(x) =

u
k

p
.[
p

(u
k
) (2.12)
Cette approche est qualie de gnrative car la connaissance de la distribution sur les
entres p
.
et des distributions conditionnelles p
[.
permet de gnrer des exemples syn-
thtiques (x
i
, u
i
) selon la mme distribution relle p
.
si les distributions estimes sont
correctes.
2. La deuxime mthode consiste estimer directement les probabilits a posteriori p
[.
(u
k
[x),
et retenir la meilleure classe grce lquation (2.8). Cela ne permet plus de gnrer des
exemples synthtiques, mais des informations sur la forme des classes y
k
restent ncessaires.
Bishop [Bis06] qualie cette approche de discriminante.
x
p(x|
2
)
p(x|
1
)
p(
1
|x) p(
2
|x)
Frontire de dcision
x
Fig. 2.5: Exemple dune tche de classication deux classes. gauche, selon lapproche gnra-
tive, on a estim les probabilits conditionnelles p
.[
(x[u
k
). droite, selon lapproche
discriminative, seules les probabilits a posteriori sont estimes. La connaissance des
dtails des distributions p
.[
(x[u
k
) na pas deet sur la dtermination du seuil de
dcision.
La premire approche, lapproche gnrative, est la plus exigeante en terme dinformation
acqurir. Elle demande en particulier que soient estimes les distributions jointes sur A et
sur chaque classe u
k
. Lorsque la dimension de lespace dentre A est leve, cela requiert un
trs grand chantillon dapprentissage. Lintrt de connatre la distribution p
.
est de pouvoir
C
e

d
o
c
u
m
e
n
t

e
s
t

l
a

p
r
o
p
r
i


e
x
c
l
u
s
i
v
e

d
e

O
l
i
v
i
e
r

B
E
R
N
H
A
R
D

(
o
l
i
v
i
e
r
.
s
i
m
p
l
e
l
i
f
e
@
g
m
a
i
l
.
c
o
m
)

-

1
2

m
a
i

2
0
1
4


1
4
:
2
2
48 PARTIE 1 : Les fondements de lapprentissage
dtecter plus facilement les exemples tranges (outliers). En revanche, ce dtour semble inutile
quand lobjectif est de faire de la classication, qui peut utiliser directement les probabilits
a posteriori p
[.
(u
i
[x). La gure 2.5 illustre linutilit de connatre en dtail la structure des
classes pour une tche de classication.
Ce dbat sur linformation ncessaire pour rsoudre la tche courante a t men plus loin par
Vapnik (1935 ou 1938, -), en particulier dans [Vap95] page 28. Pourquoi, en eet, chercher
estimer des distributions de probabilit qui requirent lestimation prcise de nombreux pa-
ramtres quand ce que lon cherche est une fonction de dcision, cest--dire une frontire dans
lespace dentre A, qui, en gnral, implique beaucoup moins de paramtres ?
2.2 Approche directe par calcul de fonction de dcision
Dans lapproche directe pour la classication, il est pris acte que la seule chose ncessaire pour
dcider de la classe dappartenance (ou plus gnralement de ltiquette) dun exemple est une
fonction h(x) dnie sur A et qui retourne la classe (ou ltiquette) y de lexemple x fourni.
Lavantage est que, a priori ou en fonction des caractristiques du problme dapprentissage, on
peut dcider quelle classe H de fonctions hypothses doit tre considre. On pourra ainsi rgler
le nombre de paramtres que lon est prt estimer en fonction de la richesse des informations
fournies lapprenant. De plus, cette approche est gnralement plus robuste que lapproche
baysienne, dans la mesure o une erreur de modlisation ou destimation de paramtres peut
facilement conduire une dcision errone, alors que la dtermination directe dune fonction de
dcision est moins sensible aux hypothses formules a priori sur le monde. Ainsi, par exemple,
sil a t suppos que les donnes sont gnres par une distribution gaussienne, alors quelles le
sont en ralit par une distribution queue plus paisse, la frontire de dcision optimale peut
se trouver nettement dirente de celle obtenue en forant ladaptation dune gaussienne aux
donnes (voir gure 2.6).
x
p(x|
2
)
p(x|
1
)
Fig. 2.6: La frontire de dcision estime sur la base dune distribution gaussienne de la classe

1
(en tirets) peut nettement direr de la frontire de dcision optimale avec la vraie
distribution des donnes (trait continu).
La notion de probabilit ne joue plus aucun rle dans cette approche, sauf, ventuellement, a
posteriori, pour valuer la signicativit des hypothses produites. Il nest plus possible de gnrer
des exemples synthtiques. Dun certain ct, on ne cherche plus comprendre les donnes,
mais le seul but est de prdire correctement. Dun autre ct, la connaissance des frontires de
C
e

d
o
c
u
m
e
n
t

e
s
t

l
a

p
r
o
p
r
i


e
x
c
l
u
s
i
v
e

d
e

O
l
i
v
i
e
r

B
E
R
N
H
A
R
D

(
o
l
i
v
i
e
r
.
s
i
m
p
l
e
l
i
f
e
@
g
m
a
i
l
.
c
o
m
)

-

1
2

m
a
i

2
0
1
4


1
4
:
2
2
Chapitre 2 Premire approche thorique de linduction 49
dcision dans A, et de leur expression dans H, peut conduire un autre type de description et
donc de comprhension.
3. Le critre inductif
Lobjectif de lapprentissage est dni en terme de performance future attendue ou espre.
Dans ce cadre, on cherche une fonction de dcision qui optimise cette performance. Mais il nest
videmment pas possible doptimiser directement le ou les critre(s) traduisant cette performance
puisque celle-ci est dnie sur des vnements nayant pas encore eu lieu. Il faut donc avoir
recours un objectif de substitution, dni sur le pass, et dont on espre quen loptimisant, on
optimisera galement le vrai objectif de lapprentissage. Cet objectif de substitution est appel
critre inductif.
Mais avant dexaminer les critres inductifs usuels, qui dnissent autant de problmes dopti-
misation, il est bon de prendre de la hauteur et dexaminer trois points de vue, dordre presque
philosophique, sur la nature de linduction. On parle alors de principes inductifs.
3.1 Trois grands principes inductifs
On peut identier trois grandes classes de critres inductifs fonds sur des prsupposs di-
rents sur la nature de linduction. Leur analyse montre cependant que, bien heureusement, ces
critres entretiennent des relations troites.
3.1.1 Principe de minimisation du risque empirique (MRE)
Dans le cas de lapprentissage dune rgle de dcision h, lobjectif est de trouver une rgle h

optimisant lesprance de perte dont nous rappelons lquation :


R
Rel
(h) = L(h) = E[(h(x), y)] =
_
x.,y
(h(x), y) p
.
dxdy
Si la distribution de probabilit p
.
tait connue, loptimisation de cette quantit serait du
ressort de mthodes dintgration numrique (voir par exemple [RLPB08]) et de minimisation
multi-dimensionnelle, voire de mthodes dvolution simule. Naturellement, elle ne lest pas,
sinon il ny aurait pas de problme dapprentissage.
Il faut donc soit lestimer par la mthode gnrative, soit court-circuiter en partie cette es-
timation et estimer directement les densits de probabilit a posteriori p
[.
, selon la mthode
discriminative, soit la remplacer par une quantit empirique, on parle de risque empirique, tire
de lchantillon dapprentissage. Cette dernire approche est celle du Principe de Minimisation
du Risque Empirique (MRE) (Empirical Risk Minimization ou ERM).
Formellement, cela consiste remplacer la distribution jointe p
.
par :
p
Emp
=
1
m
m

i=1

x
i
(x)
u
i
(y) (2.13)
dnie grce lchantillon dapprentissage o
m
= (x
1
, u
1
), (x
2
, u
2
), . . . , (x
m
, u
m
)) Z
m
.
5
La
fonction
x
(x
t
) est gale 1 si x = x
t
et 0 sinon. On se ramne donc une densit de probabilit
dont les seules rgions non nulles concident avec les points dapprentissage.
5
Par souci de simplicit, S
m
sera souvent not S, sauf lorsque lon voudra mettre laccent sur sa taille.
C
e

d
o
c
u
m
e
n
t

e
s
t

l
a

p
r
o
p
r
i


e
x
c
l
u
s
i
v
e

d
e

O
l
i
v
i
e
r

B
E
R
N
H
A
R
D

(
o
l
i
v
i
e
r
.
s
i
m
p
l
e
l
i
f
e
@
g
m
a
i
l
.
c
o
m
)

-

1
2

m
a
i

2
0
1
4


1
4
:
2
2
50 PARTIE 1 : Les fondements de lapprentissage
Dnition 2.4 (Risque empirique)
La performance mesure sur lchantillon dapprentissage o
m
= (x
1
, u
1
), (x
2
, u
2
), . . . , (x
m
, u
m
))
Z
m
, est dnie par le risque empirique :
R
Emp
(h) =
1
m
m

i=1
(h(x
i
, u
i
)) (2.14)
Dnition 2.5 (Principe de Minimisation du Risque empirique (MRE))
Le principe de minimisation du risque empirique stipule de choisir lhypothse h qui minimise le
risque empirique :
h

S
= ArgMin
h1
R
Emp
(h) (2.15)
Par rapport aux autres approches essayant destimer des densits de probabilit, lavantage de
cette mthode est quelle conduit loptimisation dune quantit facile calculer. Par ailleurs,
il peut sembler raisonnable de remplacer une intgrale par une somme sur des lments tirs
selon la mme loi. Cependant, nous verrons (section 4) que, sans prcaution, rien ne garantit
quune hypothse h

S
minimisant le risque empirique R
Emp
ait galement un bon comportement
par rapport au risque rel R
Rel
, cest--dire permette dobtenir une bonne rgle de dcision.
3.1.2 Apprentissage baysien
Fondamentalement, lapproche baysienne se distingue de lapprentissage direct dune rgle de
dcision par le fait quelle part dune densit de probabilit suppose connue a priori p
1
sur
lespace des hypothses H (aussi appele prior) et quelle retourne une densit de probabilit a
posteriori sur H, p
1[?
m, aprs observation de lchantillon dapprentissage. Typiquement, il est
attendu que la distribution de probabilit sur H prsente des pics plus marqus aprs observation
de lchantillon dapprentissage.
Soit o
m
lchantillon dapprentissage de taille m, dans lequel on adoptera par souci de simpli-
cation la notation : x
m
= x
1
, . . . , x
m
et u
m
= u
1
, . . . , u
m
. On a ainsi, daprs la formule de
Bayes :
h H : p
1[?
m
=S
m
(h) =
p
?
m
[1=h
(o
m
) p
1
(h)
E
1
_
p
?
m
[1=h
(o
m
)
=
vraisemblance de h
..
p

m
[.
m
=x
m
,1=h
(u
m
)
prior sur h
..
p
1
(h)
E
1
_
p

m
[.
m
=x
m
,1=h
(u
m
)

. .
vraisemblance du modle 1
(2.16)
o on a utilis le fait que p
?
m
[1=h
(o
m
) = p

m
[.
m
=x
m
,1=h
(u
m
) p
.
m(x
m
) puisque les hypothses
h inuencent la gnration des tiquettes u
m

m
mais pas les formes x
m
A
m
.
Lquation dans son ensemble quantie la probabilit a posteriori dune hypothse h aprs
observation de lchantillon de donnes o
m
Z
m
. La collection des formes prsentes dans cet
chantillon est note x
m
A
m
et la collection des tiquettes associes est note u
m

m
.
Notons que, dans le cas de la classication, on peut assimiler les hypothses aux direntes
classes possibles u
i
, do les formules analogues de la section 2.1.
C
e

d
o
c
u
m
e
n
t

e
s
t

l
a

p
r
o
p
r
i


e
x
c
l
u
s
i
v
e

d
e

O
l
i
v
i
e
r

B
E
R
N
H
A
R
D

(
o
l
i
v
i
e
r
.
s
i
m
p
l
e
l
i
f
e
@
g
m
a
i
l
.
c
o
m
)

-

1
2

m
a
i

2
0
1
4


1
4
:
2
2
Chapitre 2 Premire approche thorique de linduction 51
Conformment au thorme de Bayes, cette probabilit a posteriori de h est proportionnelle
la probabilit a priori de h multiplie par la vraisemblance des donnes connaissant lhypothse
h (premire galit ci-dessus).
Nous allons examiner tour tour les trois termes intervenant dans cette expression. Leur sens
est beaucoup plus simple que ce que peut suggrer leurs expressions formelles.
Vraisemblance de h
La vraisemblance de h exprime combien il est probable dobserver la squence dtiquettes
u
m
connaissant la squence de formes x
m
et la dpendance suppose h. Plus formellement, la
vraisemblance de h est dnie comme suit.
Dnition 2.6 (Vraisemblance L(h, x))
tant donne un ensemble de densits de probabilit p
[.=x,1=h
dnies sur lespace et une
observation z = (x, y) Z, on appelle vraisemblance de h la fonction L : H Z R
+
dnie
par :
L(h, z)
def
= p
[.=x,1=h
(y) (2.17)
cest--dire la probabilit dobserver ltiquette y sous la densit de probabilit p
[.=x,1=h
Par extension, on dnit la vraisemblance dune hypothse tant donne une squence L(h, z
m
) =
p

m
[.=x
m
,1=h
.
En tenant compte de lindpendance suppose des exemples, cette vraisemblance sexprime
par :
L(h, z
m
) = p

m
[.=x
m
,1=h
=
m

i=1
p
[.=x
i
,1=h
(u
i
) (2.18)
En passant par le logarithme
6
de cette expression, on obtient la log-vraisemblance qui est une
somme.
LL(h, z
m
) =
m

i=1
log
_
p
[.=x
i
,1=h
(u
i
)
_
(2.19)
Le prior ou probabilit a priori de h
La forme de la distribution p
1
est ce qui permet dexprimer la connaissance a priori dans lap-
prentissage baysien. On prend souvent une distribution uniforme sur A pour exprimer ligno-
rance complte avant observation de donnes
7
.
Vraisemblance du modle H
Le dnominateur de lquation (2.16) exprime la probabilit de la squence dtiquettes u
m
tant donnes une squence de formes x
m
et toutes les hypothses h H pondres par leur
probabilit a priori p
1
(h).
E
1
_
p

m
[.
m
=x
m
,1=h
(u
m
)

=
_
h1
p

m
[.
m
=x
m
,1=h
(u
m
) p
1
(h) dh (2.20)
Cette grandeur peut aussi tre considre comme une mesure de probabilit caractrisant
lespace des hypothses H pour lchantillon dapprentissage o
m
. Cela signie que pour chaque
classe dhypothses H, certaines squences dtiquettes y
m
(pour la squence de formes x
m
)
sont probables et dautres moins. La classe dhypothses choisie a priori favorise donc certaines
6
Qui est une fonction croissante monotone, et donc ne change pas largument donnant le maximum de la
fonction.
7
Qui est un cas particulier du principe dentropie maximale dfendu par Edwin Jaynes (1922-1998), voir [Jay03].
C
e

d
o
c
u
m
e
n
t

e
s
t

l
a

p
r
o
p
r
i


e
x
c
l
u
s
i
v
e

d
e

O
l
i
v
i
e
r

B
E
R
N
H
A
R
D

(
o
l
i
v
i
e
r
.
s
i
m
p
l
e
l
i
f
e
@
g
m
a
i
l
.
c
o
m
)

-

1
2

m
a
i

2
0
1
4


1
4
:
2
2
52 PARTIE 1 : Les fondements de lapprentissage
classications par rapport dautres. Cela conduit considrer le problme de slection de la
classe dhypothses adquate pour un certain problme. On parle aussi de slection de modle.
Un autre calcul de type baysien, pour lequel nous reportons le lecteur ([Her02], pp.78-79),
montre que le meilleur modle, ou classe dhypothses, est celui dont la vraisemblance est la plus
grande aprs observation des donnes. Nous aurons loccasion de revenir plusieurs reprises sur
ce problme fondamental pour lapprentissage.
3.1.3 Principe de compression maximale dinformation
ct du principe de minimisation du risque empirique et de lapproche baysienne sur
lapprentissage, un troisime point de vue considre que la meilleure description des donnes,
conduisant la plus petite erreur possible en gnralisation, est celle qui minimise leur cot de
description (souvent mesur en bits). Une traduction de ce principe inductif est le principe de
compression maximale de linformation ou encore de longueur minimale de description.
Dnition 2.7 (Principe de longueur minimale de description, MDLP)
La meilleure thorie, ou hypothse, ou le meilleur modle, rendant compte dun chantillon dap-
prentissage minimise la somme de deux quantits :
1. la longueur, mesure en bits, de la description de la thorie ;
2. la longueur, mesure en bits, de la description des donnes lorsquelles sont dcrites laide
de la thorie.
Formellement, cela signie que, selon ce principe, lhypothse optimale h

vrie :
h

= ArgMin
h1
_
K(h) +K(o
m
[h)
_
(2.21)
o K(h) mesure la longueur de description de h, et K(o
m
[h) mesure la longueur de description
des donnes o
m
en utilisant lhypothse h (la thorie) pour les coder.
La parent avec le principe baysien est patente. En eet, cette dernire scrit (equation 2.16) :
p
1[?
m
=S
m
(h) =
p
?
m
[1=h
(o
m
) p
1
(h)
E
1
_
p
?
m
[1=h
(o
m
)

Soit en prenant loppos du logarithme de cette expression :


log p
1[?
m
=S
m
(h) = log p
1
(h) log p
?
m
[1=h
(o
m
) + log E
1
_
p
?
m
[1=h
(o
m
)

Comme le dernier terme droite ne joue pas sur le choix de h, on a :


h

= ArgMin
h1
_
log p
1
(h) log p
?
m
[1=h
(o
m
)
_
Cette quation est formellement similaire lquation 21.20. Ce nest pas une concidence.
Nous renvoyons le lecteur au chapitre 21 et lannexe 11 pour une description plus dtaille de
ce principe de compression maximale dinformation et pour dcouvrir le lien profond qui le relie
au point de vue baysien.
C
e

d
o
c
u
m
e
n
t

e
s
t

l
a

p
r
o
p
r
i


e
x
c
l
u
s
i
v
e

d
e

O
l
i
v
i
e
r

B
E
R
N
H
A
R
D

(
o
l
i
v
i
e
r
.
s
i
m
p
l
e
l
i
f
e
@
g
m
a
i
l
.
c
o
m
)

-

1
2

m
a
i

2
0
1
4


1
4
:
2
2
Chapitre 2 Premire approche thorique de linduction 53
3.2 Les infrences baysiennes
Comme il a t expos, lessence de lapproche baysienne est de traiter la distribution sur
lespace H des hypothses comme une variable alatoire. Pour que cela ne soit pas un abus de
langage, on suppose que lespace des hypothses peut tre dcrit par une famille paramtre (par
exemple par le vecteur ) de distributions de probabilit. Le problme de linfrence devient alors
celui du calcul de la distribution a posteriori sur H la lumire de linformation apporte par
des donnes.
Lespoir est que les donnes permettent de concentrer la distribution de probabilit p() autour
dune valeur alors que cette distribution tait plus tale avant la prise en compte des donnes,
retant notre ignorance pralable sur ltat de la nature (voir gure 2.7).
p(|S)
p()

p
(

)
Fig. 2.7: Rvision de la distribution de probabilit sur les hypothses par infrence baysienne
partir dun chantillon de donnes. Gnralement, on observe une concentration de la
distribution autour dune valeur de , ce que lon peut traduire par lmergence dun
sous-ensemble dhypothses devenues beaucoup plus probables.
Avant prise en compte des donnes, lincertitude sur ltat du monde est traduite par la distribu-
tion a priori p(). Par exemple, toutes les hypothses ont mme probabilit a priori p() = C
te
.
Les donnes fournissent une information en modiant la distribution sur grce la formule de
rvision des probabilits due au rvrend Thomas Bayes (1702-1761).
Thorme 2.1 (Rgle de Bayes)
p([o) =
p(o[) p()
p(o)
=
p(o[) p()
_
p(o[) p() d
(2.22)
Pour un jeu de donnes o x, le dnominateur de lquation 2.22 est constant (on y fait varier
, un vecteur de paramtres, sur toutes les valeurs possibles), do la formule de proportionnalit
souvent utilise :
p([o) p(o[) p() (2.23)
La distribution a posteriori de tant donn lchantillon o est donc proportionnelle au produit
de la distribution a priori p() et de la vraisemblance p(o[).
Lorsque la connaissance a priori sur ltat de la nature est faible, on considrera donc une
distribution tale p() (par exemple, une loi normale grande variance). Plus lchantillon
de donnes sera important, plus son inuence dominera dans la mise jour de la distribution a
posteriori, et moins sera inuente la distribution a priori.
C
e

d
o
c
u
m
e
n
t

e
s
t

l
a

p
r
o
p
r
i


e
x
c
l
u
s
i
v
e

d
e

O
l
i
v
i
e
r

B
E
R
N
H
A
R
D

(
o
l
i
v
i
e
r
.
s
i
m
p
l
e
l
i
f
e
@
g
m
a
i
l
.
c
o
m
)

-

1
2

m
a
i

2
0
1
4


1
4
:
2
2
54 PARTIE 1 : Les fondements de lapprentissage
Il est notable, par ailleurs, que les quations 2.22 et 2.23 permettent une mise jour squentielle
de la distribution sur . Ainsi, si la distribution a t mise jour aprs la prise en compte de o
1
,
elle peut-tre nouveau modie en tenant compte de o
2
:
p([o
1
, o
2
) p(o
2
[) p(o
1
[) p() (2.24)
De plus, cette mise jour squentielle, pratique lorsque les donnes sont en grand nombre ou
bien arrivent squentiellement, fournit un rsultat indpendant de lordre de prise en compte des
sous-chantillons (en supposant ceux-ci indpendants conditionnellement tant donn le modle
sous-jacent p).
Notons pour terminer que le dnominateur de lquation 2.22, ou distribution prdictive de o,
p(o) =
_
p(o[) p() d reprsente notre prdiction propos de o. Cette prdiction incorpore
notre incertitude sur grce au prior p(), et notre incertitude sur o quand est connue, par
p(o[). Cette distribution prdictive peut changer avec lobservation de nouvelles donnes. Si
les donnes observes ont une faible probabilit selon la distribution prdictive, alors cela peut
tre le signe que la distribution p a t mal choisie.
Remarque (sur le choix de la distribution a priori )
La distribution a priori exprime la fois notre incertitude sur le monde, plus la distribution est tale,
plus celle-ci est grande, et le type de modle du monde que nous sommes prts considrer. Comme tel,
ce choix est important. Il peut orienter le rsultat obtenu et mme conduire des conclusions parfois
gravement errones si le type de modle considr ne permet pas dexprimer le vrai modle du monde.
Par ailleurs, les calculs de p([o) sont souvent diciles et coteux. Il est donc souhaitable de considrer
des distributions de probabilit permettant des calculs simplis. Cest le cas notamment des distributions
conjugues. Celle-ci ont en eet la proprit que les distributions a priori et a posteriori appartiennent la
mme famille de distributions. Les distributions exponentielles, beta ou normales, par exemple, ont cette
proprit. Cela permet alors des mises jour par adaptation des paramtres au lieu davoir caractriser
toute une distribution de manire complexe.
Jusqu rcemment, le point de vue purement baysien avait surtout une importance philoso-
phique, mais tait de peu de porte pratique. Cela est en train de changer rapidement avec larri-
ve de nouvelles techniques destimation stochastique fondes sur des chantillonnages alatoires
qui permettent destimer et dtudier les distributions des paramtres prdire. Ces mthodes
incluent les Markov Chain Monte-Carlo (MCMC).
3.2.1 Linfrence baysienne pure
Linfrence baysienne pure consiste spcier la rgle de dcision optimale aprs observation
des donnes. Elle ne vise pas, en revanche, dterminer la meilleure hypothse (ou la valeur opti-
male du paramtre ). Dans ce cadre, la rgle de dcision prend en compte toute la connaissance
sur lincertitude lie , cest--dire toute la distribution a posteriori sur .
Par exemple, supposons que la tche dapprentissage consiste prendre la dcision x, qui peut
tre de prdire la consommation lectrique dans une heure, x, partir de o, la connaissance de
consommations lectriques dans le pass. Au lieu de chercher dabord le modle h du monde le
plus probable (ou le paramtre

correspondant), linfrence baysienne pure consiste calculer


lesprance de prdiction an prenant en compte toutes les prdictions possibles p(x[) pondres
par leur probabilit a posteriori p([o) :
C
e

d
o
c
u
m
e
n
t

e
s
t

l
a

p
r
o
p
r
i


e
x
c
l
u
s
i
v
e

d
e

O
l
i
v
i
e
r

B
E
R
N
H
A
R
D

(
o
l
i
v
i
e
r
.
s
i
m
p
l
e
l
i
f
e
@
g
m
a
i
l
.
c
o
m
)

-

1
2

m
a
i

2
0
1
4


1
4
:
2
2
Chapitre 2 Premire approche thorique de linduction 55
Dnition 2.8 (Rgle dinfrence baysienne)
La meilleure prdiction x est celle qui maximise la probabilit :
p(x[o) =
_
p(x, [o) d
=
_
p(x[) p([o) d
(2.25)
la deuxime galit provenant du fait que x est, par dnition, conditionnellement indpendant
des donnes o connaissant .
Cette formule, ncessitant le calcul eectif dune intgrale, est en gnral trs coteuse
valuer. Cest pourquoi les estimations ponctuelles (pointwise estimation), telles que la rgle du
maximum de vraisemblance, sont beaucoup plus employes. Cependant, lapproche baysienne
pure devient de plus en plus accessible alors que la puissance calcul disponible saccrot.
3.2.2 La rgle du maximum a posteriori (MAP)
La rgle du maximum a posteriori (MAP) prend pour base la distribution a posteriori p([o)
calcule par la rgle de Bayes (quation 2.22). Mais, contrairement linfrence baysienne, elle
cherche dabord une estimation du paramtre an de prendre une dcision.
Dnition 2.9 (Principe du maximum a posteriori)
La valeur du paramtre maximisant la probabilit a posteriori est choisie comme estimateur :

MAP
= ArgMax

p([o) (2.26)
Lune des dicults de cette mthode est quelle requiert la connaissance de la distribution
a priori p(). Plusieurs raisons militent pour ignorer ce terme. En particulier, on peut tre
tent dexprimer lignorance totale a priori sur le monde en posant que p() est uniforme (mais
pourquoi uniforme selon lchelle de et pas de
2
par exemple ?).
Si lon dcide dignorer eectivement ce terme, alors on obtient le principe du maximum de
vraisemblance ci-dessous.
3.2.3 La rgle du maximum de vraisemblance
tant donn un chantillon o = z
1
, z
2
, . . . , z
m
de donnes (chaque z
i
pouvant tre une paire
(x
i
, u
i
) dans le cas de lapprentissage supervis), indpendamment tires selon une distribution
paramtre dont on suppose connue la forme p(x[). Le problme dinfrence consiste utiliser
linformation associe o pour trouver une bonne estimation du paramtre inconnu .
La fonction de vraisemblance L([o) est la probabilit que les donnes o aient t produites par
la distribution associe la valeur : p([), cest--dire p(o[). Ici, contrairement lapproche
baysienne pure, ce sont donc les donnes qui sont supposes variables tandis que ltat du monde,
reprsent par , est suppos xe.
C
e

d
o
c
u
m
e
n
t

e
s
t

l
a

p
r
o
p
r
i


e
x
c
l
u
s
i
v
e

d
e

O
l
i
v
i
e
r

B
E
R
N
H
A
R
D

(
o
l
i
v
i
e
r
.
s
i
m
p
l
e
l
i
f
e
@
g
m
a
i
l
.
c
o
m
)

-

1
2

m
a
i

2
0
1
4


1
4
:
2
2
56 PARTIE 1 : Les fondements de lapprentissage
Si les donnes sont supposes indpendantes et identiquement distribues (i.i.d.), alors :
L([o) = L([z
1
, z
2
, . . . , z
m
)
= p(z
1
, z
2
, . . . , z
m
[) =
m

i=1
p(z
i
[)
(2.27)
La notion de vraisemblance des donnes est centrale pour de nombreuses techniques dinfrence
statistique. Il faut noter que lhypothse de tirage i.i.d. nest pas ncessaire pour dnir une
vraisemblance. Par exemple, si les donnes prsentent une dpendance de Markov dordre 1
(telle que z
i
dpend de z
i1
), alors on pourrait dnir la vraisemblance laide de produits du
type p(z
i
[z
i1
, ).
Dnition 2.10 (Principe du maximum de vraisemblance)
La valeur du paramtre pour laquelle la vraisemblance des donnes est maximale est appele
estimation du maximum de vraisemblance.

MLE
= ArgMax

L([o) (2.28)
En anglais, cest le Maximum Likelihood Estimator (MLE)
Intuitivement, cette estimation correspond la valeur du paramtre qui, en un sens, saccorde
le plus aux donnes observes.
En pratique, cest la log-vraisemblance qui est gnralement utilise, en lieu et place de la
vraisemblance, pour rsoudre ce problme destimation car elle permet de remplacer une multi-
plication qui peut tre dlicate (avec des termes de valeurs ventuellement trs proches de 0) par
une addition.
LL([o) =
m

i=1
log(p(z
i
[)) (2.29)
et

MLE
= ArgMax

LL([o)
Pour des problmes simples, le calcul direntiel peut tre utilis pour rsoudre cette quation.
Pour des problmes plus complexes, on cherche une solution lquation :
L([o)

= 0 (2.30)
ou, de manire quivalente :
//([S)

= 0
Lorsque les distributions manipules ne sont pas simples (i.e. essentiellement la loi normale), il
faut avoir recours des techniques doptimisation itratives, ou bien des techniques dexpectation-
maximisation (EM) pour certaines formes paramtriques de la fonction de vraisemblance (voir
chapitre 15).
3.2.4 Discussion
Le point de vue baysien consiste expliciter lincertitude sous la forme la fois de lincertitude
sur le modle, la famille de distribution p

choisie, et de lincertitude sur la valeur des paramtres


estims (il sagit souvent dun vecteur et non dun seul paramtre).
Dans lapproche du maximum de vraisemblance, une estimation ponctuelle du paramtre
est souvent considre comme lobjectif principal. Une analyse baysienne complte (ou pure)
sattache, au contraire, calculer toute la distribution a posteriori p([o) (et, ventuellement
C
e

d
o
c
u
m
e
n
t

e
s
t

l
a

p
r
o
p
r
i


e
x
c
l
u
s
i
v
e

d
e

O
l
i
v
i
e
r

B
E
R
N
H
A
R
D

(
o
l
i
v
i
e
r
.
s
i
m
p
l
e
l
i
f
e
@
g
m
a
i
l
.
c
o
m
)

-

1
2

m
a
i

2
0
1
4


1
4
:
2
2
Chapitre 2 Premire approche thorique de linduction 57
aussi sur la famille de distribution p

elle-mme). La dcision baysienne consiste alors calculer


une moyenne pondre par la probabilit de toutes les valeurs possibles du (ou des) paramtre(s)
(voire des modles envisags). En principe, cette moyenne pondre produit des prdictions plus
prcises que les estimations ponctuelles, telles que celle ralise par le maximum de vraisem-
blance. En pratique, malheureusement, lestimation de toute la distribution de probabilit est
un problme dicile, particulirement lorsque les donnes sont dcrites en grande dimension. De
plus, une prdiction utilisant une moyenne pondre est moins susceptible dtre interprtable
que lorsquune hypothse unique est produite, comme cest le cas pour les estimations ponctuelles
retournant une valeur du paramtre .
Il est utile de noter que le principe du maximum de vraisemblance et lapprentissage baysien
ne se prtent pas aux mmes mthodes de calcul. Le premier se traite comme un problme
doptimisation : il faut chercher le minimum dune fonction derreur. En revanche, dans le second,
lessentiel du calcul implique une intgration sur des espaces de grandes dimensions. Dans ce
dernier cas, les mthodes classiques dintgration ne conviennent pas, et il faut se tourner vers
des mthodes approches, par exemple les mthodes de Monte-Carlo (voir le chapitre 3).
3.3 Minimisation du risque empirique : exemples de traductions
3.3.1 Cas de lapprentissage pour classer
Dans le cas dun problme dapprentissage de concept, ou encore de classication binaire, la
fonction de perte la plus simple est :
l(u
i
, h(x
i
)) =
_
0 si u
i
= h(x
i
)
1 si u
i
,= h(x
i
)
Le risque R
R eel
(h) mesure alors la probabilit de mauvaise classication.
Notons m
err
(h) le nombre dexemples de lensemble dapprentissage o qui sont mal classs par
une certaine hypothse h choisie dans H. Le risque empirique (ou taux derreur apparent) de h
se mesure alors simplement par :
R
Emp
(h) =
m
err
(h)
m
Dans le cas dune classication C classes avec C ,= 2, on a souvent recours la matrice
de confusion.
Dnition 2.1 (Matrice de confusion)
La matrice de confusion empirique M
emp
(i, j) dune rgle de classication h est une matrice
C C dont llment gnrique donne le nombre dexemples de lensemble dapprentissage o de
la classe i qui ont t classs dans la classe j.
La somme des termes non diagonaux divise par la taille m de lensemble dapprentissage nest
autre que le risque empirique (ou erreur apparente) de la rgle de classication.
Exemple Matrice de confusion deux classes
Soit une tche de classication deux classes, alors la matrice de confusion peut tre crite
comme :
X
X
X
X
X
X
X
X
X
X
Estim
Rel
+
+ VP FP
FN VN
C
e

d
o
c
u
m
e
n
t

e
s
t

l
a

p
r
o
p
r
i


e
x
c
l
u
s
i
v
e

d
e

O
l
i
v
i
e
r

B
E
R
N
H
A
R
D

(
o
l
i
v
i
e
r
.
s
i
m
p
l
e
l
i
f
e
@
g
m
a
i
l
.
c
o
m
)

-

1
2

m
a
i

2
0
1
4


1
4
:
2
2
58 PARTIE 1 : Les fondements de lapprentissage
o les lments de la matrice peuvent tre :
Soit des pourcentages : VP correspond alors au taux de Vrais positifs, cest--dire la
proportion dexemples positifs qui sont classs comme positifs par la rgle de classication.
De mme, VN correspond au taux de Vrais Ngatifs, FP aux Faux Positifs et FN
aux Faux Ngatifs.
On a VP + FN = 100 % (des exemples positifs) et FP + VN = 100 % (des ngatifs).
La rgle de classication est parfaite sur les exemples si VP = VN = 100%.
Soit des nombres : VP correspond alors au nombre de Vrais positifs, cest--dire
dexemples positifs qui sont classs comme positifs par la rgle de classication. De mme,
VN correspond au nombre Vrais Ngatifs, FP aux Faux Positifs et FN aux Faux
Ngatifs.
On a VP + FN = m
+
(nombre des exemples positifs) et FP + VN = m

.
Lerreur est alors :
FP+FN
m
.
La matrice de confusion se gnralise directement au cas de plus de deux classes.
3.3.2 Cas de la rgression
La rgression consiste estimer une fonction f valeurs relles, connaissant un chantillon
ni de couples (x, u = f(x)) ou (x, u = f(x +bruit)).
La fonction f estimer peut donc tre considre comme la somme dune fonction dterministe
et dun signal derreur alatoire de moyenne nulle (et le plus souvent considr comme une
gaussienne).
u = f(x) + (2.31)
On peut aussi dcrire ce phnomne en considrant que la fonction dterministe est la moyenne
de la probabilit conditionnelle sur lespace de sortie |.
f(x) =
_
u p(u[x) du (2.32)
Lespace des fonctions hypothse H de lapprenant peut ou non inclure lespace des fonctions
cible T. Une fonction de perte usuelle pour la rgression est la fonction erreur quadratique (L
2
) :
L(u
i
, h(x
i
)) = (u
i
h(x
i
))
2
(2.33)
Lapprentissage consiste alors trouver la fonction h H minimisant la fonctionnelle de risque :
R
R eel
(h) =
_
?=.|
(u h(x))
2
dF(x, u) (2.34)
sur la seule base de lchantillon dapprentissage. Cette fonctionnelle, le risque rel, mesure la
prcision des prdictions de lapprenant.
Remarque
Sous lhypothse que le signal derreur est une gaussienne centre en 0, ce risque peut aussi tre crit en
fonction de la capacit de lapprenant approximer la fonction cible f(x) (et non la sortie u), comme le
montre le calcul suivant :
R
R eel
(h) =
_
(u f(x) +f(x) h(x))
2
p(x, u) dxdu
=
_
(u f(x))
2
dxdu +
_
(h(x) f(x))
2
p(x) dx
+ 2
_
(u f(x))(f(x) h(x)) p(x, u) dxdu
(2.35)
C
e

d
o
c
u
m
e
n
t

e
s
t

l
a

p
r
o
p
r
i


e
x
c
l
u
s
i
v
e

d
e

O
l
i
v
i
e
r

B
E
R
N
H
A
R
D

(
o
l
i
v
i
e
r
.
s
i
m
p
l
e
l
i
f
e
@
g
m
a
i
l
.
c
o
m
)

-

1
2

m
a
i

2
0
1
4


1
4
:
2
2
Chapitre 2 Premire approche thorique de linduction 59
Sous lhypothse que le bruit est de moyenne nulle, le dernier terme dans la somme ci-dessus scrit :
_
(u f(x))(f(x) h(x)) p(x, u) dxdu =
_
((f(x) h(x)) p(u[x) p(x) dxdu
=
_
(f(x) h(x))
__
p(u[x)du
_
p(x) dx
=
_
(f(x) h(x))E ([x) p(x) dx = 0
(2.36)
Le risque peut donc tre rcrit comme :
R
R eel
(h) =
_
(u f(x))
2
p(x, u) dxdu +
_
(h(x) f(x))
2
p(x) dx (2.37)
Le premier terme ne dpend pas de la fonction dapproximation h et peut tre crit en terme de la
variance sur le bruit :
_
(u f(x))
2
p(x, u) dxdu =
_

2
p(u[x) p(x) dxdu
=
_ __

2
p(u[x)du
_
p(x) dx
=
_
E

(
2
[x) p(x) dx
(2.38)
Et substituant (22.9) dans (22.8), on obtient :
R
R eel
(h) =
_
E

(
2
[x) p(x) dx +
_
(h(x) f(x))
2
p(x) dx (2.39)
Le risque pour le problme de rgression (sous lhypothse de fonction de perte L
2
et de bruit de moyenne
nulle) prsente donc une contribution exprimant la variance du bruit et une contribution exprimant la
prcision de la fonction dapproximation. Comme la variance du bruit est indpendante de la fonction
dapproximation, la minimisation du second terme de (22.10) est quivalente la minimisation du risque
(22.5). Ainsi, chercher obtenir le risque de prdiction optimal est quivalent chercher lapproximation
la plus prcise de la fonction cible inconnue f.
3.3.3 Cas de lestimation de densit
Un autre problme inductif important consiste estimer une densit de probabilit dans les-
pace dentre A partir dun chantillon de donnes x
i

1im
. Dans ce cas, il ny a pas ncessit
de considrer un espace de sortie, et la sortie h(x) de lapprenant reprsente une densit sur A.
La fonction de perte usuelle dans ce cas est la fonction :
l(h(x)) = lnh(x) (2.40)
donnant la fonctionnelle de risque :
R
R eel
(h) =
_
lnh(x) p(x)dx (2.41)
Il est tabli [DHS01] que la densit optimale h

minimise cette fonctionnelle de risque. Par


ailleurs, si la densit cible f , H, alors on peut montrer que la solution h minimisant lesprance
de risque ou risque rel est caractrisable : cest celle dont la divergence de Kullback-Leibler avec
la vraie densit f est la plus faible (voir la dnition de la divergence de Kullback-Leibler dans
les chapitres 3, 20 et 21).
C
e

d
o
c
u
m
e
n
t

e
s
t

l
a

p
r
o
p
r
i


e
x
c
l
u
s
i
v
e

d
e

O
l
i
v
i
e
r

B
E
R
N
H
A
R
D

(
o
l
i
v
i
e
r
.
s
i
m
p
l
e
l
i
f
e
@
g
m
a
i
l
.
c
o
m
)

-

1
2

m
a
i

2
0
1
4


1
4
:
2
2
60 PARTIE 1 : Les fondements de lapprentissage
3.3.4 Cas de lapprentissage de fonction de tri (ranking)
Plusieurs mesures de performances ont t proposes, spcialement pour la tche de recherche
dinformation (information retrieval ).
Le Pair-Wise Error Count reprsente le nombre de paires dlments qui sont mal classes
par la rgle de tri par rapport au nombre total de paires.
Le Mean Reciprocal Rank (MRR) sapplique la tche de retourner des lments per-
tinents et non pertinents pour chaque requte (e.g. des documents). Soit r
i
le rang
de llment jug le plus pertinent pour une requte i, alors la mesure du rang rciproque
pour cette requte est 1/r
i
. Le MRR est le rang rciproque moyen pour toutes les requtes
eectues.
Le Winner Takes All (WTA). Sapplique au mme type de tche. Si llment jug le plus
pertinent par la rgle de tri est eectivement pertinente, le compte WTA pour cette requte
vaut 0 ; sinon il prend pour valeur 1. Le WTA gnral est ici aussi la moyenne des WTA sur
lensemble des requtes eectues.
Le Normalized Discounted Cumulative Gain measure (NDCG) est une mesure cumulative de
qualit de tri (et donc le cot correspondant vaut 1 NDCG). Pour une requte donne i,
le NDCG vaut : ^
i
= N
i

L
j=1
(2
r(j)
1)/ log(1+j) o r(j) est le rang donn par la fonction
de tri llment mis au rang j, et o une constante de normalisation N
i
est choisie de telle
manire quun ordre parfait donnerait ^
i
= 1. L est le niveau de tri auquel le NCDG est
calcul. Le score gnral est nouveau obtenu par la moyenne sur lensemble des requtes.
3.3.5 Cas de la prdiction en ligne
Lors de la prdiction en ligne, la tche de lapprenant est de faire une prdiction h(x
t+i
) (avec
i 1) chaque pas de temps t partir dune mmoire des donnes passes et, ventuellement, des
erreurs commises. On peut galement tre plus exigeant et lui demander dexpliciter lhypothse
courante h
t
quil utilise pour raliser sa prdiction.
Une dirence avec lapprentissage hors ligne partir dun chantillon dapprentissage est que
la fonction cible peut changer avec le temps : on parle de drive de concept. Dans ce cas, une
approche intressante est de pondrer les exemples passs pour donner un poids plus impor-
tant aux exemples rcents, senss mieux reprsenter la fonction cible courante, et oublier
progressivement les exemples antrieurs.
Le critre inductif peut alors prendre la forme :
R
Emp
(h
T
) = ArgMin
h1
_
1

t<T
(t)

t<T
(t)
_
u
t
, h
t
(x
t
)
_
_
(2.42)
avec 0 (t) < 1 et

t<T
(t) < .
Nous renvoyons [Cor09] pour une tude plus dtaille des multiples critres inductifs envisa-
geables.
4. Analyse du principe de minimisation du risque empirique
Lobjectif de cette section est dtudier les proprits dun apprentissage guid par le principe
de minimisation du risque empirique. Nous nous limiterons dans ce chapitre introductif certains
C
e

d
o
c
u
m
e
n
t

e
s
t

l
a

p
r
o
p
r
i


e
x
c
l
u
s
i
v
e

d
e

O
l
i
v
i
e
r

B
E
R
N
H
A
R
D

(
o
l
i
v
i
e
r
.
s
i
m
p
l
e
l
i
f
e
@
g
m
a
i
l
.
c
o
m
)

-

1
2

m
a
i

2
0
1
4


1
4
:
2
2
Chapitre 2 Premire approche thorique de linduction 61
cas simples qui suront illustrer quelques principes essentiels rgissant lapprentissage super-
vis. Dautres classes de situations et dautres outils danalyse seront tudis au fur et mesure
de la prsentation de mthodes dapprentissage, et dans le chapitre 21 dapprofondissement.
R-examinons dabord les composantes dun problme dapprentissage.
1. La premire dnit simplement un algorithme dapprentissage comme un systme de calcul
dune sortie partir de la donne de certaines entres.
Dnition 2.11 (Algorithme dapprentissage supervis)
Un algorithme dapprentissage / est un algorithme qui, prenant en entre : un espace de des-
cription A, un espace de sortie et un espace de fonctions hypothses H dnies de A sur ,
ainsi quun chantillon dapprentissage o
m
= (x
i
, u
i
))
1im
, retourne une hypothse h H :
/ :

_
m=1
(A )
m
H
Notons que cette dnition ne dit encore rien dun quelconque critre de performance pour-
suivre. Par ailleurs, il nest pas non plus prcis si lalgorithme retourne toujours, de manire
dterministe, la mme hypothse pour un chantillon ou une squence dapprentissage donn.
Nous rencontrerons les deux types dapprentissage, dterministe ou non, dans la suite de cet
ouvrage. En revanche, en apprentissage articiel, on considre gnralement des hypothses h
dterministes.
Il faut ici rappeler la dirence avec la rgle de Bayes. Celle-ci (voir quation 2.8) ne fait pas
rfrence un espace dhypothses H donn.
2. La deuxime composante concerne le critre de performance vis par lapprentissage. Nous
avons vu quun objectif raisonnable est de chercher une hypothse h minimisant lesprance de
perte, cest--dire le risque rel :
h

= ArgMin
h1
R
Rel
(h)
= ArgMin
h1
_
x.,y
(h(x), y) p
.
dxdy
(2.43)
Ce critre de performance, qui est dni comme une esprance faisant intervenir une distri-
bution dvnements inconnue p
.
, ne peut tre directement vis. Lalgorithme dapprentissage
rpond un chantillon o
m
= (x
i
, u
i
))
1im
de donnes suppos reprsentatif de p
.
. Il est
donc raisonnable dattendre dun bon algorithme dapprentissage quil retourne une hypothse
h

S
H qui sapproche dautant plus dune hypothse optimale h

H, au sens du risque rel,


que la taille de lchantillon saccrot. Cette demande devant a priori tre vrie pour toute
distribution p
.
, on parle de consistance universelle de lapprentissage.
Dnition 2.12 (Consistance universelle)
Un algorithme dapprentissage / a la proprit de consistance universelle si :
p
.
: R
Rel
(/(o
m
)) = R
Rel
(h

S
m
)
m
R
Rel
(h

) (2.44)
Lexistence dapprentissages universellement consistants, dmontre par Stone [Sto77] en 1977,
C
e

d
o
c
u
m
e
n
t

e
s
t

l
a

p
r
o
p
r
i


e
x
c
l
u
s
i
v
e

d
e

O
l
i
v
i
e
r

B
E
R
N
H
A
R
D

(
o
l
i
v
i
e
r
.
s
i
m
p
l
e
l
i
f
e
@
g
m
a
i
l
.
c
o
m
)

-

1
2

m
a
i

2
0
1
4


1
4
:
2
2
62 PARTIE 1 : Les fondements de lapprentissage
est un grand accomplissement de la thorie de lapprentissage
8
. Cela garantit en eet que, tant
donn un chantillon dapprentissage assez grand, le classieur appris, dans le cas de la classi-
cation, sera presque aussi performant que le classieur optimal de Bayes. Malheureusement, il ne
sagit que dun rsultat asymptotique. La convergence vers la rgle optimale peut tre arbitraire-
ment lente, en fonction de la distribution des exemples, et, pour tout chantillon dapprentissage
de taille nie, la dirence de performance entre le classieur optimal et celle du classieur ap-
pris peut tre proche du maximum possible (e.g. de 1/2 dans le cas de la classication binaire).
Concevoir de bons systmes dapprentissage nest donc pas une chose triviale.
Nous souhaiterions tre capables destimer le risque rel associ au choix de lhypothse h

S
et de le comparer au risque optimal R

associ la rgle de dcision optimale de Bayes (voir


quation (2.8)). Cependant, R
Rel
(h

S
) est une variable alatoire, puisquil dpend de lchantillon
dapprentissage, et il ne peut pas tre calcul partir des donnes puisquil dpend de la distri-
bution des donnes p
.
qui est inconnue. Cest pourquoi les estimations de R
Rel
(h

S
) prennent
gnralement la forme de bornes en probabilit. Cest--dire que lon cherchera montrer que,
trs probablement, sauf si lon a tir un chantillon peu reprsentatif de p
.
, lalgorithme retour-
nera une hypothse dont la performance est proche de la performance de la meilleure hypothse
possible h

H. On parle souvent dapprentissage Probablement Approximativement Correct


(apprentissage PAC) (en anglais, Probably Approximatively Correct, ou PAC-Learning).
Dnition 2.13 (Apprentissage PAC (Probablement Approximativement Correct))
Soit H une classe de fonctions de A 0, 1. Un algorithme dapprentissage au sens PAC pour
H est une fonction :
/ :

_
m=1
A,
m
H
qui associe une hypothse h H tout chantillon dapprentissage o
m
avec les proprits sui-
vantes :
[0, 1], [0, 1], une taille dchantillon minimale m
0
(, ), telle que si m m
0
(, ),
alors, pour toute distribution p
.
, si o
m
est un chantillon dapprentissage tir i.i.d. (indpen-
damment et identiquement distribu) suivant p
m
.
, on a :
P
_
R
Rel
(h

S
) R
Rel
(h

) +
_
1
On dit que H est apprenable au sens PAC sil existe un algorithme dapprentissage pour H.
En dautres termes, on demande que lalgorithme dapprentissage russisse retourner une hy-
pothse h

S
pas beaucoup plus mauvaise que h

, lhypothse optimale, pour tout choix derreur


dapproximation (soit encore : R
Rel
(h

S
) R
Rel
(h

) ) et pour tout paramtre de conance


. Ce dernier est ncessaire car on ne peut pas exclure a priori un mauvais tirage de lchan-
tillon dapprentissage. Il faut donc admettre une probabilit, que lon veut contrler, quil puisse
arriver que lchantillon soit mauvais. Il est attendre que plus on est exigeant sur lerreur dap-
proximation et sur le paramtre de conance , et plus lapprentissage va requrir une taille
croissante de lchantillon dapprentissage, lui permettant dobtenir davantage dinformation sur
la fonction cible et de diminuer la probabilit dun mauvais tirage.
Il est important de noter que lapprentissage PAC ne fait aucune hypothse sur la distribution
p
.
des exemples, du moment quelle est xe. Il doit fonctionner quelle que soit cette probabilit
8
Stone a montr par une preuve lgante quun systme dapprentissage particulier, la classication par les
k-plus-proches-voisins, est universellement consistant.
sous-jacente inconnue. On dit quil sagit dun cadre contre toute distribution.
9
,
1
2

m
m
C
e

d
o
c
u
m
e
n
t

e
s
t

l
a

p
r
o
p
r
i


e
x
c
l
u
s
i
v
e

d
e

O
l
i
v
i
e
r

B
E
R
N
H
A
R
D

(
o
l
i
v
i
e
r
.
s
i
m
p
l
e
l
i
f
e
@
g
m
a
i
l
.
c
o
m
)

-

1
2

m
a
i

2
0
1
4


1
4
:
2
2
Chapitre 2 Premire approche thorique de linduction 63
3. Jusquici, nous navons pas encore prcis le critre inductif utilis par lalgorithme pour slec-
tionner une hypothse sur la base de lchantillon dapprentissage disponible. Cest la troisime
composante de lapprentissage. Dans cette section, nous analysons le critre de minimisation
du risque empirique (MRE) qui, rappelons-le, prescrit de choisir une hypothse minimisant le
cot sur les exemples dapprentissage.
Parce que lon ne connat pas le risque rel associ chaque hypothse, on a recours un
critre inductif qui remplace le critre objectif par un problme doptimisation de substitution
sappuyant sur lchantillon dapprentissage disponible. Dans le cas du principe de minimisation
du risque empirique (MRE), on cherche une hypothse minimisant le risque empirique :
h

S
= ArgMin
h1
R
Emp
(h)
= ArgMin
h1
1
m
m

i=1
(h(x
i
, u
i
))
(2.45)
Ce principe inductif ne sera pertinent que si le risque empirique est corrl avec le risque
rel. Son analyse doit donc sattacher tudier la corrlation entre les deux risques et plus
particulirement la corrlation entre le risque rel encouru avec lhypothse slectionne laide
du principe MRE : R
Rel
(h

S
) et le risque rel optimal : R
Rel
(h

).
Le principe inductif de minimisation du risque empirique est fond sur une loi des grands
nombres qui tablit que, pour une fonction h xe, on a :
lim
m
R
Emp
(h) = R
Rel
(h) (2.46)
si lchantillon dapprentissage o
m
rsulte de m tirages indpendants et identiquement distribus
selon la distribution sous-jacente p
.
.
4.1 La loi des grands nombres
La loi des grands nombres est lune des lois les plus importantes en statistiques. Dans sa forme
la plus simple, elle nonce que :
Thorme 2.2 (Loi des grands nombres)
Sous des conditions faibles, la moyenne de variables alatoires
i
tires de manire indpendante
dune loi sous-jacente de probabilit p converge vers la moyenne de la distribution lorsque la taille
de lchantillon tend vers linni.
1
m
m

i=1

i
E() pour m (2.47)
En supposant que est distribue selon p.
Il est possible dappliquer ce thorme au cas du risque empirique et du risque rel. En eet, le
risque empirique est dni comme la moyenne des pertes sur les points de lchantillon dappren-
tissage, lui-mme suppos tir de manire i.i.d. (indpendamment et identiquement distribue)
selon p
.
, tandis que le risque rel est la moyenne de cette perte sur lensemble de la distribution.
C
e

d
o
c
u
m
e
n
t

e
s
t

l
a

p
r
o
p
r
i


e
x
c
l
u
s
i
v
e

d
e

O
l
i
v
i
e
r

B
E
R
N
H
A
R
D

(
o
l
i
v
i
e
r
.
s
i
m
p
l
e
l
i
f
e
@
g
m
a
i
l
.
c
o
m
)

-

1
2

m
a
i

2
0
1
4


1
4
:
2
2
64 PARTIE 1 : Les fondements de lapprentissage
Daprs la loi des grands nombres, nous pouvons conclure que, pour une hypothse h xe,
le risque empirique converge vers le risque rel lorsque la taille de lchantillon dapprentissage
tend vers linni.
R
Emp
(h) =
1
m
m

i=1
(h(x
i
), u
i
) E((x, y) pour m (2.48)
Ici, la perte (x, y) joue le rle de variable alatoire. Cela signie donc que lon peut approcher
le risque rel par la mesure du risque empirique
9
.
Une ingalit due Cherno, et gnralise par Hoeding, prcise la qualit de cette approxi-
mation.
Thorme 2.3 (Ingalit de Hoeding)
Si les
i
sont des variables alatoires, tires indpendamment et selon une mme distribution et
prenant leur valeur dans lintervalle [a, b], alors :
P
_

1
m
m

i=1

i
E()


_
2 exp
_

2 m
2
(b a)
2
_
(2.49)
Ce thorme nonce que la probabilit que la moyenne empirique dvie de plus de de les-
prance est borne par une trs petite quantit, 2 exp(
2 m
2
(ba)
2
), qui, de surcrot, dcrot trs
rapidement avec m.
Applique au risque empirique et au risque rel, cette ingalit nous donne :
P
_
[R
Emp
(h) R
Rel
(h)[
_
2 exp
_

2 m
2
(b a)
2
_
(2.50)
si la fonction de perte est dnie sur lintervalle [a, b].
On serait donc tent de supposer quil sut de slectionner une hypothse optimale au sens
du risque empirique pour obtenir, ipso facto une hypothse optimale au sens du risque rel, ce
qui est notre objectif. Ce nest malheureusement pas vrai. La loi des grands nombres voque, et
qui sapplique pour une hypothse donne, ne tient plus lorsque le choix de lhypothse se fait a
posteriori sur la base du rsultat du risque empirique.
Un petit exemple peut aider percevoir intuitivement la base du problme.
Exemple Une classe trop nombreuse et trop diversie
Supposons que la tche dun recruteur soit dvaluer des tudiants pour le compte dun
employeur. Pour cela, il utilise un test choix multiple contenant m questions et, trs natu-
rellement, il dcide de recommander ltudiant qui aura obtenu le meilleur score.
Si le test est bien conu, et en supposant quil soit reprsentatif de la future tche, alors,
eectivement, la note dun tudiant donn devrait tendre, avec le nombre de questions, vers
sa vraie performance future, chez lemployeur.
9
Plus gnralement, ce qui nous intressera est la convergence en probabilit (selon le tirage de lchantillon
dapprentissage) dune suite de variables alatoires (le risque empirique dpendant de S). Cest lobjet du
thorme central limite et de ses variantes. Essentiellement, ce thorme arme que toute somme de variables
alatoires indpendantes et identiquement distribues (les cots associs chaque exemple dapprentissage)
tend vers une variable alatoire gaussienne.
C
e

d
o
c
u
m
e
n
t

e
s
t

l
a

p
r
o
p
r
i


e
x
c
l
u
s
i
v
e

d
e

O
l
i
v
i
e
r

B
E
R
N
H
A
R
D

(
o
l
i
v
i
e
r
.
s
i
m
p
l
e
l
i
f
e
@
g
m
a
i
l
.
c
o
m
)

-

1
2

m
a
i

2
0
1
4


1
4
:
2
2
Chapitre 2 Premire approche thorique de linduction 65
Si le recruteur teste simultanment 10 tudiants, il est fort probable que ltudiant obtenant
la meilleure note au test se rvle galement le meilleur employ lavenir. Mais suppo-
sons maintenant que le recruteur ait la possibilit de tester 10 millions de personnes, parmi
lesquelles, sans quil le sache, se sont glisss quelques millions de singes qui tapent alatoire-
ment leurs rponses sur lordinateur. Est-il encore possible dassurer que l tudiant ayant
obtenu le meilleur score sera eectivement le meilleur employ possible ?
On sent bien que, dans ce cas o un trs grand nombre de personnes ont pass le test, la
performance du meilleur tudiant, a posteriori, na plus forcment un rapport troit avec la
performance future.
Cet exemple, dans lequel les tudiants jouent le rle dhypothses testes sur un chantillon
de m questions, montre que, si lon ne contraint pas, dune manire ou dune autre, la richesse
de lespace des hypothses, il ne peut plus y avoir de garantie que lhypothse qui semble la
meilleure soit eectivement celle qui aura la performance optimale lavenir. Plus encore, le
lien entre la performance mesure empiriquement et la vraie performance venir se relche
considrablement (un singe peut parfaitement russir le test, par chance, et, probablement, ne
pas tre trs performant lavenir).
Exemple Le test multiple
Le test dhypothse classique consiste estimer la probabilit quune hypothse donne (e.g.
cette pice est truque, ce gne est li telle activit biologique) soit vraie en partant de
lobservation dun ensemble dexpriences. Une manire standard doprer est de recourir
une hypothse nulle exprimant la probabilit des vnements possibles (e.g. la proportion de
piles sur m tirages est x%) si lhypothse alternative est vraie (e.g. pice non truque, gne
indpendant).
Par exemple, en supposant une pice non truque, lesprance du nombre moyen de pile
est : E[#piles] = mP(pile) = m/2 pour mlancs de pices, et la variance est : V ar(#piles) =
_
P(pile) (1 P(pile)) m =

m
2
. Ainsi, pour m = 100, la probabilit pour quune pice
tombe plus de 60 fois sur pile ou moins de 40 fois est infrieure 5% (en approchant la loi
binomiale par une loi normale).
Plus prcisment, la probabilit que la pice tombe du ct pile P fois sur m tirages est
donne par la loi binomiale :
prob(P) =
m!
P!(mP)!
P
P
(1 P)
mP
Dans le cas o m P (1 P) > 5, la loi binomiale peut tre estime par la loi normale de
moyenne = E[P] et de variance = [P] :
prob(P) =
1

2
2
e

1
2
_
P

_
2
Le problme de test multiple se pose lorsque lon teste simultanment plusieurs hypothses
(e.g. on teste 100 pices en les lanant chacune m fois, on teste 30000 gnes pour dtecter
ceux qui sont lis lobsit). Dans ce cas, on cherche dtecter les hypothses vraies (e.g.
telle pice est truque) et limiter le risque de faux positif (signaler une pice comme tant
truque alors quelle ne lest pas).
Il sagit dun problme mritant analyse car cette fois-ci la slection des hypothses vraies
seectue a posteriori, aprs les expriences.
Par exemple, si jai 10000 pices non truques que je lance chacune 100 fois en lair, je
trouverai en moyenne 500 pices tombant plus de 60 fois sur pile ou moins de 40 fois, mme
C
e

d
o
c
u
m
e
n
t

e
s
t

l
a

p
r
o
p
r
i


e
x
c
l
u
s
i
v
e

d
e

O
l
i
v
i
e
r

B
E
R
N
H
A
R
D

(
o
l
i
v
i
e
r
.
s
i
m
p
l
e
l
i
f
e
@
g
m
a
i
l
.
c
o
m
)

-

1
2

m
a
i

2
0
1
4


1
4
:
2
2
66 PARTIE 1 : Les fondements de lapprentissage
si toutes les pices sont non truques. De fait, la probabilit quaucune pice ne paraisse
truque est quasi nulle, savoir (0.95)
10 000
.
nouveau, le comportement dune pice slectionne comme truque, nest pas ncessaire-
ment reprsentatif de sa vraie nature, et il faut modier les critres de slection pour limiter
le risque de faux positif (voir par exemple la notion de p-valeur et le test de Bonferroni, lun
des plus simples au sein dune littrature devenant trs abondante sur le sujet).
H h

S
R
Emp
(h)
R
Reel
(h)

Fig. 2.8: Laxe horizontal correspond lespace des fonctions considres par lapprenant. Les
deux courbes reprsentent le risque rel, dune part, et le risque empirique, dautre
part. Le risque rel est xe, alors que la courbe du risque empirique varie en fonction
de lchantillon dapprentissage. Lhypothse la meilleure selon le risque empirique h

S
peut tre trs dirente de lhypothse optimale h

. On a galement gur lerreur dap-


proximation, due au choix de H, et lerreur destimation, correspondant lcart entre
la vraie performance de h

S
et celle de h

.
Vapnik [Vap95] dnit la pertinence
10
, souhaitable, du principe de minimisation du risque
empirique comme tant une double convergence.
Dnition 2.14 (Pertinence du principe MRE)
On dit que le principe MRE est pertinent si le risque rel inconnu R
Rel
(h

S
) et le risque empirique
R
Emp
(h

S
) convergent vers la mme limite optimale R
Rel
(h

) lorsque la taille m de lchantillon


tend vers (voir la gure 2.9).
R
Rel
(h

S
)
m
R
R eel
(h

)
R
Emp
(h

S
)
m
R
R eel
(h

)
(2.51)
Notons bien que nous avons aaire ici une suite de fonctions h

S
m
dpendante de la taille m
10
Consistance est le terme gnralement employ, repris directement de langlais. Dans le cas prsent, ce
terme nvoque rien en franais et fait un double emploi malheureux avec le terme dapprenant consistant
employ parfois pour dcrire un apprenant qui cherche une hypothse dont les prdictions sur tous les exemples
de lchantillon dapprentissage sont en accord avec les rponses fournies par loracle. Le terme dapprenant
consistant est aussi employ pour dcrire un apprenant dont lerreur relle tend vers lerreur optimale de Bayes
lorque la taille de lchantillon m tend vers linni (voir [DEV96]). Nous prfrons introduire un nouveau terme,
celui de pertinence qui traduit bien ce que lon cherche : la validit du principe inductif ERM.
C
e

d
o
c
u
m
e
n
t

e
s
t

l
a

p
r
o
p
r
i


e
x
c
l
u
s
i
v
e

d
e

O
l
i
v
i
e
r

B
E
R
N
H
A
R
D

(
o
l
i
v
i
e
r
.
s
i
m
p
l
e
l
i
f
e
@
g
m
a
i
l
.
c
o
m
)

-

1
2

m
a
i

2
0
1
4


1
4
:
2
2
Chapitre 2 Premire approche thorique de linduction 67

R
Reel
(h

)
R
Reel
(h

S
)
R
Emp
(h

S
)
m
Fig. 2.9: Pertinence du principe MRE. cause du biais ou erreur dapproximation, le risque
rel optimal atteint pour lhypothse h

nest gnralement pas gal zro. Au fur et


mesure que la taille m de lchantillon crot, le risque rel associ lhypothse courante
slectionne

h
S
m
diminue et tend vers le risque optimal. Le risque empirique est inf-
rieur au risque rel puisque

h
S
m
est slectionne pour minimiser le premier et non le
second. Souvent, il arrive que pour de petits chantillons de donnes, on trouve une hy-
pothse dans H dont le risque empirique est nul. Cela devient gnralement impossible
lorsque la taille m de lchantillon crot.
de lchantillon dapprentissage o
m
.
Dans le cas de cette double convergence, en eet, il est justi dutiliser le principe inductif
MRE pour choisir une hypothse partir de lobservation dun chantillon de donnes.
4.2 Le compromis biais-variance
Un algorithme dinduction slectionne donc une hypothse h

S
minimisant le critre inductif
sur la base dun chantillon dapprentissage o. On peut dcomposer lerreur commise par rapport
au risque R

de la dcision optimale de Bayes (section 1.2.1) de la manire suivante :


R
Rel
(h

S
) R

=
_
R
Rel
(h

S
) R
Rel
(h

. .
Erreur destimation
+
_
R
Rel
(h

) R

. .
Erreur dapproximation
(2.52)
Le second terme, appel erreur dapproximation, correspond au biais introduit par le choix
de lespace dhypothses H. Ce choix tant fait, on ne peut faire mieux que de trouver h

la
(ou une) meilleure hypothse dans H, au sens du risque rel. Le premier terme, appel erreur
destimation, est une quantit alatoire qui dpend de lchantillon dapprentissage, et mesure la
proximit entre lhypothse retenue par lalgorithme sur la base de lchantillon h

S
et la meilleure
hypothse possible dans H : h

(voir gure 2.8 et 2.10). Dans le cadre dune analyse statistique,


les erreurs dapproximation et destimation sont respectivement appeles biais et variance
11
.
Lobjectif tant de diminuer lcart entre le risque rel de lhypothse slectionne h

S
et le
risque optimal R

, il semble naturel de chercher minimiser la fois les erreurs dapproximation


et destimation. Malheureusement, ces deux erreurs varient gnralement en sens inverse lune de
lautre. En eet, an de diminuer lerreur dapproximation, il faudrait tre mieux inform sur le
bon choix de lespace dhypothses H. dfaut dune telle connaissance a priori, on peut diminuer
11
Plus prcisment, le biais et la variance en statistique ont t dnis lorigine dans le cadre de la rgres-
sion et pour la fonction de perte quadratique. Mais ces termes sont maintenant utiliss plus largement, et
correspondent respectivement lerreur dapproximation et lerreur destimation.
C
e

d
o
c
u
m
e
n
t

e
s
t

l
a

p
r
o
p
r
i


e
x
c
l
u
s
i
v
e

d
e

O
l
i
v
i
e
r

B
E
R
N
H
A
R
D

(
o
l
i
v
i
e
r
.
s
i
m
p
l
e
l
i
f
e
@
g
m
a
i
l
.
c
o
m
)

-

1
2

m
a
i

2
0
1
4


1
4
:
2
2
68 PARTIE 1 : Les fondements de lapprentissage
H
h

S
h

f
Fig. 2.10: Les sources derreur. Lerreur commise en slectionnant lhypothse h

S
au lieu de
la fonction optimale f (associe au risque R

) peut se dcomposer en une erreur


dapproximation due au choix dun espace dhypothses H, et une erreur destimation,
due au caractre alatoire de lchantillon dapprentissage o. Ainsi, si lchantillon
avait t o
t
au lieu de o, lhypothse slectionne aurait t h

.
lerreur dapproximation en choisissant un espace dhypothses plus large. Cependant, cela a le
plus souvent pour contrepartie daugmenter lerreur destimation, cest--dire la variabilit de
lhypothse h

S
en fonction de lchantillon o. Cest le fameux compromis biais-variance des
statisticiens.
Lestimation de lerreur dapproximation, cruciale, est malheureusement dicile raliser car
elle requiert une connaissance des rgularits cibles, qui sont justement essentiellement inconnues.
Il est tabli que, pour des algorithmes consistants et capables dajuster lespace dhypothses H
avec lchantillon dapprentissage
12
la convergence vers 0 de lerreur dapproximation peut tre
arbitrairement lente en labsence de prsupposs sur les rgularits cibles. En revanche, les vitesses
de convergence de lerreur destimation peuvent tre calcules mme sans ces prsupposs. Nous
nous concentrons donc dans la suite sur lerreur destimation.
4.3 La consistance du MRE dans le cas de H ni
Maintenant, supposons que lon puisse borner la dirence [R
Rel
(h) R
Emp
(h)[ pour toutes
les hypothses de H simultanment :
> 0, h H : [R
Rel
(h) R
Emp
(h)[ (2.53)
soit encore :
sup
h1
[R
Rel
(h) R
Emp
(h)[ (2.54)
o sup dsigne le supremum (les lecteurs non familiers avec cette notion peuvent penser au
maximum) (prcisment [[ [[

indique la norme supremum. ([[x[[

:= sup
s[0,1]
x(s))).
12
Comme cest le cas dalgorithmes ralisant la minimisation du risque structurel ou utilisant des termes de
rgularisation (voir plus loin et le chapitre 21).
C
e

d
o
c
u
m
e
n
t

e
s
t

l
a

p
r
o
p
r
i


e
x
c
l
u
s
i
v
e

d
e

O
l
i
v
i
e
r

B
E
R
N
H
A
R
D

(
o
l
i
v
i
e
r
.
s
i
m
p
l
e
l
i
f
e
@
g
m
a
i
l
.
c
o
m
)

-

1
2

m
a
i

2
0
1
4


1
4
:
2
2
Chapitre 2 Premire approche thorique de linduction 69
H
Risque rel
Risque empirique
h h
*
2
*
Fig. 2.11: Si chaque hypothse h H a un risque empirique proche de son risque rel ( moins
de ), alors minimiser le risque empirique (en application du principe inductif MRE)
minimisera galement approximativement le risque rel ( au plus 2).
Alors, il est facile dtablir que R
Rel
(h

) R
Rel
(h

S
) < 2 (voir gure 2.11). En eet :
R
Rel
(h

S
) R
Rel
(h

) = R
Rel
(h

S
) R
Emp
(h

S
) +R
Emp
(h

S
) R
Rel
(h

)
R
Rel
(h

S
) R
Emp
(h

S
) +R
Emp
(h

) R
Rel
(h

)
(Puisque par hypothse R
Emp
(h

S
) < R
Emp
(h

))
2
Il sagit l dune condition susante, et elle est considrable puisquelle requiert la convergence
du risque empirique sur le risque rel pour toutes les hypothses simultanment (en fait pour
un mme chantillon o), cest--dire une convergence uniforme, et ce indpendamment de la
distribution de probabilit sous-jacente p
.
.
On ne peut videmment assurer lingalit 2.53 quen probabilit, puisquelle dpend du tirage
de lchantillon dapprentissage. On cherche en fait les conditions permettant dobtenir :
0 , 1 : P
m
([R
Rel
(h

S
) R
Rel
(h

)[ ) < (2.55)
Ou encore les conditions de convergence uniforme sur lespace des hypothses H :
P
m
(sup
h1
[R
Rel
(h

S
) R
Rel
(h

)[ ) 0 quand m (2.56)
Pour cela, on borne la probabilit de lvnement correspondant un tirage de o qui est tel
que la dirence entre la performance apparente R
Emp
(h
i
) dune hypothse h
i
au moins et sa
vraie performance R
Rel
(h
i
) soit plus grande que .
Soit lensemble des mauvais chantillons o, ceux pour lesquels on se trompe en croyant
que la performance empirique de la fonction h
i
H est moins de de sa performance vraie :
C
i
=
_
(x
1
, u
1
), . . . , (x
m
, u
m
) : R
Rel
(h
i
) R
Emp
(h
i
) >
_
(2.57)
Daprs lingalit de Hoeding, et pour une taille dchantillon m assez grande, on a :
P
m
[C
i
] (2.58)
C
e

d
o
c
u
m
e
n
t

e
s
t

l
a

p
r
o
p
r
i


e
x
c
l
u
s
i
v
e

d
e

O
l
i
v
i
e
r

B
E
R
N
H
A
R
D

(
o
l
i
v
i
e
r
.
s
i
m
p
l
e
l
i
f
e
@
g
m
a
i
l
.
c
o
m
)

-

1
2

m
a
i

2
0
1
4


1
4
:
2
2
70 PARTIE 1 : Les fondements de lapprentissage
En considrant maintenant lensemble, suppos ni, des fonctions de H, on a, daprs la borne
sur lunion dvnements :
P
m
[C
1
. . . C
[1[
]
[1[

i=1
P
m
[C
i
] (2.59)
Cest--dire que lon est capable de borner la probabilit quil existe au moins une fonction h
i
pour laquelle la performance empirique est trompeuse. Ainsi :
P
m
[h H : R
Rel
(h) R
Emp
(h) > ]
[1[

i=1
P
m
[R
Rel
(h
i
) R
Emp
(h
i
) > ]
[H[ exp(2 m
2
) =
(2.60)
en supposant ici que la fonction de perte prend ses valeurs dans lintervalle [0, 1].
Do lon tire facilement que : =
_
log [1[+log
1

2 m
, cest--dire que :
h H, 1 : P
m
_
R
Rel
(h) R
Emp
(h) +

log [H[ + log


1

2 m
_
> 1 (2.61)
On notera que la dirence essentielle avec la borne de Hoeding, valable pour une hypothse
xe, rside dans le terme supplmentaire [H[ droite. Cest ce qui traduit que nous voulons que
la borne tienne pour toutes les fonctions de H simultanment.
Par ailleurs, log [H[ est aussi le nombre de bits ncessaires pour spcier une fonction h parti-
culire dans H. On retrouve l un lien intressant, et non fortuit, avec la thorie de linformation
et du codage (voir par exemple [vLBS04]).
Terminons en soulignant quun des rsultats les plus extraordinaires de lanalyse de Vapnik
et Chervonenkis est que la convergence uniforme dans H du risque empirique sur le risque rel
est non seulement une condition susante, mais est aussi une condition ncessaire ! (Voir par
exemple [VC71, DGL96, Men03]).
4.4 Le cas o H contient la fonction cible
Supposons maintenant que lespace des hypothses H est susamment bien inform pour
contenir la fonction cible f. Cela signie que lerreur dapproximation est nulle. Il est alors
possible de recourir un autre calcul que celui de la borne de Hoeding pour calculer la dpen-
dance de lcart entre risque empirique et risque rel en fonction de la taille m de lchantillon
dapprentissage.
tout instant, il existe au moins une hypothse de risque empirique nul (ne serait-ce que la
fonction cible f). Quelle est la probabilit quune hypothse de risque rel > paraisse bonne,
cest--dire soit de risque empirique nul ?
Nous supposerons ici que la fonction de perte l compte le nombre derreurs de classication
13
(voir lannexe 1) :
l(h(x
i
), y
i
) =
_
0 si y
i
= h(x
i
)
1 si y
i
,= h(x
i
)
(2.62)
13
Attention ! ! Mme si ce que nous allons dire dans cette section peut se gnraliser dautres fonctions de perte,
le dtail de la dmonstration dpend de cette hypothse, et ne peut donc se transposer sans prcautions
dautres fonctions de perte.
C
e

d
o
c
u
m
e
n
t

e
s
t

l
a

p
r
o
p
r
i


e
x
c
l
u
s
i
v
e

d
e

O
l
i
v
i
e
r

B
E
R
N
H
A
R
D

(
o
l
i
v
i
e
r
.
s
i
m
p
l
e
l
i
f
e
@
g
m
a
i
l
.
c
o
m
)

-

1
2

m
a
i

2
0
1
4


1
4
:
2
2
Chapitre 2 Premire approche thorique de linduction 71
X
Fig. 2.12: La zone derreur dans le cas de lapprentissage dun concept ou fonction binaire dnie
sur A.
Dans ce cas, le risque rel est gal la probabilit quun exemple tombe dans la zone derreur
entre la fonction cible f et la fonction hypothse errone h
err
: h
err
f (le symbole dnote la
dirence symtrique entre deux ensembles, voir gure 2.12).
R
Rel
(h
err
) = P
.
(h
err
f) (2.63)
La probabilit quaprs lobservation dun exemple on ne saperoive pas que h
err
est errone
est de 1. Aprs lobservation dun chantillon i.i.d. suivant la distribution T
.
de m exemples,
la probabilit de survie de h
err
vaut donc (1 )
m
.
En considrant maintenant lensemble H des hypothses possibles, la probabilit que lune
dentre elles survive aprs lobservation de o est borne par : [H[(1 )
m
(on eectue ici
une sommation car on a aaire une union dvnements disjoints). On sait, par dveloppement
limit, que [H[(1 )
m
< [H[e
m
. En reprenant linquation 2.55, il sut donc davoir un
chantillon de taille m telle que :
m
1

ln
[H[

(2.64)
pour que lerreur commise en choisissant lhypothse h

S
minimisant le risque empirique soit
borne par avec une probabilit > 1 .
Ici, lcart entre le risque rel et le risque empirique dune hypothse h varie en : =
log [1[ +log
1

m
, do :
h H, 1 : P
m
_
R
Rel
(h) R
Emp
(h) +
log [H[ + log
1

m
_
> 1 (2.65)
On note la dirence avec lquation (2.61) pour le cas gnral o H , = T :
Lorsque H = T, la convergence est beaucoup plus rapide puisquelle se fait en O(1/m)
au lieu de O(
_
1/m).
De fait, Vapnik [Vap82](thorme 6.8) a montr que lexposant sur m varie continment entre
-1 et -1/2 de manire croissante en fonction de lerreur minimale possible inf
h1
R
Rel
(h). Cela
peut sexpliquer de manire qualitative. Dans le cas o la fonction cible appartient lespace des
hypothses, cela signie que la distribution des exemples dans A peut tre reprsente par
une fonction de H. De ce fait, la variance sur les hypothses h

S
qui minimisent le risque empirique
C
e

d
o
c
u
m
e
n
t

e
s
t

l
a

p
r
o
p
r
i


e
x
c
l
u
s
i
v
e

d
e

O
l
i
v
i
e
r

B
E
R
N
H
A
R
D

(
o
l
i
v
i
e
r
.
s
i
m
p
l
e
l
i
f
e
@
g
m
a
i
l
.
c
o
m
)

-

1
2

m
a
i

2
0
1
4


1
4
:
2
2
72 PARTIE 1 : Les fondements de lapprentissage
en fonction de lchantillon dapprentissage o est rduite. Or moins de donnes sont ncessaires
pour approcher une variable alatoire dont la variance est moindre. Il est donc avantageux de
choisir un espace dhypothses H de faible erreur dapproximation.
Plus gnralement, la vitesse de convergence est lente dans les cas o la rgion autour de la
rgle de dcision optimale de Bayes est grande. Il faut en eet plus de temps, et dinformations,
pour dterminer alors cette rgion.
4.5 Quelques leons partielles
On retiendra des dmonstrations prcdentes trois ides :
1. Dabord que la cardinalit de H, donc en un certain sens sa richesse, a un eet direct sur la
borne derreur. Il est dj apparent que le choix dun ensemble H trop riche peut conduire
de mauvaises inductions.
2. Ensuite, le raisonnement utilis dans la dmonstration implique lensemble des fonctions
hypothse de H. Nous verrons quune gnralisation de ce raisonnement fait appel de mme
un argument de convergence uniforme. Cette observation est trs importante car elle
indique que lanalyse est de facto une analyse dans le pire cas, sappliquant en particulier
lhypothse pour laquelle la convergence est la plus mauvaise.
3. Finalement, lide directrice de la dmonstration consiste borner la probabilit quune
zone derreur de poids > ne soit pas atteinte par un exemple de lchantillon dappren-
tissage
14
.
Sans avoir rendu compte de lanalyse beaucoup plus complte de Vapnik (dcrite dans le
chapitre 21), nous pouvons retenir ce stade que le principe inductif de minimisation du risque
empirique ne peut tre appliqu sans prcaution. Pour que la mesure du risque empirique soit
corrle avec le risque rel, il faut que lespace dhypothses H dans lequel on choisit h

S
ait de
bonnes proprits. De manire informelle, il faut que cet espace ne soit pas trop riche ou trop
souple , cest--dire quon ne puisse pas y trouver des hypothses saccordant nimporte
quel jeu de donnes. On retrouve naturellement une ide dj rencontre avec le compromis
biais-variance. Cela signie que le principe MRE doit tre modi pour que la richesse de H soit
galement prise en compte lorsque lon recherche la meilleure hypothse. Toutes les techniques
de contrle de lespace dhypothses visent rgler ce compromis.
Remarque (Comparaison avec lanalyse statistique classique)
Lanalyse statistique classique des annes 1960 et 1970 insistait sur la convergence des mesures de pro-
babilit pour tudier les proprits de lapprentissage. De fait, il sagissait dtudier la distance dans
un espace de modles T (famille de distributions de probabilit avec un certain nombre de paramtres
associs) entre la distribution apprise /(o) et la vraie distribution f T. Cest ce que lon peut appeler
le cadre de lidentication.
Malheureusement, cette analyse bute sur la maldiction de la dimensionnalit. Une bonne approxima-
tion de la densit de probabilit ncessite un chantillon dapprentissage dont la taille dpend exponen-
tiellement de la dimension de lespace des modles. Elle suppose de plus que la famille de distributions
de probabilit considre a priori est correcte.
En revanche, lanalyse de convergence de risque, R
Rel
(

h
S
) vers R
Rel
(h

), que lon pourrait appeler


cadre de limitation, initie par Vapnik et par les pionniers du cadre PAC, donne des bornes indpendantes
de la dimension de lespace A et de lespace des hypothses H (le nombre dexemples peut ainsi mme
tre infrieur au nombre de dimensions) et ne fait aucune hypothse sur ladquation du choix initial de
modle comme nous allons le voir dans la suite.
14
Une gnralisation de cette ide a t utilise dans le cas despaces de fonctions indicatrices de cardinalit
innie avec la notion de -rseau (-net)[Hau92].
C
e

d
o
c
u
m
e
n
t

e
s
t

l
a

p
r
o
p
r
i


e
x
c
l
u
s
i
v
e

d
e

O
l
i
v
i
e
r

B
E
R
N
H
A
R
D

(
o
l
i
v
i
e
r
.
s
i
m
p
l
e
l
i
f
e
@
g
m
a
i
l
.
c
o
m
)

-

1
2

m
a
i

2
0
1
4


1
4
:
2
2
Chapitre 2 Premire approche thorique de linduction 73
4.6 Vers un principe MRE contrl
Lanalyse du principe de minimisation du risque empirique (MRE) montre quil ne peut pas tre
appliqu aveuglment, et quil faut contrler lespace des hypothses considres par lalgorithme
dapprentissage.
Cela ncessite :
1. de savoir mesurer la richesse ou encore la capacit de cet espace dhypothses ;
2. de savoir modier le critre MRE pour prendre en compte cette richesse.
Plusieurs mesures de richesse ont t proposes, incluant des mesures :
fondes sur le nombre de paramtres en jeu pour la dnition des hypothses (e.g. critres
AIC ou BIC) ;
rsumant en un nombre la capacit pouvoir trouver des hypothses dans H rendant compte
de nimporte quel chantillon dapprentissage (e.g. dimension de Vapnik-Chervonenkis, com-
plexit de Rademacher) ;
caractrisant la diversit des fonctions de H (e.g. nombre de couverture) ;
estimant la complexit algorithmique de description dune hypothse.
Les approches pour modier le MRE sont elles-mmes diverses :
approche de slection automatique despace dhypothses ou slection automatique de mo-
dles (e.g. Le SRM de Vapnik) ;
approche de la rgularisation qui ajoute un terme de pnalisation de lhypothse considre
dans le critre MRE;
approche dite de la flicit (luckiness framework) dans laquelle on tient compte de ladqua-
tion entre les hypothses considres et la distribution des exemples telle quelle est trahie
par lchantillon disponible (e.g. mthodes de maximisation de la marge) ;
approches prenant en compte lalgorithme dapprentissage et en particulier le sous-espace
quil explore eectivement dans H (e.g. mthode par compression, par stabilit du risque
empirique, par prise en compte de limperfection de loptimisation, etc.) ;
approches par minimisation de la longueur de description des donnes (e.g. MDLP) ;
approches baysiennes qui tendent ajuster automatiquement la complexit des hypothses
slectionnes.
Le problme du contrle du principe MRE est encore lobjet de recherches actives. An de
ne pas alourdir le prsent chapitre qui vise dabord prsenter les concepts de base et faire
comprendre les grands problmes en jeu, nous dcrivons de manire plus dtaille ces
approches et mthodes, aprs la prsentation de nombreuses mthodes dapprentissage, dans
le chapitre 21.
5. Le lien entre le pass et le futur et le no-free-lunch theorem
Nous avons prsent plusieurs principes inductifs et leurs variations nes de ltude des condi-
tions de leur validit. Ainsi, ont t passs en revue le principe MRE favorisant les hypothses
qui saccordent le mieux aux donnes dapprentissage, le principe baysien stipulant (dans sa
version maximum de vraisemblance) de choisir lhypothse dont il est le plus probable quelle
soit lorigine des donnes, le principe de compression dinformation prescrivant de choisir le
C
e

d
o
c
u
m
e
n
t

e
s
t

l
a

p
r
o
p
r
i


e
x
c
l
u
s
i
v
e

d
e

O
l
i
v
i
e
r

B
E
R
N
H
A
R
D

(
o
l
i
v
i
e
r
.
s
i
m
p
l
e
l
i
f
e
@
g
m
a
i
l
.
c
o
m
)

-

1
2

m
a
i

2
0
1
4


1
4
:
2
2
74 PARTIE 1 : Les fondements de lapprentissage
modle du monde conduisant sa description la plus compacte. Nous avons galement vu que
ltude thorique de ces principes avait conduit des principes inductifs plus sophistiqus dans
lesquels la richesse de lespace dhypothses est prise en compte. Les recherches rcentes, portant
en particulier sur les sparateurs vastes marges (SVM) ranent ces principes en prescrivant
de prendre en compte aussi la distribution des exemples. Une question naturelle est alors de se
demander lequel de ces principes inductifs est le meilleur ; lequel nous devrions choisir.
5.1 Le no-free-lunch theorem : toutes les mthodes se valent !
Le chapitre 1 a dj apport des lments de rponse cette question en insistant sur la
ncessit dun biais dapprentissage pour permettre linduction, cest--dire dhypothses a priori
sur le monde. Un thorme formalise et gnralise cette ide : le no-free-lunch theorem d
Wolpert (1992) [Wol92a]. Selon ce thorme, tous les principes inductifs, et tous les algorithmes
dapprentissage se valent. En labsence de toute information sur le problme dapprentissage
autre que lchantillon de donnes, aucune mthode nest meilleure quune autre, y compris celle
qui consiste tirer une hypothse au hasard. Exprim dune autre manire, ce thorme arme
quil ny a a priori aucune corrlation entre lchantillon de donnes o observ et les vnements
non encore observs. De ce fait, toute hypothse slectionne sur la base de o na aucune raison
dtre performante lavenir en dehors de o. De manire plus abrupte, en dehors dinformation
supplmentaire sur le problme dapprentissage, cest--dire sur lespace des fonctions cible, il
nest pas possible de raliser autre chose que de lapprentissage par cur ! Aucune induction
nest possible, ou, du moins, plus lgitime quune autre, par exemple de tirer les tiquettes des
exemples non vus au hasard.
Avant dexaminer une expression plus formelle de ce thorme, essayons den saisir lintuition.
Soit lespace T des fonctions cible. Soit A lespace des entres, et soit | lespace des sorties.
On suppose quun chantillon de formes x
1
, x
2
, . . . , x
m
est tir alatoirement suivant une dis-
tribution d
.
inconnue sur A. Chacune de ces formes est tiquete pour former lchantillon
o = (x
1
, u
1
), (x
2
, u
2
), . . . , (x
m
, u
m
)). On suppose ici que cet chantillon nest pas bruit. Les
tiquettes u
i
ont donc t calcules grce lapplication dune fonction f T. Le problme de
linduction est destimer laquelle sur la base de lchantillon o.
En labsence dinformations supplmentaires sur T, toutes les fonctions f T sont galement
possibles. Une fois x lchantillon dapprentissage, un certain nombre de ces fonctions sont
limines car ne saccordant pas aux donnes, mais toutes les autres fonctions restent candidates,
et aucune prdiction nest possible. Cest ce que nous avons vu dans le cas de fonctions binaires
dans le chapitre 1. Cest galement ce que montre la gure 21.1.
Si donc lunique information dont nous disposons pour une tche inductive est un chantillon
dapprentissage, alors seul un apprentissage par cur de cet chantillon est possible, et aucune
induction ne peut tre eectue avec quelque garantie que ce soit. En dautres termes, et exprim
de manire peut-tre plus brutale, il nexiste aucune corrlation a priori entre un chantillon
dapprentissage et les vnements non vus. Plus formellement, notons p(h[o) la distribution des
hypothses dans H aprs la prise en compte de lchantillon o, cest--dire aprs apprentissage.
Si lalgorithme dapprentissage est dterministe, fournissant une seule hypothse, et toujours la
mme, pour un chantillon o donn, alors la distribution prend la forme dun Dirac centr sur
lhypothse choisie h. Si au contraire il sagit dun algorithme non dterministe, p(h[o) peut avoir
une certaine extension. De la mme manire, nous notons p(f[o) la distribution de probabilit
des fonctions f de la nature tant donn lchantillon dapprentissage. Lexpression de lesprance
C
e

d
o
c
u
m
e
n
t

e
s
t

l
a

p
r
o
p
r
i


e
x
c
l
u
s
i
v
e

d
e

O
l
i
v
i
e
r

B
E
R
N
H
A
R
D

(
o
l
i
v
i
e
r
.
s
i
m
p
l
e
l
i
f
e
@
g
m
a
i
l
.
c
o
m
)

-

1
2

m
a
i

2
0
1
4


1
4
:
2
2
Chapitre 2 Premire approche thorique de linduction 75
de l cart entre le rsultat de lapprentissage et la nature est alors :
E[R
Rel
[o] =
_
h,f
_
x,S
p(x) [1 (f(x), h(x)] p(h[o) p(f[o) (2.66)
o le symbole de Kronecker dnote la fonction nulle partout sauf l o ses arguments sont gaux,
o elle vaut 1. Nous noterons ici que la somme ne fait intervenir que les formes x non vues en
apprentissage, ce qui est dirent de lesprance de risque i.i.d. dans laquelle le tirage alatoire
des formes peut permettre le tirage de la mme forme en apprentissage et en reconnaissance.
Les deux expressions sont quivalentes dans le cas o lchantillon o est de mesure nulle sur
lespace des entres possibles A. Lquation 2.66 exprime que lesprance de risque rel tant
donn un chantillon dapprentissage o est lie la somme de toutes les entres possibles x
pondres par leur probabilit p(x), et un alignement entre lalgorithme dapprentissage
caractris par p(h[o) et la vraie probabilit a posteriori de la nature p(f[o). De ce fait, en
labsence dinformation a priori sur la distribution p(f[o), il est impossible de dire quoi que ce
soit sur la performance en gnralisation de lalgorithme dapprentissage.
Si larmation prcdente na pas su plonger le lecteur dans la consternation, le corollaire
15
suivant devrait achever de le faire. Nous noterons :
E
k
[R
Rel
[f, m] =
_
x,S
p(x) [1 (f(x), h(x)] p
k
(h(x)[o)
lesprance de risque associe lalgorithme dapprentissage /
k
tant donn lchantillon dap-
prentissage o, et la vraie fonction de la nature f.
Thorme 2.1 (No-free-lunch theorem (Wolpert, 1992))
Pour tout couple dalgorithmes dapprentissage /
1
et /
2
, caractriss par leur distribution de
probabilit a posteriori p
1
(h[o) et p
2
(h[o), et pour toute distribution d
.
des formes dentres x
et tout nombre m dexemples dapprentissage, les propositions suivantes sont vraies :
1. En moyenne uniforme sur toutes les fonctions cible f dans T :
E
1
[R
Rel
[f, m] E
2
[R
Rel
[f, m] = 0.
2. Pour tout chantillon dapprentissage o donn, en moyenne uniforme sur toutes les fonc-
tions cible f dans T : E
1
[R
Rel
[f, o] E
2
[R
Rel
[f, o] = 0.
3. En moyenne uniforme sur toutes les distributions possibles P(f) :
E
1
[R
Rel
[m] E
2
[R
Rel
[m] = 0.
4. Pour tout chantillon dapprentissage o donn, en moyenne uniforme sur toutes les distri-
butions possibles p(f) : E
1
[R
Rel
[o] E
2
[R
Rel
[o] = 0.
Pour une preuve de ce thorme, nous renvoyons le lecteur [Wol92a]. De manire qualitative,
le premier point de ce thorme exprime que quel que soit notre choix dun bon algorithme
dapprentissage et dun mauvais algorithme (par exemple un algorithme prdisant au hasard,
ou bien une fonction constante sur A), si toutes les fonctions cible f sont galement probables,
alors le bon algorithme aura la mme performance en moyenne que le mauvais . Cela
signie aussi quil existe au moins une fonction cible pour laquelle la prdiction au hasard est
meilleure que nimporte quelle autre stratgie de prdiction.
Le deuxime point du thorme arme la mme absence de supriorit dun algorithme dap-
prentissage sur tout autre algorithme, mme quand lchantillon dapprentissage est connu. En
15
Du latin corollarium : petite couronne donne comme gratication .
C
e

d
o
c
u
m
e
n
t

e
s
t

l
a

p
r
o
p
r
i


e
x
c
l
u
s
i
v
e

d
e

O
l
i
v
i
e
r

B
E
R
N
H
A
R
D

(
o
l
i
v
i
e
r
.
s
i
m
p
l
e
l
i
f
e
@
g
m
a
i
l
.
c
o
m
)

-

1
2

m
a
i

2
0
1
4


1
4
:
2
2
76 PARTIE 1 : Les fondements de lapprentissage
dautres termes, celui-ci napporte pas plus dinformations un algorithme plutt qu un autre,
ft-il nouveau lalgorithme de prdiction au hasard. Les points trois et quatre ne font que
renforcer ces rsultats en armant lgalit de tous les algorithmes, si lon prend en compte des
distributions non uniformes de fonctions cible, mais que lon moyenne sur toutes ces distribu-
tions. Bien sr, pour une distribution donne, un algorithme va tre meilleur que les autres,
savoir celui qui a la mme distribution que P(f[o). Mais comment le deviner a priori ?
Avant de discuter des leons tirer du no-free-lunch theorem, il est utile den illustrer la force
nouveau sur un exemple. Nous avons l en eet une sorte de loi de conservation (comme le
dit Cullen Schaer [SA94]). De mme que pour chaque classe de problmes pour laquelle un
algorithme dapprentissage est meilleur quun algorithme de prdiction au hasard, il existe une
classe de problmes pour laquelle cet algorithme est moins bon (voir gure 2.13). De mme, pour
chaque algorithme dapprentissage, il existe des problmes pour lesquels la courbe de performance
en gnralisation est ascendante et des problmes pour lesquels cette courbe est descendante,
cest--dire pour lesquels plus lalgorithme apprend et plus il est mauvais en gnralisation !
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0 0
Fig. 2.13: Le no-free-lunch-theorem prouve que pour chaque rgion de lespace des problmes
pour laquelle un algorithme dapprentissage a une performance suprieure au hasard
(indiqu ici par un smiley heureux ), il existe une rgion pour laquelle la per-
formance est moins bonne que le hasard (indiqu ici par un smiley triste ). Un
0 indique ici la performance dun algorithme au hasard, donc la performance
moyenne. Les trois gures du dessus correspondent des situations possibles pour un
algorithme dapprentissage, tandis que les trois gures du dessous correspondent des
situations impossibles : celles dun algorithme qui serait intrinsquement suprieur
un algorithme au hasard quand on le considre sur lensemble des problmes possibles
(daprs [SA94]).
Exemple Algorithme dapprentissage de plus en plus mauvais
Considrons lalgorithme de classication binaire majoritaire qui attribue un nouveau point
ltiquette de la classe la plus reprsente dans les exemples dapprentissage de o. Intuiti-
vement, cet algorithme sattend ce que la classe la mieux reprsente sur lchantillon
dapprentissage soit de fait majoritaire. Cet algorithme simple peut-il ntre ququivalent
un algorithme tirant ses prdictions au hasard ? Sans en donner une preuve formelle, il
est possible de sen convaincre intuitivement. En eet, dans les problmes pour lesquels une
classe est nettement majoritaire, on peut sattendre ce que dans la plupart des cas lalgo-
C
e

d
o
c
u
m
e
n
t

e
s
t

l
a

p
r
o
p
r
i


e
x
c
l
u
s
i
v
e

d
e

O
l
i
v
i
e
r

B
E
R
N
H
A
R
D

(
o
l
i
v
i
e
r
.
s
i
m
p
l
e
l
i
f
e
@
g
m
a
i
l
.
c
o
m
)

-

1
2

m
a
i

2
0
1
4


1
4
:
2
2
Chapitre 2 Premire approche thorique de linduction 77
rithme majoritaire dtecte correctement cette majorit dans lchantillon dapprentissage et
soit de ce fait meilleur quune prdiction au hasard (de peformance 1/2) sur les formes x non
vues. Quen est-il alors pour les autres problmes, ceux pour lesquels il nexiste pas de majo-
rit nette, et qui daprs la loi binomiale sont de trs loin les plus nombreux ? Lalgorithme
majoritaire nest-il pas sur ceux-l quivalent un algorithme au hasard, contredisant ainsi
le no-free-lunch theorem? Mme si les deux classes sont galement reprsentes sur A, les
variations dchantillonnage feront que souvent lune dentre elles sera prvalente dans o, en-
tranant une prdiction dans ce sens par lalgorithme majoritaire alors que, sur les exemples
non vus, ce sera naturellement lautre classe qui sera (un peu) mieux reprsente. Lalgo-
rithme, sur ces problmes, fera donc (un peu) moins bien que lalgorithme de prdiction au
hasard. En prenant en compte tous les cas possibles, la performance globale de cet algorithme
ne sera pas meilleure que celle de lalgorithme au hasard. Un raisonnement similaire montre
que la courbe de gnralisation de lalgorithme majoritaire peut tre dcroissante. Encore une
fois, dans les cas o une classe est clairement majoritaire, lalgorithme majoritaire va avoir
de plus en plus de chance de dtecter correctement cette majorit avec des tailles dchan-
tillon croissantes (voir gure 2.14 (gauche)). Si en revanche les deux classes sont galement
reprsentes sur A, alors la courbe va tre dcroissante (voir gure 2.14 (droite)). En eet,
pour les petites tailles dchantillon, la performance sera seulement lgrement infrieure
1/2, puisque lorsque lalgorithme dtectera une majorit dans son chantillon, ce sera lautre
classe qui sera de fait mieux reprsente sur les exemples restants, mais de trs peu. En
revanche, plus lchantillon dapprentissage est important, plus le choix, forcment mauvais,
de lalgorithme entranera un mauvais taux de prdiction sur les exemples restants. la
limite, quand tous les exemples sauf un auront t vus par lalgorithme dapprentissage, la
prdiction sur le dernier sera forcment mauvaise (la classe prvalente sur o tant la classe
oppose celle de ce dernier), et la performance tombera 0.
Fig. 2.14: Le no-free-lunch theorem prouve que pour chaque rgion de lespace des problmes
pour laquelle un algorithme dapprentissage a une courbe en gnralisation croissante
(gauche), il existe une rgion pour laquelle il existe une courbe en gnralisation d-
croissante, cest--dire indiquant que plus lalgorithme apprend, moins il est perfor-
mant sur les formes non vues (droite) (daprs [SA94].)
5.2 Leons tirer du no-free-lunch theorem
Quelles leons tirer de ce thorme ? Faut-il jeter ce livre par terre et se maudire davoir consa-
cr dj tant de temps tudier une science sans avenir ? Le no-free-lunch theorem nempche
pas de travailler sur les problmes inductifs, il avertit simplement que la prudence est de rigueur.
Plus prcisment :
1. Un algorithme dapprentissage est forcment biais vers une certaine classe de
C
e

d
o
c
u
m
e
n
t

e
s
t

l
a

p
r
o
p
r
i


e
x
c
l
u
s
i
v
e

d
e

O
l
i
v
i
e
r

B
E
R
N
H
A
R
D

(
o
l
i
v
i
e
r
.
s
i
m
p
l
e
l
i
f
e
@
g
m
a
i
l
.
c
o
m
)

-

1
2

m
a
i

2
0
1
4


1
4
:
2
2
78 PARTIE 1 : Les fondements de lapprentissage
problmes. Cest toujours en fonction de certains a priori sur les problmes rsoudre quil
faut concevoir et utiliser un algorithme dapprentissage.
2. Il nest pas admissible de parler de la performance dun algorithme sans prciser
sur quelle classe de problmes il a t test et pour quelle classe de problmes il a t
conu.
3. Linduction ne cre pas dinformation. Elle ne fait que transformer une information
a priori, inscrite dans les biais de lalgorithme dapprentissage, et qui est rvle par lin-
termdiaire dun chantillon dapprentissage. Si linformation a priori est inadapte la
situation rencontre, le rsultat sera galement mauvais.
Dun certain ct, le no-free-lunch theorem est une nouvelle occasion de ne pas croire aux
miracles. Il existe dailleurs dautres versions de ce thorme pour des problmes importants
pour lapprentissage :
1. Le thorme du vilain petit canard [Wat85] dit quil nexiste pas a priori de meilleur en-
semble de descripteurs pour dcrire des formes, et quen labsence dautres informations, il
nexiste pas de meilleure notion de similarit entre formes. Toute similarit est dpendante
de biais qui peuvent, ou non, tre corrects pour lapplication tudie.
2. Le no-free-lunch theorem pour les algorithmes doptimisation [Wol97] nonce quen moyenne
sur tous les problmes de recherche dun extremum dune fonction de cot, il nexiste pas
dalgorithme de recherche qui soit intrinsquement meilleur que tout autre algorithme de
recherche. Cela signie en particulier que les algorithmes de recherche par gradient, ou par
recuit simul ou par volution simule, tout aussi sophistiqus soient-ils, sont susceptibles
dtre pires quune recherche au hasard sur certaines classes de problmes.
6. Notes historiques et bibliographiques
Dire que lapprentissage inductif est un problme doptimisation qui conjugue un principe ou
critre inductif satisfaire au mieux et une mthode de recherche dans un espace dhypothse
est presque devenu un dogme. Faire ressortir quil existe essentiellement trois types de principes
inductifs : la minimisation du risque empirique (MRE), la thorie baysienne de la dcision qui
se traduit souvent par un principe de maximum de vraisemblance, et le principe de compression
maximal de linformation, ne suscite pas non plus de surprise. Pourtant, il a fallu beaucoup de
temps pour que cette vision de lapprentissage simpose. Beaucoup aussi pour quil soit admis que
ces principes, et en particulier le principe largement employ de minimisation du risque empirique,
devaient tre examins pour voir sils conduisaient bien la meilleure induction possible.
La thorie baysienne de lapprentissage sest dveloppe presque naturellement durant le XX
e
sicle et en particulier depuis les annes 1960. Elle conduit la notion derreur baysienne opti-
male, mais elle requiert une connaissance du modle statistique sous-jacent. Nous recommandons
ce sujet la lecture des ouvrages de rfrence [Bis95, DHS01, Rip96, Web99].
De son ct, la thorie statistique de linduction, dont la question centrale concerne les condi-
tions de la convergence du risque empirique sur le risque rel, a t plus longue merger. Cette
question ne semblait en eet pas centrale quand lapprentissage cherchait dabord imiter des
apprentissages naturels, dans le cadre de la biologie ou des sciences cognitives. Ce sont donc des
mathmaticiens essentiellement qui ont dabord dvelopp paralllement et presque indpendam-
ment les cadres PAC (Probablement Approximativement Correct) et VC (Vapnik-Chervonenkis).
C
e

d
o
c
u
m
e
n
t

e
s
t

l
a

p
r
o
p
r
i


e
x
c
l
u
s
i
v
e

d
e

O
l
i
v
i
e
r

B
E
R
N
H
A
R
D

(
o
l
i
v
i
e
r
.
s
i
m
p
l
e
l
i
f
e
@
g
m
a
i
l
.
c
o
m
)

-

1
2

m
a
i

2
0
1
4


1
4
:
2
2
Chapitre 2 Premire approche thorique de linduction 79
Le cadre PAC a t introduit par larticle trs inuent de Valiant en 1984 [Val84] dans lequel il
tudiait ce qui se rvlerait un cas particulier de la convergence du risque empirique o lespace
dhypothses est celui de formules logiques et est suppos contenir le concept cible. Cela simpliait
considrablement les choses car, dune part, le nombre dhypothses restait ni mme sil pouvait
crotre exponentiellement avec le nombre dattributs et, dautre part, on pouvait nexaminer
que les hypothses de risque empirique nul. Ce cadre incluait aussi un critre de complexit
calculatoire sur lapprentissage, imposant que la complexit reste polynomiale en un certain
nombre de paramtres. Cependant, cet aspect du modle PAC qui a permis de dmontrer de
nombreux thormes de non apprenabilit (en les ramenant des problmes de cryptographie)
est pratiquement tomb en dsutude. Par ailleurs, an de saranchir de la contrainte que le
concept cible doive appartenir lespace dhypothses, un cadre gnralis a t propos, appel
apprentissage agnostique. On nen parle plus car il a t gnralis par lapproche de Vapnik.
En eet, pendant ce temps, en URSS (dans cette lointaine priode davant la Russie), Vapnik
et Chervonenkis, sous linuence de Kolmogorov, tudiaient depuis les annes 1960 le problme
gnral de la convergence des moyennes empiriques vers leur esprance. Ils prouvrent ainsi que
la convergence des esprances de risque est quivalente la convergence uniforme des frquences
vers des probabilits sur un domaine ni dvnements. Cest ce qui est appel le thorme cl
de la thorie statistique de lapprentissage. Les premires bornes sur le risque rel en fonction
du risque empirique furent prouves pour la premire fois par Vapnik et Chervonenkis en 1974.
Lanalyse montra que la convergence du risque empirique vers le risque rel fait intervenir une
fonction de croissance de lespace dhypothses. Comme cette fonction est trs dicile calculer,
il est pratique de la caractriser par un nombre : la dimension de Vapnik-Chervonenkis. Les
premiers travaux introduisant cette mesure sont ceux de Vapnik et Chervonenkis en 1971, et,
indpendamment, de Sauer (1972) et de Shela (1972). Lintroduction de la thorie de Vapnik
et Chervonenkis sest eectue grce un article exceptionnel du four germans gang
16
[BEHW89] qui a eu un grand impact dans la communaut de la thorie de lapprentissage (COLT :
Computational Learning Theory).
Lanalyse de Vapnik, largement popularise par son livre de 1995 [Vap95], a fait prendre
conscience la communaut de lapprentissage articiel de limportance cruciale de la dnition
et de la caractrisation de lespace dhypothses. Depuis longtemps les praticiens savaient en
eet quil leur fallait contrler la complexit de leur modle dapprentissage pour ne pas tre
victime de surapprentissage, cest--dire dapprentissage par cur sans gnralisation. Depuis
1982, ils avaient admis, sous linuence du papier de Mitchell [Mit82], quil fallait que lespace
dhypothses soit contraint par un biais. Cependant, cest vraiment lanalyse de Vapnik qui
a fourni un cadre conceptuel complet permettant de comprendre au moins heuristiquement le
compromis entre risque empirique et capacit de lespace dhypothses. Il faut cependant noter
linuence des papiers sur le compromis biais-variance [GBD92].
Pour toutes ces questions, nous reportons le lecteur aux ouvrages [CM98, Hay99, Vap95, KV94].
Dautres travaux sont plus techniques mais sont essentiels pour ceux qui veulent aller plus loin
dans cette tude : [AB92, AB96, DGL96, Vid97]. Un ouvrage trs intressant sur des points de
vue multiples de la thorie de lapprentissage est [Wol95].
Le no-free-lunch theorem a des antcdents dans le thorme du vilain petit canard [Wat85]
nonc en 1963 propos de la non-universalit de toute mesure de distance. Sa description et
sa preuve sont dues Wolpert [Wol92a] et [Wol95], de mme que sa version pour les mthodes
doptimisation [Wol97]. Ce thorme a fait couler beaucoup dencre dans les annes 1990, mais
il semble maintenant accept par la communaut.
16
Selon lexpression de Manfred Warmuth, lun des quatre auteurs, et un thoricien minent et inventif.
C
e

d
o
c
u
m
e
n
t

e
s
t

l
a

p
r
o
p
r
i


e
x
c
l
u
s
i
v
e

d
e

O
l
i
v
i
e
r

B
E
R
N
H
A
R
D

(
o
l
i
v
i
e
r
.
s
i
m
p
l
e
l
i
f
e
@
g
m
a
i
l
.
c
o
m
)

-

1
2

m
a
i

2
0
1
4


1
4
:
2
2
80
Rsum
Ce chapitre a montr que linduction peut tre formalise par un jeu entre une nature
produisant des exemples tiquets selon une fonction cible, et un apprenant cherchant
approcher cette fonction cible par une fonction hypothse de manire minimiser
lesprance de risque appele risque rel. Pour ce faire, lapprenant utilise un prin-
cipe inductif lui dictant quelle hypothse il doit choisir tant donns les exemples
dapprentissage, et un algorithme de recherche eectif dans lespace dhypothses.
Ce chapitre sest pench sur lanalyse des principes inductifs.
Il existe trois grands principes inductifs de base : le principe de minimisation du
risque empirique qui dicte de choisir lhypothse qui minimise le risque sur lchan-
tillon dapprentissage ; le principe baysien qui stipule de choisir lhypothse mini-
misant lesprance de risque, ce qui revient souvent prendre lhypothse dont la
vraisemblance est maximale tant donns les exemples ; nalement le principe de
compression dinformation qui prescrit de choisir lhypothse permettant de trans-
mettre linformation contenue dans les exemples dapprentissage de la manire la
plus conomique. Les deux premiers ont t dcrits et analyss plus en dtail dans
ce chapitre. En particulier, le principe MRE se prte naturellement une analyse
dans le pire cas, tandis que le principe baysien, prenant en compte la distribution
a priori des fonctions cible, conduit une analyse en moyenne.
Lune des consquences les plus remarquables de ces analyses est quelles soulignent
limportance cruciale de lespace dhypothses considr dans la conance que lon
peut accorder aux inductions ralises. Il faut un espace dhypothses susamment
riche pour pouvoir approcher la fonction cible dassez prs, mais il ne faut pas quil le
soit trop sous peine de conduire des hypothses apparemment bonnes sur les don-
nes dapprentissage, mais mauvaises en ralit. La mise en vidence de ce compromis
a amen reconsidrer les principes inductifs pour en faire des principes inductifs
avec contrle et ajustement automatique de lespace dhypothses.
Finalement, le no-free-lunch theorem rappelle quaucune mthode dapprentissage
nest uniformment suprieure (ou infrieure) aux autres. Il faut chaque fois spci-
er lespace de problmes pour lequel une mthode est adapte (ou non).
PARTIE 1 : Les fondements de lapprentissage
C
e

d
o
c
u
m
e
n
t

e
s
t

l
a

p
r
o
p
r
i


e
x
c
l
u
s
i
v
e

d
e

O
l
i
v
i
e
r

B
E
R
N
H
A
R
D

(
o
l
i
v
i
e
r
.
s
i
m
p
l
e
l
i
f
e
@
g
m
a
i
l
.
c
o
m
)

-

1
2

m
a
i

2
0
1
4


1
4
:
2
2
Chapitre 3
Lenvironnement m ethodologique de
lapprentissage
Ce chapitre a un double objectif. Dune part, il est centr sur lutilisateur et dcrit
les dirents points sur lesquels celui-ci peut jouer pour contrler et ajuster lappren-
tissage. Dautre part, il dcrit les rouages gnraux que lon retrouve dans toutes les
mthodes dapprentissage.
Dun point de vue conceptuel, lapprentissage se joue entre un espace de description
des objets dentre et un espace dhypothses. Le choix dun principe inductif permet
dvaluer, partir des exemples, la qualit des hypothses et de prescrire lhypothse
thorique optimale. Pour quune mthode dapprentissage soit eective, il faut spcier
un algorithme de recherche dans lespace des hypothses qui tentera didentier une
hypothse optimale ou du moins de sen approcher.
Ce chapitre aborde les principaux ingrdients la base dune mthode dapprentissage
en partant du problme du choix de la reprsentation des entres et de celle des hypo-
thses, puis en dressant un panorama des techniques de recherche et doptimisation
utilisables dans le contexte de lapprentissage, enn en examinant les mthodes dva-
luation et de validation des rsultats obtenus lissue de lapprentissage. Le problme
du test et de la comparaison empirique des algorithmes est galement discut.
Ce chapitre se clt en dressant une typologie des mthodes adaptes chaque classe
de problmes.
C
e

d
o
c
u
m
e
n
t

e
s
t

l
a

p
r
o
p
r
i


e
x
c
l
u
s
i
v
e

d
e

O
l
i
v
i
e
r

B
E
R
N
H
A
R
D

(
o
l
i
v
i
e
r
.
s
i
m
p
l
e
l
i
f
e
@
g
m
a
i
l
.
c
o
m
)

-

1
2

m
a
i

2
0
1
4


1
4
:
2
2
82
Sommaire
1 Lespace des donnes dapprentissage . . . . . . . . . . . . . . . . . . 85
1.1 La reprsentation des objets de lapprentissage . . . . . . . . . . . . . . 85
1.1.1 La nature des attributs . . . . . . . . . . . . . . . . . . . . . . 86
1.1.2 Reprsentations homognes et reprsentations mixtes . . . . . 88
1.2 Le prtraitement des donnes . . . . . . . . . . . . . . . . . . . . . . . . 88
1.3 Rduction de la dimension de lespace dentre . . . . . . . . . . . . . . 89
1.3.1 Les grandes directions . . . . . . . . . . . . . . . . . . . . . . . 90
1.3.2 La recherche des variables pertinentes . . . . . . . . . . . . . . 90
1.3.3 Techniques de slection dattributs . . . . . . . . . . . . . . . . 92
1.3.4 Filtres, mthodes symbiose et mthodes intgres . . . . . . . 93
1.3.5 Slection vs. pondration . . . . . . . . . . . . . . . . . . . . . 94
1.3.6 Dtermination du nombre dattributs pertinents . . . . . . . . 97
1.3.7 Pondration des attributs et apprentissage de tri ou ranking . 98
1.3.8 Rfrences . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99
1.3.9 Lextraction dattributs . . . . . . . . . . . . . . . . . . . . . . 99
1.3.10 Le traitement du bruit dans les donnes . . . . . . . . . . . . . 100
1.3.11 La discrtisation de donnes continues . . . . . . . . . . . . . . 100
1.3.12 La description des donnes imprcises . . . . . . . . . . . . . . 100
2 Lespace des hypothses dapprentissage . . . . . . . . . . . . . . . . 101
2.1 Le problme gnral de la reprsentation des connaissances . . . . . . . 101
2.2 La classication . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102
2.2.1 Dnition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102
2.2.2 Classe, concept . . . . . . . . . . . . . . . . . . . . . . . . . . . 103
2.2.3 Les fonctions sparatrices entre classes . . . . . . . . . . . . . . 103
2.3 La rgression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104
2.4 Les distributions de probabilits . . . . . . . . . . . . . . . . . . . . . . 105
2.5 Les arbres de dcision . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105
2.6 Les hirarchies de concepts . . . . . . . . . . . . . . . . . . . . . . . . . 106
2.7 Les rseaux baysiens et les modles graphiques . . . . . . . . . . . . . . 107
2.8 Les chanes de Markov et les modles de Markov cachs . . . . . . . . . 107
2.9 Les grammaires . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108
2.10 Les formalismes logiques . . . . . . . . . . . . . . . . . . . . . . . . . . . 109
2.11 Les rgles dassociation . . . . . . . . . . . . . . . . . . . . . . . . . . . 110
3 Les protocoles dapprentissage . . . . . . . . . . . . . . . . . . . . . . 112
3.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112
3.2 Batch vs. en ligne . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112
3.3 Passif vs. actif . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112
4 Lvaluation de lapprentissage . . . . . . . . . . . . . . . . . . . . . . 113
4.1 Lvaluation a priori : critres thoriques . . . . . . . . . . . . . . . . . 113
4.2 Lvaluation empirique a posteriori : gnralits . . . . . . . . . . . . . . 114
4.3 Lestimation du risque rel dune hypothse . . . . . . . . . . . . . . . . 114
4.3.1 Lutilisation dun chantillon de test . . . . . . . . . . . . . . . 115
4.3.2 Lestimation par validation croise . . . . . . . . . . . . . . . . 116
4.3.3 Lestimation par la mthode du leave-one-out . . . . . . . . . . 118
4.3.4 Quelques variantes de la mthode de validation croise : boots-
trap, jackknife . . . . . . . . . . . . . . . . . . . . . . . . . . . 118
PARTIE 1 : Les fondements de lapprentissage
C
e

d
o
c
u
m
e
n
t

e
s
t

l
a

p
r
o
p
r
i


e
x
c
l
u
s
i
v
e

d
e

O
l
i
v
i
e
r

B
E
R
N
H
A
R
D

(
o
l
i
v
i
e
r
.
s
i
m
p
l
e
l
i
f
e
@
g
m
a
i
l
.
c
o
m
)

-

1
2

m
a
i

2
0
1
4


1
4
:
2
2
Chapitre 3 Lenvironnement mthodologique de lapprentissage 83
4.4 Divers indices composites de performances . . . . . . . . . . . . . . . . . 119
4.5 Le rglage des algorithmes par un ensemble de test . . . . . . . . . . . . 120
4.5.1 Estimation de risque : la courbe ROC . . . . . . . . . . . . . . 121
4.6 Dautres critres dapprciation . . . . . . . . . . . . . . . . . . . . . . . 124
5 La comparaison des mthodes dapprentissage . . . . . . . . . . . . . 124
5.1 La comparaison de deux algorithmes partir dun mme jeu de donnes 125
5.1.1 La comparaison de deux algorithmes sur un mme ensemble de
test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125
5.1.2 Validation croise N plis avec t tests coupls . . . . . . . . . 125
5.1.3 Les 5 2 cv t tests coupls . . . . . . . . . . . . . . . . . . . . 126
5.2 La comparaison de deux algorithmes partir de jeux de donnes dirents126
5.2.1 Le test de rangs signs de Wilcoxon . . . . . . . . . . . . . . . 127
5.3 La comparaison de multiples algorithmes . . . . . . . . . . . . . . . . . 127
5.3.1 Lanalyse de la variance : ANOVA . . . . . . . . . . . . . . . . 128
5.3.2 Le test de Friedman . . . . . . . . . . . . . . . . . . . . . . . . 128
5.4 Discussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 129
6 Autres problmes pratiques . . . . . . . . . . . . . . . . . . . . . . . . 129
6.1 Classes trs dsquilibres . . . . . . . . . . . . . . . . . . . . . . . . . . 129
6.2 Matrice de cots non symtrique . . . . . . . . . . . . . . . . . . . . . . 131
6.3 Donnes bruites . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131
6.4 Espace dentre de trs grande dimension . . . . . . . . . . . . . . . . . 131
6.5 Trs gros volumes de donnes en grande dimension . . . . . . . . . . . . 132
6.6 Exemples non indpendants (non i.i.d.) . . . . . . . . . . . . . . . . . . 132
6.7 Apprentissage multi-objectif . . . . . . . . . . . . . . . . . . . . . . . . . 133
6.8 Apprentissage multi-tiquette . . . . . . . . . . . . . . . . . . . . . . . . 133
E
st-il facile de dnir un cygne ou une oie ? On pourrait penser que oui. Les natu-
ralistes ont accumul des connaissances sur cette question et les ont largement vulga-
rises. Essayons donc avec notre dictionnaire usuel. Voici par exemple ce qui se trouve dans le
Petit Larousse, dition 2000.
Cygne : oiseau palmipde ansriforme au long cou souple, migrateur.
Oie : oiseau palmipde massif au long cou et au bec large.
Ansriforme : oiseau, gnralement palmipde, lallure de canard, mais dont certaines espces
sont des chassiers bec crochu, tel que le kamichi et les anatids. Les ansriformes forment
un ordre.
Anatid : oiseau palmipde au corps massif et au bec aplati, tel que le canard, loie, le cygne.
Les anatids forment une famille de lordre des ansriformes.
Canard : oiseau palmipde de la famille des anatids, bon voilier et migrateur ltat sauvage.
Le canard cancane.
Kamichi : oiseau chassier des marais et des prairies humides de Patagonie, aux ailes armes
de deux perons. Longueur : 90 cm, genre Chauna, ordre des ansriformes, famille des
anhimids.
C
e

d
o
c
u
m
e
n
t

e
s
t

l
a

p
r
o
p
r
i


e
x
c
l
u
s
i
v
e

d
e

O
l
i
v
i
e
r

B
E
R
N
H
A
R
D

(
o
l
i
v
i
e
r
.
s
i
m
p
l
e
l
i
f
e
@
g
m
a
i
l
.
c
o
m
)

-

1
2

m
a
i

2
0
1
4


1
4
:
2
2
84
Anhimid ... (nest pas une entre dans ce dictionnaire.)
Bon... moins que lon soit dans un marais de Patagonie face un chassier aux ailes armes,
tout cela nest pas trs utile pour identier un oiseau. Ces dnitions circulaires masquent les
donnes et les concepts sous des niveaux dabstraction tellement dirents quen pratique elles
sont inoprantes. De plus, la varit des contextes (des biais dapprentissage) est galement
importante : il faut au lecteur de grandes connaissances a priori, et trs bien organises. Par
exemple la notion de migrateur est importante dans ces dnitions et elle est suppose connue,
alors que ce nest pas une vidence lobservation dun oiseau... et quoi peut bien servir de
connatre le mot dsignant le cri du canard pour caractriser cet animal ?
Alors, comment crire un programme qui saurait apprendre distinguer un cygne dune oie ?
La rponse est quil faudra tre plus modeste, cest--dire soigneusement dlimiter un cadre
oprationnel par la dnition de biais dapprentissage. Rappelons lexemple de lavant-propos :
lunivers est rduit un lac sur lequel on impose que seulement deux espces doiseaux puissent
nager. Les observations aussi sont limites la taille et la couleur. On ne cherche pas dnir
la nature du cygne ou de loie de manire universelle : on na pour ambition que dapprendre
les distinguer sous des conditions xes de manire stricte.
Prenons maintenant sur un oiseau lensemble des attributs suivants :
la taille ;
le fait quil vole ou non ;
son chant ;
la couleur de son bec ;
son genre.
1
Ainsi la liste (152 cm, vole, couac , bec jaune, genre Anatidae) nous indiquera, lhi-
ver dans nos rgions, un cygne chanteur (Cygnus Cygnus L.) et la liste (110 cm, ne vole pas,
krrr , bec noir, genre Aptedonytes) se rapporte plutt un manchot, mais nest pas
assez complte pour que lon sache de quelle espce il sagit.
Une autre question : est-il facile de dnir une carte jouer ? Mais oui. Il sut de noter sa cou-
leur et son rang, qui peuvent prendre respectivement leur valeurs dans les domaines , , ,
et A, R, D, V, 10, 9, 8, 7, 6, 5, 4, 3, 2. Cette dnition est parfaite, puisque les cartes jouer sont
des objets dont le sens est par nature compltement dcrit par ces deux caractristiques. En
revanche, aucun oiseau ne porte le nom de son espce sur son plumage.
Cest que les noms donns aux formes de la nature sont symboliques : ils sont une abstraction
qui regroupe des individus selon des contrastes avec dautres individus. Ces concepts ont t
extraits dune multitude de descripteurs souvent numriques, comme la taille, ou un peu plus
abstraits comme la couleur, ou trs labors, comme le fait dtre migrateur ou non. Autrement
dit, les connaissances sur les individus doivent tre symbolises si lon veut en tirer prot pour
en extraire une dnition opratoire.
Cette introduction na pour but que de rappeller que lapprentissage articiel doit videmment
se poser le problme de la symbolisation ou de la reprsentation des connaissances, qui est comme
on le sait une des questions centrales de lintelligence articielle. Cette question est plus aise
rsoudre pour des donnes articielles comme les cartes jouer que pour des donnes
naturelles, videmment plus intressantes.
1
Dans la hirarchie de Linn, cette variable est au-dessus de lespce et au-dessous de la famille, elle-mme
au-dessous de lordre.
PARTIE 1 : Les fondements de lapprentissage
C
e

d
o
c
u
m
e
n
t

e
s
t

l
a

p
r
o
p
r
i


e
x
c
l
u
s
i
v
e

d
e

O
l
i
v
i
e
r

B
E
R
N
H
A
R
D

(
o
l
i
v
i
e
r
.
s
i
m
p
l
e
l
i
f
e
@
g
m
a
i
l
.
c
o
m
)

-

1
2

m
a
i

2
0
1
4


1
4
:
2
2
Chapitre 3 Lenvironnement mthodologique de lapprentissage 85
1. Lespace des donnes dapprentissage
Lapprentissage sappuie sur des donnes (des objets) quil faut reprsenter. Suivant le type de
ces donnes, certaines reprsentations sont plus ou moins adaptes. Par ailleurs, toute description
des donnes suppose dj un prtraitement, ne serait-ce que dans le choix des attributs de
description ou la manire de faire face des donnes imparfaites.
1.1 La reprsentation des objets de lapprentissage
Les connaissances sur les donnes elles-mmes sont symbolises grce un espace de reprsen-
tation des donnes not A. Cest dans cet espace que seectue la description des objets. Dans
lexemple dintroduction de ce livre, les oies et les cygnes sont reprsents par deux nombres :
leur taille et leur niveau de gris. Par consquent chaque objet (chaque oiseau) est reprsent
par deux valeurs numriques, ou par un point du plan, ou encore par un vecteur de IR
2
. Dans
lexemple en tte de ce chapitre, un oiseau est reprsent diremment : par cinq attributs de
natures diverses.
Le premier exemple est trs frquent : la description dun objet par d valeurs numriques,
donc lutilisation de A = IR
d
comme espace de reprsentation, permet en eet dutiliser des
outils analytiques, gomtriques, probabilistes, etc.
Il existe un autre cas courant : celui o les donnes sont reprsentes par un vecteur binaire.
Ceci correspond au cas o lon dcrit les objets laide dune srie de tests et o chaque objet
est VRAI ou FAUX vis--vis de chaque test. Si lon veut traiter des problmes complexes, il faut
naturellement un grand nombre de descripteurs binaires, parfois des centaines ou des milliers. Les
proprits de cet espace sont formalises par la logique boolenne ou logique des propositions.
La structure algbrique de ces espace est forte, mais les notions de continuit et de densit de
probabilit sont non dnies.
Dnition 3.1 (Espace de reprsentation)
Lespace de reprsentation est not A et ses lments sont appels donnes, instances ou objets.
Un exemple z
i
= (x
i
, u
i
) est un objet associ sa supervision.
Les lments de A peuvent souvent tre dtaills comme un ensemble de d attributs ou des-
cripteurs (features en anglais) : x = x
1
, . . . , x
i
, . . . , x
d
.
Notons que le terme donnes est vague, mais fait le lien avec lapprentissage pour la fouille
de donnes. Le terme instance est un anglicisme imprcis (souvent un objet, parfois un
exemple). De mme, en reconnaissance des formes, le terme paramtre est parfois employ,
comme mauvaise traduction de feature.
Nous emploierons aussi la notion de distance sur lensemble des valeurs que peut prendre un
attribut. Rappelons la dnition de ce terme :
Dnition 3.2 (Distance)
Une distance sur un espace E E est une application de E E dans R
+
si et seulement si
elle vrie les proprits :
(x, y) = 0 x = y
x, y , (x, y) = (y, x) (symtrie)
x, y, z , (x, y) (x, z) + (z, y) (ingalit triangulaire)
C
e

d
o
c
u
m
e
n
t

e
s
t

l
a

p
r
o
p
r
i


e
x
c
l
u
s
i
v
e

d
e

O
l
i
v
i
e
r

B
E
R
N
H
A
R
D

(
o
l
i
v
i
e
r
.
s
i
m
p
l
e
l
i
f
e
@
g
m
a
i
l
.
c
o
m
)

-

1
2

m
a
i

2
0
1
4


1
4
:
2
2
86 PARTIE 1 : Les fondements de lapprentissage
Lingalit triangulaire nest pas toujours facile dnir dans les applications pratiques. Une
application de E E dans R
+
qui vrie au plus les deux premiers axiomes est parfois appele
dissemblance. Par abus de langage, le mot distance est souvent employ indiremment pour
ces deux concepts, en particulier en apprentissage. Nous serons par la suite aussi rigoureux que
possible dans lutilisation de ces deux termes.
Nous allons maintenant passer en revue les types dattributs auxquels nous aurons aaire par
la suite, les cas binaires et numriques tant les plus naturels et les plus simples.
1.1.1 La nature des attributs
Nous nous intressons dans la suite de cet ouvrage aux attributs des types suivants :
Binaire
Lobjet x est dcrit par d attributs x
i
dont chacun vaut 1 ou 0, autrement dit vrai ou
faux.
X = x
1
, . . . , x
i
, . . . , x
d
= 0, 1
d
= B
d
Dans le cas o les d attributs de X sont tous binaires, les donnes peuvent tre reprsentes
par une matrice binaire (md). Cette reprsentation a des interprtations mathmatiques
diverses : logique, algbrique (construction dun treillis de Galois : chapitre 4, paragraphe 4),
topologique (notion de distance), informatique (bases de donnes, voir chapitre 18), etc.
Exemple
Pour quelques espces danimaux :
Vole A des plumes Pond des ufs
oie 1 1 1
ornithorynque 0 0 1
rhinolophe 1 0 0
cygne 1 1 1
Nominal (ou catgoriel)
Par dnition, un attribut de ce type appartient un ensemble ni et non ordonn
2
. Par
exemple la couleur , , , dune carte jouer est un attribut nominal dans la
plupart des cas : dune part elle ne peut prendre que quatre valeurs et dautre part il ny
a pas dordre sur les couleurs. De mme, une pice au jeu dchecs peut tre de six formes
direntes, mais, grosso modo, chacune peut semparer de chaque autre : elles nont pas
dordre naturel de ce point de vue.
Dans certains cas, une distance ou une dissemblance peut se dnir sur lensemble des
valeurs que peut prendre un attribut nominal. Par exemple, lensemble des sons (ou pho-
nmes) de la langue franaise est un ensemble nominal : il nest pas ordonn, mais on sait
par exemple que le son /a/ est plus proche du son /in/ que du son /k/. Dans cet exemple,
la proprit de lingalit triangulaire nest pas vrie.
2
Un attribut est ordinal quand il appartient un ensemble ordonn, mais sur lequel on ne peut pas dnir
une distance, comme couleur-mdaille |or, argent, bronze. La confusion entre les termes nominal et
ordinal est frquente.
C
e

d
o
c
u
m
e
n
t

e
s
t

l
a

p
r
o
p
r
i


e
x
c
l
u
s
i
v
e

d
e

O
l
i
v
i
e
r

B
E
R
N
H
A
R
D

(
o
l
i
v
i
e
r
.
s
i
m
p
l
e
l
i
f
e
@
g
m
a
i
l
.
c
o
m
)

-

1
2

m
a
i

2
0
1
4


1
4
:
2
2
Chapitre 3 Lenvironnement mthodologique de lapprentissage 87
Nominal arborescent
Il existe parfois une hirarchie naturelle, mais pas un ordre total, sur les valeurs que peuvent
prendre un attribut nominal. Par exemple, les groupes sanguins et facteurs rhsus sont au
nombre de huit :
O+, O, A+, A, B+, B, AB+, AB
Du point de vue de la compatibilit pour la transfusion, O+ est suprieur A+, B+
et AB+, puisque du sang O+ peut tre tranfus aux trois autres groupes et pas linverse.
En revanche, du point de vue de cette relation dordre, on ne peut rien dire sur le couple
(A+, B+) ni sur le couple (A+, A).
Un autre exemple est celui de la couleur, donn en gure 3.1. Il sera utilis au chapitre 4.
Fig. 3.1: Une description arborescente possible pour lattribut Couleur.
Nominal totalement ordonn
Il est en ralit souvent possible de trouver une relation dordre sur un attribut nominal.
La question est de savoir si elle est utile au problme ou non. Par exemple, si on sintresse
lattribut couleur dans un catalogue de voitures, une relation dordre semble dicile
dnir (le bleu sprint est-il suprieur ou infrieur lorange calypso ?). En revanche, en as-
trophysique, la couleur est caractrise par une longueur donde dans un certain intervalle :
cest un attribut numrique totalement ordonn, donc un intervalle de IR.
De mme, dans certains jeux de cartes, les couleurs sont ranges dans un ordre dcroissant :
le lemporte sur le qui lemporte sur le qui lemporte enn sur le .
Un attribut nominal totalement ordonn est assimilable un intervalle de IR ou de N et
peut donc tre muni dune distance.
Squenciel nominal
Un texte franais est une squence compose partir dun ensemble (un alphabet) dune
centaine de caractres : les cinquante-deux lettres minuscules et majuscules, lintervalle
(lespace), quelques lettres accentues, les signes de ponctuation, parfois des abrviations
comme :-) ou e, etc. videmment, lordre de ces lments nominaux est essentiel : la
squence Le commandant Cousteau et la squence Tout commena dans leau
sont direntes, bien que composes exactement des mmes lettres
3
.
On sait munir lensemble des valeurs que peut prendre un tel attribut dune distance,
en particulier quand lensemble des lments qui composent la squence (lalphabet) est
lui-mme muni dune distance.
3
Dans ce cas prcis, les espaces ne sont pas compts, les accents ou cdilles non plus et les caractres minuscules
et majuscules ne sont pas distingus.
C
e

d
o
c
u
m
e
n
t

e
s
t

l
a

p
r
o
p
r
i


e
x
c
l
u
s
i
v
e

d
e

O
l
i
v
i
e
r

B
E
R
N
H
A
R
D

(
o
l
i
v
i
e
r
.
s
i
m
p
l
e
l
i
f
e
@
g
m
a
i
l
.
c
o
m
)

-

1
2

m
a
i

2
0
1
4


1
4
:
2
2
88 PARTIE 1 : Les fondements de lapprentissage
Squenciel numrique
La cote boursire de tel ou tel titre est un exemple dattribut squenciel numrique :
chaque instant de temps signicatif, une valeur numrique est donne. On peut ainsi
produire des squences de plusieurs centaines de chires reprsentant lvolution dun cours
sur une anne.
Le cas de vecteurs dattributs arrivant en squence est typique des problmes de traitement
du signal, comme la parole : chaque centime de seconde est caractris aprs analyse
spectrale par un lment de IR
d
, d valant typiquement entre 10 et 20.
1.1.2 Reprsentations homognes et reprsentations mixtes
Lespace de reprsentation A est souvent compos de d attributs de la mme nature, gnrale-
ment dans ce cas binaires ou numriques. Il existe aussi des espaces de reprsentation composs
de plusieurs attributs squenciels nominaux : par exemple dans les problmes dapprentissage de
traducteurs, o lon doit disposer de couples de phrases.
Dans les cas prcdents, A est homogne : ses d attributs sont tous de mme nature. Beaucoup
de mthodes dapprentissage ne peuvent sappliquer que sur des donnes dcrites dans un espace
de reprsentation homogne.
Mais le cas le plus gnral est celui o lespace de reprsentation A = x
1
, . . . , x
i
, . . . , x
d
est
mixte, autrement dit compos dattributs de natures direntes. Cest le cas de la description dun
oiseau donne ci-dessus pour un cygne chanteur : (152 cm, vole, couac , bec jaune,
genre Anatidae). Le premier attribut est numrique, le second est binaire, le troisime squenciel
et le dernier hirarchique.
De mme le diagnostic sur un patient entrant dans un hpital porte sur une reprsentation
non homogne de son tat. Il pourra tre dcrit par exemple par les attributs suivants :
vaccin contre la diphtrie, et si oui, depuis combien de temps ?
temprature ;
groupe sanguin ;
description du type daection cutane ;
rgion et type de douleur ;
. . .
Peu de mthodes dapprentissage sont capables dapprendre un concept dni sur des attri-
buts de natures diverses. La plupart du temps, on a recours une description sous forme de
combinaison boolenne de proprits binaires extraites des attributs.
1.2 Le prtraitement des donnes
On eectue souvent un prtraitement des donnes avant de les utiliser dans lalgorithme dap-
prentissage. Les dirents problmes considrer incluent :
Le choix des attributs de description. Nous avons vu lors du chapitre 1 propos de la
reconnaissance de caractres comment dirents choix sont possibles et peuvent avoir une
inuence considrable sur la dicult dapprendre.
Le traitement du bruit. Les donnes disponibles sont rarement dcrites parfaitement. Souvent
les dfauts des instruments de mesure articiels ou humains provoquent des erreurs. Plus
grave, il arrive aussi dans le cas de lapprentissage supervis que les rponses de loracle
elles-mmes soient errones. On qualie ces types derreurs de bruit de description et de
bruit de classication. Finalement, il est frquent que les donnes ne soient pas dcrites
compltement, et quil y ait des valeurs manquantes certains attributs. Cest le cas gnral
pour les donnes mdicales : seuls un certain nombre dexamens cliniques sont pratiqus sur
C
e

d
o
c
u
m
e
n
t

e
s
t

l
a

p
r
o
p
r
i


e
x
c
l
u
s
i
v
e

d
e

O
l
i
v
i
e
r

B
E
R
N
H
A
R
D

(
o
l
i
v
i
e
r
.
s
i
m
p
l
e
l
i
f
e
@
g
m
a
i
l
.
c
o
m
)

-

1
2

m
a
i

2
0
1
4


1
4
:
2
2
Chapitre 3 Lenvironnement mthodologique de lapprentissage 89
chaque patient en fonction de sa pathologie, des contraintes de circonstance, etc. Ces valeurs
manquantes posent souvent des problmes diciles rsoudre (voir par exemple le cas de
lapprentissage darbres de dcision au chapitre 13).
Les donnes imprcises. Les donnes peuvent faire lobjet de descriptions vagues : par
exemple : cet oiseau est gris . Il faut nanmoins savoir reprsenter de tels attributs
car ils apportent une certaine information. Il faut ensuite savoir les utiliser, en particulier
pour les mettre en rapport avec les connaissances sur le monde et les hypothses.
Examinons tour tour plus prcisment ces problmes.
1.3 Rduction de la dimension de lespace dentre
Plus lapprentissage articiel sest attaqu des problmes rels, et plus limportance des
prtraitements sest trouve souligne. Fournir des donnes qui soient aussi peu bruites que
possible, dans lesquelles les donnes aberrantes (outliers) sont retires, ventuellement avec une
distribution de probabilit rectie, est un pralable qui facilite lapprentissage, et peut dans
certains cas le rendre quasi trivial. Par ailleurs, un ensemble de descripteurs rduit peut galement
conduire lobtention de rsultats dapprentissage plus simples et plus aiss interprter.
Redcrire les donnes fait parfois partie du prtraitement. Cela peut aussi tre constitutif de
lapprentissage. Parmi les codages possibles, lun des plus simples consiste slectionner un sous-
ensemble de descripteurs au sein des descripteurs dorigine. Cest ce que lon appelle souvent la
slection dattributs
4
.
Le premier rle de la rduction de dimension de lespace de description des donnes est de
rendre linduction possible alors mme que la faible taille de lchantillon dapprentissage
ou la prsence dattributs non informatifs la rendent problmatique. En eet, gnralement, la
capacit de lespace dhypothses est fonction du nombre de dimensions de lespace dentre. Et,
comme nous lavons vu au chapitre 2, plus cette capacit ou richesse est grande, et plus grand
doit tre le nombre dexemples pour garantir en probabilit un lien entre risque empirique et
risque rel. Par ailleurs, lestimation des paramtres dans les mthodes paramtriques se dgrade
exponentiellement avec le nombre dattributs (la maldiction ou le au de la dimensionnalit, ou
curse of dimensionality en anglais). Il est donc crucial de rduire au maximum la dimension de
lespace dentre, en conservant au maximum bien entendu linformation utile lie lchantillon
dapprentissage.
Lorsque les donnes disponibles sont en nombre susant par rapport au nombre de descrip-
teurs, cest--dire susant pour viter le sur-apprentissage, la slection dattributs vise essen-
tiellement faciliter lapprentissage en diminuant la complexit des calculs et/ou la taille des
donnes stocker. Mais, la slection dattributs peut galement devenir lobjectif et non plus un
outil ou une tape auxiliaire lorsque le problme consiste dcouvrir les facteurs cls lis
un phnomne, comme cest la cas par exemple dans lanalyse des facteurs de risque en mdecine
ou dans lidentication des gnes activs dans certaines conditions biologiques.
Un cas extrme est celui dans lequel les descripteurs sont bien plus nombreux que les exemples.
Des applications aussi importantes que lanalyse du gnome ou lindexation de textes sur lInter-
net ou des banques dimages ont bris un tabou et stimul de nouvelles recherches sur lvaluation
des attributs dans des contextes que les statisticiens sinterdisaient.
Il faut aussi noter que la dimensionnalit importante dun espace de description est lorigine
de phnomnes qui tendent nuire la recherche de rgularits dans les donnes. Comme Bell-
man lavait soulign avec lexpression maldiction de la dimensionnalit, lespace tend devenir
vide exponentiellement rapidement lorsque le nombre de dimensions de lespace saccrot.
4
Dans la suite de cet ouvrage, nous utiliserons indiremment les termes d attribut ou de descripteur .
C
e

d
o
c
u
m
e
n
t

e
s
t

l
a

p
r
o
p
r
i


e
x
c
l
u
s
i
v
e

d
e

O
l
i
v
i
e
r

B
E
R
N
H
A
R
D

(
o
l
i
v
i
e
r
.
s
i
m
p
l
e
l
i
f
e
@
g
m
a
i
l
.
c
o
m
)

-

1
2

m
a
i

2
0
1
4


1
4
:
2
2
90 PARTIE 1 : Les fondements de lapprentissage
Mais, outre la dicult que cela entrane pour lestimation de densit qui est la base de nom-
breuses techniques statistiques, cela a galement des implications gomtriques ennuyeuses. Ainsi,
par exemple, en supposant que la densit des points soit uniforme dans lespace, le volume dun
hypercube ou dune hypersphre tend se concentrer dans la peau de ce volume, cest--dire
gale distance du centre. Cela se traduit par une concentration des normes et des distances. Ainsi,
la norme de variables i.i.d. (identiquement et indpendamment distribues) crot proportionnel-
lement

D quand D est la dimension de lespace, ce qui est normal, mais la variance reste
approximativement constante. Donc, les vecteurs dont les composantes sont tires alatoirement
tendent avoir la mme longueur. Cela signie galement que la distance entre deux vecteurs
alatoires tend vers une constante. La recherche de rgularits par des mthodes gomtriques,
et gnralement les approches par plus proches voisins, sont donc srieusement menaces (voir
aussi la section 2.8 du chapitre 18).
Il est clair que la rduction de dimension est un aspect important de lanalyse de donnes et
de lapprentissage.
1.3.1 Les grandes directions
La rduction de dimension cherche dcouvrir :
les variables non pertinentes ;
les corrlations ou dpendances entre les variables (pertinentes).
La pertinence des variables est souvent fonction de la tche raliser. Assez naturellement, cest
donc la performance sur cette tche qui permet didentier les variables pertinentes, cest--dire
porteuses dune information utile. Lessentiel de cette section porte sur ces techniques.
La recherche des dpendances entre variables ressort davantage de techniques non supervises
(voir chapitre 18). Il sagit essentiellement de trouver une transformation des variables de base en
une autre base de manire conserver autant dinformation que possible sur le signal dorigine,
tout en diminuant la dimension de lespace de description des donnes.
Lobjectif gnral peut se dcliner en deux sous-objectifs :
Identier les variables latentes qui expliquent la distribution de probabilit des donnes.
Il sagit dune approche gnrative. On suppose que les variables observes rsultent du
mlange inconnu, linaire ou non, de variables latentes.
Estimer la dimension intrinsque du nuage de points dans lespace A. Ainsi, les donnes
peuvent en fait appartenir un sous-espace de dimension trs infrieure D la dimension
de A, par exemple appartenir un tore. On cherche alors le nombre minimal de degrs de
libert ou de paramtres indpendants permettant de reconstruire les donnes.
Historiquement, lune des premires mthodes proposes dans ce cadre est lanalyse en com-
posantes principales (ACP) (voir la section 7.1).
1.3.2 La recherche des variables pertinentes
Gnralement le choix des attributs vise diminuer le nombre des descripteurs an de faciliter
lapprentissage sans nuire la qualit du rsultat
5
. On distingue deux grandes approches :
La slection dattributs consiste liminer les attributs les moins pertinents pour lappren-
tissage. Le but est de diminuer la dimensionnalit du problme qui est la fois une source
5
Notons cependant que lon peut imaginer au contraire de construire de nouveaux attributs qui viendront
sajouter aux attributs initiaux. Cest ce qui est mis en jeu dans les techniques base de fonctions noyaux,
et en particulier dans la technique des sparateurs vastes marges (SVM). Nous renvoyons le lecteur au
chapitre 14 pour plus de dtails.
C
e

d
o
c
u
m
e
n
t

e
s
t

l
a

p
r
o
p
r
i


e
x
c
l
u
s
i
v
e

d
e

O
l
i
v
i
e
r

B
E
R
N
H
A
R
D

(
o
l
i
v
i
e
r
.
s
i
m
p
l
e
l
i
f
e
@
g
m
a
i
l
.
c
o
m
)

-

1
2

m
a
i

2
0
1
4


1
4
:
2
2
Chapitre 3 Lenvironnement mthodologique de lapprentissage 91
Espace initial
de description
(D attributs)
Espace de
redescription
(d attributs)
APPRENTISSAGE
SLECTION
Espace initial
de description
(D attributs)
Espace de
redescription
(d attributs)
APPRENTISSAGE
Transformation

Fig. 3.2: gauche, la slection dattributs retient les d attributs les plus pertinents parmi les
D attributs de lespace dentres. droite, la redescription transforme les attributs de
lespace dentre, ici par une fonction de combinaison des attributs initiaux, pour en
construire d nouveaux.
dimprcision et un handicap calculatoire. Si on possde une description des donnes par un
ensemble de D attributs, le problme est de chercher un sous-ensemble de d attributs qui
prserve au mieux les informations ncessaires lalgorithme dapprentissage.
La redescription rduit la dimensionnalit de lespace dentre en appliquant des transfor-
mations, linaires ou non, aux attributs initiaux.
Ces deux approches (voir la gure 3.2) sont fondes sur loptimisation dun certain critre
J qui vise estimer linformation porte par un sous-ensemble dattributs. Dans le cas de la
slection dattributs, ce critre sapplique tout sous-ensemble dattributs parmi lensemble
des D attributs initiaux, et lon cherche le sous-ensemble A
d
de dimension d D optimisant J :
J(A
d
) = Max
X.
d
J(X)
Dans le cas de la redescription, le critre traduit la qualit des transformations possibles des
D attributs initiaux, et lon cherche la transformation

maximisant ce critre :
J(

) = Max

J((A))
o est lensemble des transformations potentielles.
Fig. 3.3: Treillis des sous-ensembles dun ensemble quatre lments.
La recherche du sous-ensemble optimal de descripteurs est un problme NP-dicile. Sil y a
D attributs, il faut envisager de tester les 2
D
sous-ensembles de descripteurs pour identier le
C
e

d
o
c
u
m
e
n
t

e
s
t

l
a

p
r
o
p
r
i


e
x
c
l
u
s
i
v
e

d
e

O
l
i
v
i
e
r

B
E
R
N
H
A
R
D

(
o
l
i
v
i
e
r
.
s
i
m
p
l
e
l
i
f
e
@
g
m
a
i
l
.
c
o
m
)

-

1
2

m
a
i

2
0
1
4


1
4
:
2
2
92 PARTIE 1 : Les fondements de lapprentissage
meilleur. Ces ensembles peuvent cependant tre partiellement ordonns dans un treillis grce
la relation dinclusion (voir la gure 3.3). De ce fait, direntes stratgies ont t proposes :
parcours de lensemble vide vers lensemble total (forward selection, en anglais), ou parcours
dans lautre sens (backward elimination), ou un parcours alatoire. Malheureusement, il nest pas
vident de disposer dune mesure heuristique de qualit prsentant des proprits de monotonicit
permettant un parcours bien guid, comme le montre lexemple suivant.
Exemple Non-monotonicit dun critre de slection
Considrons le problme dapprentissage de rgle de classication sur un ensemble de cinq
points en dimension D = 3 donn la gure 3.4. Il est facile de voir que les deux classes
(reprsentes par les symboles et ) sont bien spares, au moins sur cet ensemble dap-
prentissage. Dnissons un critre J, indpendant de tout algorithme, pour caractriser cette
proprit. Admettons que si deux points de classes direntes sont trs proches, une petite
rgion autour deux va tre neutralise , cest--dire que tous les points dapprentissage
qui y sont situs seront ignors. Le nombre de points restants est alors la valeur de J.
Puisque la sparation est parfaite en dimension 3, le critre vaut donc J = 5 au dpart.
x
y
z

Fig. 3.4: trois dimensions, le critre vaut 5.


Si on choisit d = 2, les gures 3.5 montrent les projections des donnes dans les trois sous-
espaces possibles et la valeur correspondante de ce critre (les points neutraliss sont
entours dun cercle hachur). On constate que le meilleur sous-espace est (y, z), avec une
valeur J = 5 pour le critre. Les sous-espaces (x, y) et (x, z) ont la valeur J = 3.
x
y

y
z

z
x

Fig. 3.5: deux dimensions, le meilleur sous-espace est (y, z), avec une valeur 5 pour le critre.
(x, y) et (x, z) lui donnent la valeur 3.
Pour d = 1, les gures 3.6 montrent que le meilleur axe est x et que les deux plus mauvais
sont y et z. Par consquent, lalgorithme glouton qui consiste choisir la coordonne la plus
ecace seule, puis le couple le plus ecace comprenant cette coordonne, serait en chec
sur cet exemple, puisque le couple de coordonnes le plus ecace est constitu des deux
coordonnes les moins ecaces.
1.3.3 Techniques de slection dattributs
Les mthodes de slection dattributs ont pour but didentier les attributs qui sont utiles en
vue dune tche de classication. Chaque exemple, ou forme dentre, est dcrit par d attributs
C
e

d
o
c
u
m
e
n
t

e
s
t

l
a

p
r
o
p
r
i


e
x
c
l
u
s
i
v
e

d
e

O
l
i
v
i
e
r

B
E
R
N
H
A
R
D

(
o
l
i
v
i
e
r
.
s
i
m
p
l
e
l
i
f
e
@
g
m
a
i
l
.
c
o
m
)

-

1
2

m
a
i

2
0
1
4


1
4
:
2
2
Chapitre 3 Lenvironnement mthodologique de lapprentissage 93
x

Fig. 3.6: une dimension, le meilleur sous-espace est laxe x, avec une valeur 2 pour le critre.
Les axes y et z ont la valeur 1.
(e.g. gnes) et appartient une classe (e.g. tumeur ou non tumeur). Lchantillon dapprentis-
sage fournit des exemples avec leur classe (suppose correcte). Le problme est de dcouvrir les
attributs les plus informatifs pour la dtermination de la classe des exemples dapprentissage, et
aussi pour les exemples venir, encore inconnus. De plus, on peut chercher dterminer un en-
semble dattributs minimal permettant de classer les exemples ou, au contraire, vouloir connatre
tous les attributs corrls la classe des entres, mme sils sont redondants. Ce dernier cas est
reprsentatif, par exemple, des objectifs de lanalyse du transcriptome.
Il faut noter que les attributs peuvent tre informatifs propos de la classe des exemples
indpendamment les uns des autres (on parle de corrlation linaire) ou en combinaison (il sagit
de corrlations dordre suprieur) (voir la gure 3.7). Il est vident que les corrlations dordre
suprieur sont plus diciles dcouvrir que les corrlations linaires, et exigent gnralement
plus de donnes dapprentissage. Pour cette raison, les mthodes de slection dattributs sont le
plus souvent orientes vers la dcouverte de corrlations linaires entre les attributs (e.g. lactivit
des gnes) et les classes.
f
1
f
2
f
1
f
2
(a) (b)
Fig. 3.7: Corrlations dans la slection dattributs. En (a), lattribut f
2
est clairement directe-
ment corrl avec la classe des objets. En (b), en revanche, aucun des attributs nap-
porte, indpendamment, dinformation sur la classe des objets. Il faut prendre en compte
les deux attributs ensemble ( travers une combinaison de type XOR) pour gagner une
information signicative sur les classes.
1.3.4 Filtres, mthodes symbiose et mthodes intgres
Il existe trois grandes classes de mthodes de slection dattributs : les mthodes intgres
(embedded, en anglais), les mthodes symbiose (wrapper) et les mthodes de ltre (lter) [BL97,
GE03, KJ97].
1. Les mthodes intgres consistent utiliser directement le systme dapprentissage dans
lespoir quil dcouvrira automatiquement les descripteurs utiles pour la classication. Ainsi
C
e

d
o
c
u
m
e
n
t

e
s
t

l
a

p
r
o
p
r
i


e
x
c
l
u
s
i
v
e

d
e

O
l
i
v
i
e
r

B
E
R
N
H
A
R
D

(
o
l
i
v
i
e
r
.
s
i
m
p
l
e
l
i
f
e
@
g
m
a
i
l
.
c
o
m
)

-

1
2

m
a
i

2
0
1
4


1
4
:
2
2
94 PARTIE 1 : Les fondements de lapprentissage
par exemple, un systme dinduction darbre de dcision (voir le chapitre 13) eectue
une slection automatique des descripteurs en choisissant ceux qui sont susants pour la
construction de larbre. Malheureusement, ce type dapproche est condamn produire des
rsultats peu ables lorsque les donnes sont trs rares par rapport au nombre dattributs.
2. Les mthodes de type symbiose (comme un parasite et son hte) valuent les sous-ensembles
dattributs en fonction des performances des mthodes de classication qui les utilisent.
Ainsi, tant donne une mthode de classication (e.g. un perceptron multi-couche) et un
ensemble dattributs T (pour features, en anglais), la mthode symbiose explore lespace
des sous-ensembles de T, utilisant la validation croise pour comparer les performances des
classieurs entrans sur chaque sous-ensemble. Intuitivement, les mthodes symbiose pr-
sentent lavantage de slectionner les sous-ensembles dattributs pertinents qui permettent
les meilleures performances en gnralisation, ce qui est souvent le but nal. Cependant,
tandis quil a t soulign rcemment que cette approche pouvait tre biaise et trop opti-
miste sur le vrai contenu informatif des attributs slectionns [XJK01], le principal incon-
vnient de ces mthodes est leur cot calculatoire attach lexploration de lespace des
sous-ensembles de T.
3. Cest pourquoi les mthodes de ltre conservent leur attrait. Elles sont utilises dans une
phase de prtraitement, indpendamment du choix de la mthode de classication. La plu-
part dentre elles value chaque attribut indpendamment en mesurant la corrlation (selon
une mtrique dnir) de leurs valeurs sur les exemples avec la classe de ces exemples.
En dautres termes, ces mthodes valuent linformation apporte par la connaissance de
chaque attribut sur la classe des exemples. Sous certaines hypothses dindpendance et
dorthogonalit, les attributs ainsi estims comme informatifs peuvent tre optimaux par
rapport certains systmes de classication. Un avantage important de cette approche est
son faible cot calculatoire, puisquelle ne require quun nombre dvaluations linaire en
fonction du nombre d dattributs, plus une opration de tri. Un inconvnient est li au
fait quil nexiste pas densemble optimal de descripteurs indpendamment de lalgorithme
dapprentissage et de la taille de lchantillon dapprentissage. Ainsi, certains algorithmes
sont trs sensibles la redondance dans les attributs (cest--dire leur corrlation) tandis
que dautres seront sensibles la prsence dattributs non informatifs et bncieront au
contraire de linformation redondante. De plus, les mthodes de ltre impliquent gnra-
lement dutiliser un seuil permettant de sparer les attributs pertinents de ceux qui ne
le sont pas. Or il nest pas facile de dterminer ce seuil de manire non arbitraire (voir
section 1.3.6).
1.3.5 Slection vs. pondration
Il existe deux grandes approches pour la rduction de dimension. La premire consiste direc-
tement chercher dterminer le sous-ensemble optimal de descripteurs. Cette approche, dite de
slection, (subset search algorithms, en anglais) est souvent associe aux mthodes intgres ou
aux mthodes symbiose. Cependant, comme il a dj t not, elle se heurte la complexit de
la recherche dun bon sous-ensemble dans un ensemble dlments. La seconde approche, dite de
pondration (feature weighting), consiste valuer le mrite de chaque descripteur indpendam-
ment des autres, puis, dans un second temps, dterminer les attributs conserver, par exemple
en xant un seuil de pertinence. Elle est gnralement associe aux mthodes de ltre.
1.3.5.1 Slection. Parmi les mthodes de slection, lune des premires propose a t lal-
gorithme Focus [AD91] qui utilise une recherche exhaustive en largeur dabord pour identier
C
e

d
o
c
u
m
e
n
t

e
s
t

l
a

p
r
o
p
r
i


e
x
c
l
u
s
i
v
e

d
e

O
l
i
v
i
e
r

B
E
R
N
H
A
R
D

(
o
l
i
v
i
e
r
.
s
i
m
p
l
e
l
i
f
e
@
g
m
a
i
l
.
c
o
m
)

-

1
2

m
a
i

2
0
1
4


1
4
:
2
2
Chapitre 3 Lenvironnement mthodologique de lapprentissage 95
le sous-ensemble dattributs de plus petit cardinal (nombre dlments) permettant une bonne
classication des exemples dapprentissage. Cet algorithme, de type symbiose, est videmment
inecace en prsence de nombreux attributs.
Technique de la couverture de Markov. Une autre technique, celle de la couverture de
Markov (Markov blanket, en anglais), a fait lobjet de nombreux travaux rcemment. Elle sappuie
sur une approche probabiliste.
Soit F le vecteur des attributs de description (correspondant lensemble des attributs T)
prenant la valeur f pour un exemple donn. Et soit C la variable alatoire associe la classe, et
qui prend la valeur pour lexemple mentionn. Alors, P(C = [F = f ) est la probabilit que
la classe soit alors que la description de lobjet est donne par le vecteur f .
Soit un sous-ensemble ( T de descripteurs, dont le vecteur associ prend la valeur f
G
(projection de f sur G). Nous cherchons un sous-ensemble ( tel que : P(C = [F = f
G
) soit
aussi proche que possible de P(C = [F = f ) .
La notion de proximit entre deux distributions de probabilit et dnies sur une espace
probabilis A peut tre value par lentropie croise ou encore la divergence de Kullback-Leibler :
D(, ) =

x.
(x) log
(x)
(x)
(3.1)
Intuitivement, il sagit de la distance
6
entre la vraie distribution de probabilit et la
distribution estime .
Nous voulons donc trouver un sous-ensemble ( tel que :
J(() =

f
P(F = f ) D
_
P(C[F = f ), P(C[F
G
= f
G
)
_
(3.2)
soit proche de 0.
Ce calcul requiert lestimation des distributions conditionnelles P(C[F et P(C[F
G
), or nous
ne disposons souvent que dchantillons dapprentissage trop limits pour obtenir une estimation
correcte. Il est donc ncessaire de trouver une alternative. Cest l que peut intervenir la notion
de couverture de Markov.
Brivement, un rseau baysien est un graphe orient acyclique dans lequel les nuds repr-
sentent des variables et les arcs des dpendances conditionnelles entre ces variables. Si un arc
part dun nud X vers un nud Y , cela correspond une dpendance directe de la variable Y
par rapport la variable X et X est appel parent de Y (Y tant un descendant de X) (voir le
chapitre 11 pour plus de dtails). La couverture de Markov dun nud A est lensemble MB(A)
des nuds qui rendent A conditionnellement indpendants de tous les autres nuds du graphe.
Plus formellement, soient deux nuds distincts A et B :
P(A[MB(A), B) = P(A[MB(A)) (3.3)
On peut montrer que la couverture de Markov dun nud est gal lensemble de ses nuds
parent, de ses ls et des parents de ses ls (voir gure 3.8).
La couverture de Markov dune variable correspond donc lensemble des variables dont la
connaissance sut dterminer sa valeur. En particulier, si A correspond la variable classe,
sa couverture de Markov fournit un sous-ensemble dattributs susants pour en dterminer la
valeur. Un algorithme de slection dattributs repose sur le principe suivant :
6
En toute rigueur, il ne sagit pas dune distance car D(, ) nest pas symtrique.
C
e

d
o
c
u
m
e
n
t

e
s
t

l
a

p
r
o
p
r
i


e
x
c
l
u
s
i
v
e

d
e

O
l
i
v
i
e
r

B
E
R
N
H
A
R
D

(
o
l
i
v
i
e
r
.
s
i
m
p
l
e
l
i
f
e
@
g
m
a
i
l
.
c
o
m
)

-

1
2

m
a
i

2
0
1
4


1
4
:
2
2
96 PARTIE 1 : Les fondements de lapprentissage
Fig. 3.8: Couverture de Markov dune variable A dans un rseau baysien.
1. Si on peut identier une couverture de Markov pour lattribut f
i
, retirer f
i
des attributs
considrer.
2. Recommencer jusqu ce que la couverture soit gale lensemble des attributs restants.
Un thorme important de [KS96] assure que cette procdure est monotone et peut tre ap-
plique dans nimporte quel ordre des variables. Plusieurs algorithmes ont t proposs selon ce
principe. Cependant, cette approche est coteuse en termes de calculs et ncessite des chantillons
dapprentissage importants.
Algorithme Winnow. Lalgorithme Winnow, dans sa version dorigine [Lit88], sapplique des
concepts boolens linairement sparables
7
, par exemple des disjonctions.
Winnow, comme lalgorithme du perceptron (voir section 3.3 dans le chapitre 9), apprend
un vecteur de poids sur les attributs de description des exemples. La dirence rside dans
la formule de mise jour de ces poids, qui est multiplicative au lieu dtre additive. Cette
mthode de gradient exponentiel qui est la base du boosting et de mthodes densemble (voir
chapitre 17), donne Winnow la proprit dliminer trs rapidement les attributs non pertinents,
en particulier quand ceux-ci sont nombreux.
1.3.5.2 Pondration. Les algorithmes de pondration calculent un poids pour chaque attri-
but indpendamment et les trient en fonction de ce poids. Plusieurs concepts de poids ont t
proposs dont le point commun est de tenter destimer linformation apporte par la connaissance
dun attribut sur la classe de lexemple tudi.
On notera en particulier les mesures suivantes proposes pour estimer lapport dinformation
de chaque attribut.
Mesures dinformation. Ces mesures incluent la mesure dentropie de variable, dentropie
conditionnelle et de gain dinformation. ([YL04a, YL04b, JJ00]) ;
Mesures de distance. ([RSK03, PN98]) ;
Mesures de dpendance. ([Hal00, Mod93]) ;
Mesures de cohrence (consistency). Lide est de dterminer le nombre minimal dattributs
permettant de sparer les classes aussi bien que lorsque tous les attributs sont utiliss. Une
incohrence est dite exister lorsque deux exemples ont la mme valeur pour un attribut mais
sont de classes direntes. ([AD94, DL03]) ;
7
Cest--dire une fonction f : |0, 1
n
|0, 1 telle quil existe un hyperplan de IR
n
sparant les deux classes.
C
e

d
o
c
u
m
e
n
t

e
s
t

l
a

p
r
o
p
r
i


e
x
c
l
u
s
i
v
e

d
e

O
l
i
v
i
e
r

B
E
R
N
H
A
R
D

(
o
l
i
v
i
e
r
.
s
i
m
p
l
e
l
i
f
e
@
g
m
a
i
l
.
c
o
m
)

-

1
2

m
a
i

2
0
1
4


1
4
:
2
2
Chapitre 3 Lenvironnement mthodologique de lapprentissage 97
Mesures de prcision (accuracy). On utilise ici la prcision de la mthode de classication
en aval comme mesure de la qualit dun jeu dattributs. ([DL00, KJ97]) ;
Mesures de pertinence (relevance). On dit quun attribut f
i
est fortement pertinent si
P(C[f
i
, Tf
i
) ,= P(C[Tf
i
). Lattribut f
i
est faiblement pertinent si P(C[f
i
, Tf
i
) =
P(C[T f
i
) et o
i
T f
i
tel que P(C[f
i
, o
i
) ,= P(C[o
i
). (Voir [JKP94]).
Voici deux exemples de systmes par pondration des attributs.
Exemple Analyse de la variance (ANOVA)
La mthode statistique de lanalyse de la variance peut tre utilise pour valuer la corrla-
tion de chaque attribut avec la classe. Le principe de la mthode repose sur la comparaison
de la variance des valeurs prises par chaque attribut lorsque la classe des exemples est prise
en compte et lorsquelle ne lest pas. Si ces variances sont signicativement direntes, cela
indique que lattribut apporte une information sur la classe. ANOVA est une mthode para-
mtrique, en ce quelle suppose que les valeurs des attributs suivent une distribution normale.
Le F-test est employ pour valuer la pertinence, cest--dire le poids, de chaque attribut
selon un test dhypothse qui examine les deux hypothses :
H
1
: les valeurs de lattribut tudi dirent signicativement selon la classe des exemples.
H
0
: les valeurs des attributs ne dirent pas signicativement.
Exemple La mthode Relief
La mthode Relief [KR92, RSK03] value les attributs en fonction de leur apparente corr-
lation avec la classe. Le score de chaque attribut est fonction des variations de ses valeurs
lintrieur de chaque classe par rapport ses variations inter-classes. Cependant, par contraste
avec les mthodes paramtriques, la mthode ne fait aucune hypothse sur la distribution
des valeurs des attributs. Par ailleurs, mme si le score est calcul pour chaque attribut,
son calcul repose sur une mesure de distance dans lespace de tous les attributs qui tend
favoriser les attributs corrls entre eux.
Cette mthode est facile mettre en uvre, ne repose pas sur des hypothses statistiques
hasardeuses et permet, dans une certaine mesure, didentier des corrlations non linaires
entre les attributs et la classe (voir gure 3.7 (b)). De plus, sa complexit calculatoire est
remarquablement faible : en O(kmD) pour un chantillon de m exemples dcrits par D
attributs et k tant le nombre de voisins pris en compte dans lalgorithme. En revanche, cette
mthode, comme toutes les mthodes de ltre linaire en gnral, ne permet pas dliminer
les attributs redondants. Cest une bonne chose quand le but est didentier tous les facteurs
impliqus dans un processus (comme par exemple en gnomique), une moins bonne chose
quand le but est dobtenir un bon classieur.
1.3.6 Dtermination du nombre dattributs pertinents
Dans les mthodes de pondration particulirement, se pose la question de dterminer un seuil
de pertinence au-del duquel on dcide que les attributs ne valent pas la peine dtre conservs.
Sauf tre arbitraire, il est dicile de xer ce seuil directement. Plusieurs mthodes ont t
proposes, parmi lesquelles :
Introduction dattributs alatoires. Lide est de mesurer le poids dattributs articiels pour
lesquels on sait que les valeurs sont indpendantes de la classe. On ne retient alors que les
attributs dont le poids est signicativement suprieur celui de ses attributs articiels.
Comparaison au cas de classes alatoires. Le principe est de permuter alatoirement les
tiquettes des exemples, et de mesurer le poids des attributs dans cette condition alatoire.
C
e

d
o
c
u
m
e
n
t

e
s
t

l
a

p
r
o
p
r
i


e
x
c
l
u
s
i
v
e

d
e

O
l
i
v
i
e
r

B
E
R
N
H
A
R
D

(
o
l
i
v
i
e
r
.
s
i
m
p
l
e
l
i
f
e
@
g
m
a
i
l
.
c
o
m
)

-

1
2

m
a
i

2
0
1
4


1
4
:
2
2
98 PARTIE 1 : Les fondements de lapprentissage
On peut alors choisir de ne retenir que les attributs qui ont un poids suprieur au poids du
meilleur attribut sous la condition alatoire puisque la probabilit que ceux-ci soient bien
valus par hasard est faible. Ce critre est cependant en gnral trop restrictif, et on retient
plutt les attributs pour lesquels le rapport entre leur score avec les vraies tiquettes et sous
la condition alatoire est le plus grand.
Croisement de mthodes dvaluation. Une autre approche propose rcemment est dutiliser
plusieurs mthodes dvaluation direntes (e.g. Relief et ANOVA) et dutiliser linter-
section entre les meilleurs classs par les direntes approches pour dcider du seuil (voir
[CFM05]).
Remarque (Vers une thorie de lapprentissage de classement des attributs ?)
Il est remarquable que, dune certaine manire, apprendre trier partir dexemples devrait tre beaucoup
plus simple que dapprendre la fonction cible sous-jacente.
En eet, prenons le cas simple dexemples dans A dcrits par d attributs boolens et prenant leur
tiquette dans = 0, 1. Le nombre de fonctions possibles de A dans est de 2
2
d
, soit par exemple
2
1024
dans le cas de d = 10 attributs.
En revanche, le nombre dordres possibles sur les d attributs est seulement de d!, soit 10! = 3 628 800
pour 10 attributs (voir la gure 3.9 pour un exemple avec d = 3).
Fig. 3.9: Nombre de fonctions et de classements des attributs pour 3 attributs. gauche, une
table dcrivant des exemples dune fonction cible, qui, ici, est la fonction XOR.
Pourtant, il nexiste pas pour le moment de thorie de lapprentissage de classement des attributs. Une
des dicults provient de ce quil ny a plus de notion de risque empirique mesurable ici. Il est vident
quil y a l un domaine de recherche intressant.
1.3.7 Pondration des attributs et apprentissage de tri ou ranking
Les mthodes de pondration des descripteurs permettent de trier ceux-ci par ordre croissant
ou dcroissant de pertinence (feature relevance, en anglais). Ces mthodes sont donc intressantes
connatre dans le contexte plus gnral de lapprentissage de classement ou de tri (learning to
rank ou ranking).
Lapprentissage de classement est mis en uvre lorsquil sagit de produire en sortie un classe-
ment de rponses ordonnes par une fonction dutilit. Lexemple le plus notable de cette tche,
et qui est lorigine des travaux rcents sur ce sujet, est celui de la prsentation ordonne des
rponses une requte dun utilisateur sur la Toile. Dans ce problme, les donnes consistent en
des exemples de requtes et, pour chacune dentre elles, un ensemble tri de rponses.
C
e

d
o
c
u
m
e
n
t

e
s
t

l
a

p
r
o
p
r
i


e
x
c
l
u
s
i
v
e

d
e

O
l
i
v
i
e
r

B
E
R
N
H
A
R
D

(
o
l
i
v
i
e
r
.
s
i
m
p
l
e
l
i
f
e
@
g
m
a
i
l
.
c
o
m
)

-

1
2

m
a
i

2
0
1
4


1
4
:
2
2
Chapitre 3 Lenvironnement mthodologique de lapprentissage 99
Les recherches sur ce problme sont extrmement actives et il nest donc pas question den
faire un tat de lart exhaustif et jour ici (voir [ACH05] pour un ensemble darticles). Deux
approches rassemblent cependant une grande partie des travaux.
La premire pose le problme en terme dun apprentissage de rgression ordonne ,
cest--dire pour lequel il sagit dapprendre associer une requte et une donne (e.g.
un document), un numro dans un classement, ce qui peut aussi se faire en associant un
intervalle dans IR. (voir [HGO00]).
La seconde pose le problme en termes dun apprentissage associant une requte et une
paire de donnes (e.g. documents), un ordre sur cette paire. Il est possible dapprendre de la
sorte nimporte quel classement, y compris des classements incohrents (e.g. A ~ B, B ~ C
et C ~ A). (Voir [BSR
+
05, CS02, FLSS04]).
1.3.8 Rfrences
Sur la rduction de dimension, des rfrences gnrales incluent [BL97, GE03, KJ97, Ng98,
XJK01, YL03, LV07]. Des travaux sadressent plus particulirement la slection des gnes
pertinents dans lanalyse du transcriptome, par exemple [KMC00].
1.3.9 Lextraction dattributs
Lextraction dattributs transforme lespace dentre en remplaant les attributs dentre par un
ensemble plus petit correspondant si possible aux rgularits sous-jacentes. On distingue souvent
les approches par transformations linaires de lespace dentre de celles par transformations non
linaires. Parmi les premires, les plus usuelles sont :
Lanalyse en composantes principales, dont le but est didentier un petit ensemble de va-
riables dcrivant les donnes en minimisant la perte dinformation. Cette dernire est mesure
par la variation dans lchantillon de donnes, travers une matrice de covariance ou de cor-
rlation. Cette mthode ne prend pas en compte la classe des exemples : cest une technique
non supervise.
La mthode danalyse en composantes principales communes prend au contraire en compte
la classe des exemples et sappuie sur une mesure du maximum de vraisemblance ou de
lcart aux moindres carrs.
Les mthodes dextraction dattributs par transformations non linaires sont moins employes.
Parmi elles gurent :
La mthode des cartes auto-organisatrices de Kohonen, qui utilise une sorte de rseau
connexionniste dans une approche non supervise.
Des mthodes issues des recherches sur les sparateurs vastes marges (SVM). Nous ren-
voyons le lecteur intress [SBE99], au chapitre 14
8
.
Lanalyse en composantes indpendantes (Independent Component Analysis, ICA), qui est
une technique rcente connaissant un grand dveloppement. Elle sapplique dans le cas o
lon suppose que les donnes proviennent de plusieurs sources indpendantes, combines par
une matrice de mlange. Tandis que lanalyse en composantes principales impose seulement
une indpendance des donnes jusqu lordre deux (mais une orthogonalit des variables),
lanalyse en composantes indpendantes suppose une indpendance statistique des sources,
sans contrainte dorthogonalit (voir la section 7.2 du chapitre 18, ou bien [HKO01a], ou
encore le chapitre 10 de [Hay99] pour une introduction).
Le chapitre 6 de [CM98] est intressant consulter ce sujet, de mme que les chapitres 8 et 10
de [Hay99].
8
Lanalyse en composante principale par fonctions noyaux.
C
e

d
o
c
u
m
e
n
t

e
s
t

l
a

p
r
o
p
r
i


e
x
c
l
u
s
i
v
e

d
e

O
l
i
v
i
e
r

B
E
R
N
H
A
R
D

(
o
l
i
v
i
e
r
.
s
i
m
p
l
e
l
i
f
e
@
g
m
a
i
l
.
c
o
m
)

-

1
2

m
a
i

2
0
1
4


1
4
:
2
2
100 PARTIE 1 : Les fondements de lapprentissage
1.3.10 Le traitement du bruit dans les donnes
Les bases de donnes dans lesquelles on essaie de dcouvrir des rgularits sous-jacentes laide
de techniques dapprentissage articiel sont rarement parfaites, cest--dire compltement et par-
faitement dcrites. Non seulement les donnes peuvent comporter des erreurs de description ou
dtiquetage, tre imprcises, mais elles sont souvent inhomognes, rsultant de plusieurs sources
rassembles dans des contextes dirents. Le plus souvent aussi, elles nont pas t constitues
dans le but dtre analyses par une machine
9
. Il arrive aussi que des valeurs ne fournissent que
des informations sur des contingences externes au problme tudi. Une banque a ainsi eu la
surprise de dcouvrir rcemment que plus de 75 % de ses clients taient ns le 11 novembre 1911.
Il tait en eet plus rapide (et sans importance apparente) pour les oprateurs remplissant les
ches de saisir 111111 . Il faut galement tenir compte de conventions implicites, telles que
signaler une date manquante par 9999 , ou un poids manquant par la valeur 1 kg . Sans
prcautions, il est facile dobtenir des rsultats errons et, ce qui est pire, sans que personne ne
sen aperoive.
Le traitement du bruit dans les donnes nest pas un problme facile rsoudre, simplement
parce quil nest pas facile de distinguer ce qui est le rsultat dune erreur ou dune variation
non signicative dune observation authentique. Les mthodes usuelles reposent sur des tests
statistiques du niveau de pertinence. Des outils de visualisation des donnes peuvent tre prcieux
dans la dtection danomalies. Cependant rien ne remplace lavis clair dun expert et la matrise
des phnomnes la source des donnes.
Il faut aussi noter que le bruit nest pas toujours une mauvaise chose pour lapprentissage. Au
contraire, il peut arriver que lon introduise volontairement du bruit dans les donnes an de
faciliter lapprentissage de vraies gnralisations au lieu dapprendre par cur les donnes sans
en induire les rgularits. Lintroduction de bruit agit alors comme un facteur de rgularisation
(voir le chapitre 21 section 2.2).
1.3.11 La discrtisation de donnes continues
Certains algorithmes dapprentissage, particulirement les algorithmes symboliques, sont inca-
pables de traiter directement des attributs valeur continue. Il est ncessaire de les transformer
en attributs valeur discrte. Une autre raison pour discrtiser un attribut valeur continue
provient de ce que la distribution des valeurs peut ne pas tre uniforme ou gaussienne, alors que la
plupart des algorithmes en font la supposition (parfois implicite et mconnue de lutilisateur). Il
faut alors discrtiser en intervalles de distributions correspondants des distributions uniformes
ou gaussiennes.
Les mthodes de discrtisation sont nombreuses (par segmentation, par mesures dentropie,
etc.) et souvent ddies un contexte dutilisation particulier. Nous renvoyons le lecteur aux
publications sur le sujet, particulirement dans le domaine de la fouille de donnes (Data Mining) :
[HK01, WF99].
1.3.12 La description des donnes imprcises
Lune des mthodes les plus utilises pour dcrire des donnes imprcises est la logique oue.
Nous renvoyons [BM94] pour plus de dtails.
9
Il arrive parfois que les valeurs manquantes soient de fait plus informatives que les autres dans la mesure o
elles rvlent linterprtation du praticien (par exemple en mdecine les champs manquants susent souvent
dterminer le diagnostic).
C
e

d
o
c
u
m
e
n
t

e
s
t

l
a

p
r
o
p
r
i


e
x
c
l
u
s
i
v
e

d
e

O
l
i
v
i
e
r

B
E
R
N
H
A
R
D

(
o
l
i
v
i
e
r
.
s
i
m
p
l
e
l
i
f
e
@
g
m
a
i
l
.
c
o
m
)

-

1
2

m
a
i

2
0
1
4


1
4
:
2
2
Chapitre 3 Lenvironnement mthodologique de lapprentissage 101
2. Lespace des hypothses dapprentissage
Le chapitre 1 a soulign lutilit de dnir un espace dhypothses an de ne pas avoir
reprsenter les concepts dcrivant les donnes par des descriptions en extension, cest--dire par
des listes dexemples. Lespace H des hypothses, dni par le langage des hypothses L
1
, permet
le recours une description en intension, compacte et permettant dtablir naturellement des
liens avec les autres connaissances disponibles. Le premier problme est de savoir reprsenter les
connaissances, donc de trouver un langage appropri au contexte et la tche. Le second est
de savoir comment mettre en relation des hypothses et des donnes. Cest ce que lon appelle
souvent le problme de lappariement (matching).
2.1 Le problme gnral de la reprsentation des connaissances
Les reprsentations des connaissances en intelligence articielle ne se font pas en langage
naturel, pour des raisons videntes. On cherche plutt des reprsentations la fois expressives
et concises, permettant dexprimer tout ce que lon dsire de manire succincte, non ambigu,
indpendante du contexte et ecace, cest--dire se prtant naturellement aux raisonnements
dsirs. Plusieurs types de reprsentations ont t dvelopps pour rpondre ces exigences. Il
est intressant de les comparer du point de vue de lapprentissage.
1. Quels types de rgularits ou de connaissances veut-on reprsenter ?
Des catgories ou classes ou concepts.
Des probabilits dappartenance une catgorie.
Des ontologies, cest--dire des classes organises hirarchiquement.
Des rgles dassociation, des rexes.
Des dpendances causales.
Des descriptions relationnelles.
Des volutions temporelles.
. . .
2. Quelles sont les caractristiques des entres disponibles ?
Entres perceptives brutes ou dj prtraites.
Entres discrtes ou continues.
Entres bruites ou non.
Entres correspondant des phnomnes dterministes ou non.
Entres aectes dincertitude.
Entres aectes dimprcision.
Entres plates , telles que des vecteurs dattributs, ou structures par des relations et
une organisation, comme des graphes.
3. Quel degr de transparence ou dinterprtabilit souhaite-t-on dans les hypothses produites
par le systme ?
Ce dernier aspect est trs important. Si lon cherche seulement un systme performant sur
une tche donne, sans quil y ait ncessit dinteraction avec un expert , une repr-
sentation opaque est acceptable. Cest par exemple le cas dun systme de reconnaissance
de caractres ou didentication de locuteurs sur la base dun signal sonore. En revanche
certaines applications exigent que lutilisateur puisse examiner la connaissance produite
par le systme. Cest le cas dun systme de diagnostic mdical et plus encore dun systme
charg de formuler des recommandations thrapeutiques. Mais cela peut aussi tre utile
C
e

d
o
c
u
m
e
n
t

e
s
t

l
a

p
r
o
p
r
i


e
x
c
l
u
s
i
v
e

d
e

O
l
i
v
i
e
r

B
E
R
N
H
A
R
D

(
o
l
i
v
i
e
r
.
s
i
m
p
l
e
l
i
f
e
@
g
m
a
i
l
.
c
o
m
)

-

1
2

m
a
i

2
0
1
4


1
4
:
2
2
102 PARTIE 1 : Les fondements de lapprentissage
lorsque lexpert peut aider le systme apprendre en lui transmettant des connaissances a
priori. Encore faut-il quil soit alors possible de les traduire pour la machine. Cest gn-
ralement impossible avec une reprsentation opaque telle que la reprsentation utilise
dans les rseaux connexionnistes qui consiste en une matrice de nombres correspondant aux
poids des connexions du rseau. Cest en revanche plus facile si la reprsentation utilise un
formalisme logique.
Nous prsentons maintenant les dirents espaces dhypothses H que nous allons rencontrer
par la suite. Ces espaces de reprsentation seront dcrits avec plus de prcision au fur et mesure
des chapitres venir. Pour le moment, il est seulement question de faire un tour dhorizon des
reprsentations utilises en apprentissage articiel. Il est dailleurs intressant de noter que toutes
les techniques de reprsentation des connaissances utilises en intelligence articielle ne sont pas
cites ici : certaines dentre elles ne se prtent pas (encore ?) lapprentissage.
La table suivante prsente dabord les qualits des direntes reprsentations des hypothses
en fonction des critres cits ci-dessus.
F
o
n
c
t
i
o
n
s
s

p
a
r
a
t
r
i
c
e
s
D
i
s
t
r
i
b
u
t
i
o
n
s
d
e
p
r
o
b
a
b
i
l
i
t

s
F
o
n
c
t
i
o
n
s

t
a
t

a
c
t
i
o
n
A
r
b
r
e
s
d
e
d

c
i
s
i
o
n
H
i

r
a
r
c
h
i
e
s
d
e
c
o
n
c
e
p
t
s
R

s
e
a
u
x
b
a
y

s
i
e
n
s
C
h
a

n
e
s
d
e
M
a
r
k
o
v
G
r
a
m
m
a
i
r
e
s
S
y
s
t

m
e
s
d
e
r

g
l
e
s
Concept

-

- -

Classes multiples

-

- - -

Ontologies - - -

- - -

Rgression -

- - - -

volutions temporelles -

- - -

-
Apprentissage non supervis

- - - -
Donnes continues

- -

- -
Connaissances relationnelles - -

-

-

Degr de certitude -

- -

Degr dimprcision -

- -

- - -
Transparence, intelligibilit - - -

-

2.2 La classication
2.2.1 Dnition
Lapprentissage dune rgle de classication est lun des thmes de lapprentissage articiel le
plus trait. Il y a plusieurs raisons cela : dabord, on sait laborder du point de vue des thories
de lapprentissage, la plupart du temps dans le cas de deux classes (mais on peut assez facilement
gnraliser un nombre quelconque). Ensuite, un grand nombre de mthodes et dalgorithmes
existent, en particulier dans le cas o lespace de reprsentation est numrique. On est alors dans
le domaine classique de la reconnaissance statistique des formes (statistical pattern recognition).
Enn, apprendre classer est un problme central de lintelligence, naturelle comme articielle.
C
e

d
o
c
u
m
e
n
t

e
s
t

l
a

p
r
o
p
r
i


e
x
c
l
u
s
i
v
e

d
e

O
l
i
v
i
e
r

B
E
R
N
H
A
R
D

(
o
l
i
v
i
e
r
.
s
i
m
p
l
e
l
i
f
e
@
g
m
a
i
l
.
c
o
m
)

-

1
2

m
a
i

2
0
1
4


1
4
:
2
2
Chapitre 3 Lenvironnement mthodologique de lapprentissage 103
Intuitivement, une rgle de classication est un acte cognitif ou une procdure permettant
daecter un objet la famille laquelle il appartient, autrement dit de le reconnatre. Cest
ainsi quun enfant apprend classer les animaux domestiques en chiens ou chats , les plats
en sal ou sucr , etc. Par analogie, les ordinateurs de bureau qui reconnaissent lcriture
manuscrite ont appris (grce un programme dapprentissage automatique) des rgles pour dis-
tinguer les signes tracs ; dautres programmes savent classer des sons, des signaux biomdicaux,
etc. Toutes les procdures qui simulent des fonctions perceptives doivent videmment possder
des capacits de gnralisation, cest--dire tre munies de la facult dinduction, sans quoi elles
ne seraient capables de ne reconnatre que les exemples qui ont servi les entraner.
2.2.2 Classe, concept
Dnition 3.1 (exemple)
Un exemple est un couple (x, u), o x A est la description ou la reprsentation de lobjet et
u | reprsente la supervision de x. Dans un problme de classication, u sappelle la classe de
x et appartient un ensemble ( =
1
, . . . ,
C
. C dsigne le nombre de classes possibles pour
un objet.
C doit tre ni et en pratique petit pour que lon puisse rellement parler de classication. Des
exemples de classes sont : les sons du langage, lalphabet, les espces des oiseaux, un diagnostic
mdical, la prsence ou labsence dune proprit pour un objet (par exemple quune carte
jouer soit un honneur ), etc.
Dans le cas o C = 2, il est usuel de considrer que lon fait lapprentissage dun concept,
cest--dire du partage de lespace de reprsentation en deux parties, lune o le concept est
vri, lautre o il est invalid. Dans ce cas, on note
10
en gnral ( = vrai, faux et on appelle
contre-exemples les donnes classes faux (on garde le mot dexemples pour les autres).
Il est noter que le cas C = 1 est presque quivalent au prcdent, puisquil sagit dapprendre
aussi un concept, mais partir seulement dexemples ; en pratique, cependant, les algorithmes
seront dirents.
Par exemple, un enfant apprend sa langue maternelle avec un algorithme de gnralisation
o le rle des contre-exemples est faible. En revanche, il classe les matires denseignement en
celles quil aime et celles quil naime pas partir dune base dapprentissage compose dexemples
des deux cas.
2.2.3 Les fonctions sparatrices entre classes
Au lieu dessayer dapprocher directement la fonction de classication cible f : A
1
, . . . ,
C

par une rgle de classication, il est souvent plus facile de transformer lespace des classes en
celui des fonctions sparatrices.
Dnition 3.2 (fonction sparatrice)
Une fonction sparatrice, ou fonction de dcision
ij
: H IR entre la classe
i
et la classe

j
est telle que
ij
(x) 0 pour tous les objets x que la fonction cible aecte la classe
i
et

ij
(x) 0 pour tous les objets quelle aecte la classe
j
. Si
ij
(x) = 0, laectation se fait
arbitrairement.
Lespace de lapprentissage devient alors un ensemble dhypothses consitu de fonctions spa-
ratrices. Ces fonctions peuvent tre de natures extrmement varies : par exemple des hyperplans
10
Parfois ( = |+, , ou ( = |1, 0, ou ( = |+1, 1.
C
e

d
o
c
u
m
e
n
t

e
s
t

l
a

p
r
o
p
r
i


e
x
c
l
u
s
i
v
e

d
e

O
l
i
v
i
e
r

B
E
R
N
H
A
R
D

(
o
l
i
v
i
e
r
.
s
i
m
p
l
e
l
i
f
e
@
g
m
a
i
l
.
c
o
m
)

-

1
2

m
a
i

2
0
1
4


1
4
:
2
2
104 PARTIE 1 : Les fondements de lapprentissage
(voir le chapitre 9), ou calcules partir de rseaux connexionnistes multicouches (voir le cha-
pitre 10) ou de densits de probabilits (voir le chapitre 15), etc.
Dans la dnition ci-dessus, on ne considre que le signe de la fonction de dcision pour dcider
de la rgion dappartenance de lentre x (voir gure 3.10 (a)). On parle souvent dans ce cas
de fonctions sparatrices seuil. Dans le cas o il y a plus de deux classes, on peut combiner
plusieurs fonctions de dcision permettant ainsi une division de A en plusieurs rgions (voir
gure 3.10 (b)). On y reviendra au chapitre 9.
Fig. 3.10: Classication par fonctions sparatrices. En (a) la fonction sparatrice dtermine deux
classes suivant le signe de la sortie de la fonction. En (b), une classication pour plus
de deux classes est obtenue par la combinaison de plusieurs fonctions sparatrices.
Si en plus de son signe, on considre aussi la valeur de la sortie de la fonction de dcision, il
devient possible dinterprter cette dernire comme une mesure de conance dans la dcision,
selon lide naturelle que plus la forme dentre est loigne de la frontire, plus son appar-
tenance la classe dsigne est peu susceptible dtre remise en cause. Nous verrons que cette
observation de bon sens est lorigine dun renouveau trs fort pour lutilisation de ces fonctions
de dcisions (voir les sparateurs vastes marges dans le chapitre 9).
En dehors de leur simplicit conceptuelle et pratique vidente, les fonctions sparatrices per-
mettent de mettre en uvre naturellement un appariemment partiel entre entre et hypothse.
En eet, les fonctions sparatrices peuvent se concevoir comme une sorte de produit scalaire
dni sur A H. Ainsi, dans le cas du perceptron, dj rencontr au cours du chapitre 2, la
fonction de dcision est dnie par :
w
T
x
_
0
< 0
= x
_

2
(3.4)
en considrant le vecteur de description des observations augment x
T
= (1, x
1
, x
2
, . . . , x
d
) et le
vecteur poids w augment du seuil w
0
: w
T
= (w
0
, w
1
, w
2
, . . . , w
d
).
Cette facult dappariemment partiel dans lequel cest l alignement entre lentre et lhy-
pothse qui dcide de la classe de lentre est une proprit trs intressante qui nest pas aussi
facile mettre en uvre dans les formalismes logiques par exemple. Cest une des raisons de la
popularit des fonctions de dcision.
2.3 La rgression
La rgression concerne le cas o H est un ensemble de fonctions h valeurs relles. Une
gnralisation, la rgression multidimensionnelle, est lapprentissage dune hypothse h : A
IR
n
. On cherche donc apprendre une fonction partir dun ensemble de points et des valeurs
C
e

d
o
c
u
m
e
n
t

e
s
t

l
a

p
r
o
p
r
i


e
x
c
l
u
s
i
v
e

d
e

O
l
i
v
i
e
r

B
E
R
N
H
A
R
D

(
o
l
i
v
i
e
r
.
s
i
m
p
l
e
l
i
f
e
@
g
m
a
i
l
.
c
o
m
)

-

1
2

m
a
i

2
0
1
4


1
4
:
2
2
Chapitre 3 Lenvironnement mthodologique de lapprentissage 105
que prend cette fonction sur ces points. Il ny a pas de contre-exemples dans un tel problme
dapprentissage
11
.
Il sera en particulier question de rgression quand nous verrons lapprentissage par renforce-
ment, au chapitre 16.
2.4 Les distributions de probabilits
Au lieu de dlimiter des frontires de dcision sur lespace A, on peut y dnir des distributions
de probabilits. Chacune de ces distributions est associe une classe et dtermine la probablit
quun objet x A appartienne cette classe (voir gure 3.11). Pour quil soit ais de manipuler
ces distributions et que lon puisse contrler leur pouvoir de gnralisation (cf. chapitre 2),
elles sont gnralement prises au sein de familles paramtres de distributions, par exemple des
fonctions gaussiennes. Nous y reviendrons au chapitre 15.
Fig. 3.11: Un mlange de deux distributions de probabilits correspondant deux classes dobjets.
2.5 Les arbres de dcision
Lorsque les exemples sexpriment comme des vecteurs dattributs valeurs, et particulirement
quand ces attributs sont valeurs discrtes, il est commode de dcrire les concepts par des arbres
de dcision comme celui de la gure 3.12. Un arbre de dcision prend la description dun exemple
en entre et lui associe une classe. Chaque nud de larbre correspond une question portant
sur un attribut
12
.
De la sorte, en suivant une squence de nuds et de branches depuis la racine de larbre jusqu
une feuille, on rane progressivement la description des exemples concerns jusqu obtenir une
description correspondant, si tout va bien, aux objets dune classe. Chaque branche correspond
une conjonction de conditions sur les attributs dcrivant les exemples.
Par exemple, dans la gure 3.12, une interprtation est la suivante : Temps = couvert &
temprature < 10 degrs Je reste chez moi)
Lensemble des branches correspond ainsi un ensemble de rgles dassociation dcrivant les
classes. Le langage dni par les arbres de dcision est quivalent la logique des propositions,
11
On peut aussi voir la rgression comme un problme de classication gnralis, dans lequel le nombre C de
classes serait inni.
12
Ces attributs peuvent aussi tre numriques, comme on le verra au chapitre 13. Dans ce cas, on les compare
un seuil et chaque branche est associe une valeur ou un intervalle de valeurs possibles pour cet attribut.
C
e

d
o
c
u
m
e
n
t

e
s
t

l
a

p
r
o
p
r
i


e
x
c
l
u
s
i
v
e

d
e

O
l
i
v
i
e
r

B
E
R
N
H
A
R
D

(
o
l
i
v
i
e
r
.
s
i
m
p
l
e
l
i
f
e
@
g
m
a
i
l
.
c
o
m
)

-

1
2

m
a
i

2
0
1
4


1
4
:
2
2
106 PARTIE 1 : Les fondements de lapprentissage
Je reste chez moi
Je sors le chien Je reste chez moi Je reste chez moi Je sors le chien
Fig. 3.12: Un exemple darbre de dcision. Chaque nud ovale correspond une question. Chaque
che correspond une rponse possible. Chaque feuille (nud rectangulaire) est as-
socie une classe.
chacun des tests tant une variable boolenne. Toute fonction boolenne peut tre exprime par
un arbre de dcision.
En revanche, un arbre de dcision ne peut pas exprimer un concept relationnel comme :
x mme-couleur(x, y) & envergure(x, e1) & envergure(y, e2) & plus-petit(e1, e2)
dont la signication est : les oiseaux x de mme couleur quun oiseau donn y mais denvergure
infrieure : ce type de concept appartient la logique des prdicats (voir le chapitre 5).
Par ailleurs, si certaines fonctions sexpriment de manire conomique laide darbres de
dcision, dautres ne sont pas adaptes cette reprsentation. Par exemple la fonction parit
dnie sur un vecteur boolen et qui retourne 1 si et seulement si un nombre pair dattributs
valent 1 sexprime par un arbre trs complexe.
Nous approfondirons cette manire de reprsenter les concepts au chapitre 13.
2.6 Les hirarchies de concepts
Les arbres de dcision introduisent lide de hirarchie sur les attributs, mais pas sur les
concepts. Les attributs placs plus prs de la racine sont en quelque sorte plus importants que
les attributs plus loigns.
Il peut tre souhaitable dexprimer explicitement une hirarchie dans le langage des concepts.
Cest le cas par exemple pour les taxonomies de la classication biologique : le concept de rapace
est situ en dessous du concept oiseau et plus haut que faucon. Il peut galement tre intressant
de disposer de relations dhritage entre un concept et ses sous-concepts. De nombreux types de
reprsentations de concepts peuvent donner lieu des organisations hirarchiques, ou ontologies
pour peu que lon explicite les liens de hirarchie. Cependant de telles organisations sont alors
souvent articielles.
Lidal est que lapprenant lui-mme construise la hirarchie et soit prt la modier si de
nouvelles informations en indiquent lutilit. Il existe peu de systmes dapprentissage aptes de
telles constructions. On les rencontre gnralement en apprentissage non supervis, quand cest
au systme de dcouvrir des classes dans lenvironnement. Le chapitre 18 fournit des prcisions
ce sujet.
C
e

d
o
c
u
m
e
n
t

e
s
t

l
a

p
r
o
p
r
i


e
x
c
l
u
s
i
v
e

d
e

O
l
i
v
i
e
r

B
E
R
N
H
A
R
D

(
o
l
i
v
i
e
r
.
s
i
m
p
l
e
l
i
f
e
@
g
m
a
i
l
.
c
o
m
)

-

1
2

m
a
i

2
0
1
4


1
4
:
2
2
Chapitre 3 Lenvironnement mthodologique de lapprentissage 107
2.7 Les rseaux baysiens et les modles graphiques
De nombreux types de dpendances peuvent tre reprsents laide de structures probabi-
listes. Lorsque les dpendances et les indpendances entre les variables alatoires sont explicites
dans un graphe, on utilise le terme de modles graphiques (on trouve aussi les termes de r-
seaux de croyance (belief networks), rseaux causaux (causal networks), diagrammes
dinuence (inuence diagrams). La base des calculs eectus dans ces structures est la for-
mule de rvision des probabilits de Bayes et pour cette raison ils sont galement appels rseaux
baysiens.
La gure 3.13 montre un exemple dun tel rseau. Les variables sont associes aux nuds du
rseau et les liens manquants entre les nuds indiquent une certaine indpendance entre ces
nuds (les dnitions prcises seront donnes dans le chapitre 11). Les liens entre nuds sont
dirigs, pour indiquer des dpendances causales ou temporelles. Lorsque les liens sont symtriques
ou non dirigs, on parle de champs de Markov alatoires (random Markov elds).
Ici les deux variables FN et ZO jouent le rle de variables causales, CP pouvant dcouler de
FN et/ou de ZO, tandis que SA ne dpend, selon ce rseau, que de FN. Les variables FN et ZO
sont aectes de leur probabilit a priori, tandis que les variables SA et CP sont associes des
matrices de probabilits conditionnelles indiquant leur dpendance sur les variables FN et ZO.
Fig. 3.13: Exemple de rseau baysien.
Lapprentissage peut alors consister trouver une structure de dpendances entre variables (le
graphe) ou estimer les probabilits conditionnelles dnissant ces dpendances. Le chapitre 11
traite en particulier de lapprentissage de rseaux baysiens.
2.8 Les chanes de Markov et les modles de Markov cachs
Les chanes de Markov, quant elles, ne sont quun cas particulier de modles graphiques
tels quils viennent dtre dcrits. Elles reprsentent en eet les dpendances temporelles dans
une squence de variables S
0
, . . . , S
t
, . . . Lorsque chaque variable ne dpend que de la variable
prcdente dans la squence, on dit que lon a une chane de Markov :
P(S
t
[S
0
, . . . , S
t1
) = P(S
t
[S
t1
)
Intuitivement, cela peut tre interprt comme le fait que le futur ne dpend que de ltat
prsent, ou du moins que celui-ci possde susamment dinformations pour quil ne soit pas
utile de considrer le pass.
Le formalisme des chanes de Markov est particulirement adapt pour la reprsentation de s-
quences, quelles soient de nature temporelle, comme des cours boursiers ou un signal acoustique,
de nature spatiale, comme une chane dADN, ou dautres types de dpendances linaires.
C
e

d
o
c
u
m
e
n
t

e
s
t

l
a

p
r
o
p
r
i


e
x
c
l
u
s
i
v
e

d
e

O
l
i
v
i
e
r

B
E
R
N
H
A
R
D

(
o
l
i
v
i
e
r
.
s
i
m
p
l
e
l
i
f
e
@
g
m
a
i
l
.
c
o
m
)

-

1
2

m
a
i

2
0
1
4


1
4
:
2
2
108 PARTIE 1 : Les fondements de lapprentissage
E B
1/10
9/10
1/2 3/4 1/4
1/10
1/2
9/10
Fig. 3.14: Une chane de Markov tats cachs. Les observations sont le ct de la pice aprs
lancer : Pile ou Face. Les tats cachs correspondent la vraie nature de la pice :
quilibre (E) ou biaise (B). La probabilit de rester dans le mme tat est de 9/10, et
de 1/10 de changer dtat. Une pice biaise produit la face Pile pour 3/4 des lancers.
Une gnralisation des chanes de Markov sappelle les modles de Markov cachs (Hidden
Markov Models ou Hmm). Formellement, un modle de Markov cach (dordre un) est un modle
gnratif de squences dni par un ensemble dtats, un alphabet discret de symboles, une
matrice de probabilits de transitions entre tats et une matrice de probabilit dmissions de
chaque symbole de lalphabet partir de chaque tat. Le systme volue alatoirement dun tat
lautre suivant les probabilits de transition en mettant des symboles de lalphabet (voir par
exemple la gure 3.14 pour l mission de pile ou face par une pice).
Seuls les symboles mis sont observables, et non les transitions entre tats, qui sont internes au
modle. La squence dtats est donc une squence de variables caches ou latentes expliquant
les observations.
Trois types de questions au moins peuvent se poser lorsque lon reprsente une squence par
un modle de Markov : quelle est la probabilit dobservation de telle squence tant donn tel
modle (question relative la vraisemblance) ? Quelle est la squence dtats la plus probable
dans le modle de Markov sachant que telle squence de symboles a t observe (question relative
au dcodage) ? Finalement, en supposant que les paramtres de transition et dmission ne soient
pas parfaitement connus, comment leurs valeurs devraient tre estimes ou rvises la lumire
des squences de symboles observes (question relative lapprentissage) ?
Le chapitre 12 est consacr aux mthodes dapprentissage adaptes ce formalisme des modles
de Markov cachs.
2.9 Les grammaires
Quand on a aaire des squences dlments dun ensemble nominal, souvent appel un
alphabet dans ce cas, le concept apprendre doit sparer lespace de toutes les squences possibles
en deux. Cest ce que fait une grammaire formelle : un compilateur de langage de programmation
est un programme qui rpond la question : est-ce que le programme que lon vient de me
soumettre est correct du point de vue de ma syntaxe ? . Par exemple, un compilateur du langage
C rpond VRAI la squence :
#include <stdio.h> #include <math.h> int N;double x,res; main()
{N=0;while (N<21){fprintf(stdout, " %f %f\n",n);N = N+1;}}
Il rpond FAUX celle-ci :
Je sais programmer en C.
C
e

d
o
c
u
m
e
n
t

e
s
t

l
a

p
r
o
p
r
i


e
x
c
l
u
s
i
v
e

d
e

O
l
i
v
i
e
r

B
E
R
N
H
A
R
D

(
o
l
i
v
i
e
r
.
s
i
m
p
l
e
l
i
f
e
@
g
m
a
i
l
.
c
o
m
)

-

1
2

m
a
i

2
0
1
4


1
4
:
2
2
Chapitre 3 Lenvironnement mthodologique de lapprentissage 109
Naturellement, une grammaire du franais rpondrait exactement le contraire.
Les modles grammaticaux que lon sait apprendre ne sont pas en ralit aussi complexes. On
verra au chapitre 7 comment on peut par infrence grammaticale gnraliser des ensembles de
squences, en particulier sous la forme dautomates nis.
2.10 Les formalismes logiques
La logique des propositions
Si on dispose de lensemble des exemples et contre-exemples suivants, dcrits par des at-
tributs binaires :
Vole A des plumes Pond des ufs Oiseau Classe
VRAI VRAI VRAI VRAI oie
FAUX FAUX VRAI FAUX ornithorynque
VRAI FAUX FAUX FAUX rhinolophe
VRAI VRAI VRAI VRAI cygne
On peut par exemple induire le concept ci dessous :
h = [(Vole = VRAI) (A des plumes = VRAI) (Oiseau = VRAI)]
Ce concept est crit dans le langage de la logique des propositions, ou logique boolenne
ou encore logique dordre 0. Il est VRAI pour tous les exemples. Mesurons sa valeur sur
les objets suivants :
Vole A des plumes Pond des ufs Oiseau Classe valeur de h
VRAI VRAI VRAI VRAI moineau VRAI
FAUX VRAI VRAI VRAI autruche FAUX
Le premier objet est reprsent correctement par le concept, mais pas le second. supposer
que lon veuille apprendre le concept oiseau , la gnralisation ralise ne serait donc ici
pas parfaite.
Ce langage de reprsentation des hypothses est comme on le voit particulirement adapt
aux exemples reprsents par des vecteurs binaires, ou dont la reprsentation naturelle
peut facilement tre transforme en vecteurs binaires
13
. Le chapitre 13 traitera en partie
de lapprentissage de ce type dhypothses, sous la forme particulire darbres de dcision.
Il en sera galement question au chapitre sur lespace des versions (chapitre 4).
La reprsentation par attribut-valeur
La logique des propositions peut stendre en remplaant les valeurs binaires des attributs
par des valeurs nominales ou hirarchiques. Les exemples se reprsentent alors de la manire
suivante :
Couleur Forme Nombre de pieds Classe
rouge hexagonale 3 tabouret
jaune carre 4 tabouret
vert ronde 4 table
jaune ovale 6 table
Le langage Attribut-valeur dans lequel on reprsente le concept appris est semblable
celui de la logique des propositions : on y utilise aussi des conjonctions et des disjonctions,
13
Par exemple, un attribut continu peut tre transform en attribut binaire par comparaison un seuil.
C
e

d
o
c
u
m
e
n
t

e
s
t

l
a

p
r
o
p
r
i


e
x
c
l
u
s
i
v
e

d
e

O
l
i
v
i
e
r

B
E
R
N
H
A
R
D

(
o
l
i
v
i
e
r
.
s
i
m
p
l
e
l
i
f
e
@
g
m
a
i
l
.
c
o
m
)

-

1
2

m
a
i

2
0
1
4


1
4
:
2
2
110 PARTIE 1 : Les fondements de lapprentissage
mais sur des couples (Attribut, valeur). Chaque attribut nominal ou hirarchique (par
exemple Couleur, voir la gure 3.1) prend sa valeur dans un ensemble de dnition ni,
ventuellement partiellement ordonn, comme rouge, vert, jaune, bleu, avec Couleur
chaude = rouge, jaune. Un concept tabouret appris dans le langage attribut-valeur
pourrait tre par exemple :
[Couleur = Couleurchaude] ([Forme = carr ee] [Forme = hexagonale])
Lintrt des langages par attribut-valeur est celui des langages typs par rapport aux
langages non typs : ils permettent un contrle plus facile des infrences.
La logique des prdicats
Supposons que nous disposions des donnes ci-dessous, dont la signication formelle sera
donne au chapitre 5. Pour le moment, nous pouvons en rester linterprtation suivante : le
numro 1 ou 2 reprsente un individu. La relation fille(1, 2) = V RAI sinterprte comme :
lindividu 2 est une lle de lindividu 1. Les autres relations ont une signication naturelle.
nom(1) = ` eve m` ere(1) = marie p` ere(1) = max homme(1) = FAUX
nom(2) = max m` ere(2) = ad` ele p` ere(2) = max homme(2) = V RAI
fille(1, 2) = V RAI
Dautre part, le programme dapprentissage dispose de connaissances a priori, comme :
X homme(X) = V RAI femme(X) = FAUX
X homme(X) = FAUX femme(X) = V RAI
partir de ces exemples et de cette thorie du domaine, un programme de gnralisation
en logique du premier ordre peut apprendre le concept :
X Y (p` ere(Y ) = X) (femme(X) = V RAI) (fille(X) = Y )
La dirence avec lapprentissage en logique des propositions est importante : cette formule
est gouverne par des quanticateurs (quel que soit) et (il existe) qui sont hors du
langage boolen. La gnralisation ralise est par consquent beaucoup plus radicale et
profonde (elle est aussi plus dicile raliser). Lapprentissage de tels concepts sappelle
la programmation logique inductive. Il sera dvelopp au chapitre 5.
Les logiques de description
Les logiques de description forment une famille de formalismes de reprsentation des
connaissances ddie principalement la gestion automatique de la dnition de concepts
(ensemble dindividus) et de raisonnement sur ces concepts. Les concepts sont partielle-
ment ordonns dans une base de connaissances organise en taxonomie par ce que lon
appelle une relation de subsomption. Bass sur des calculs de subsomption, les principaux
mcanismes dinfrence dductive sont la classication de concept, qui consiste insrer
automatiquement un concept dni la place la plus spcique dans la taxonomie, et
la reconnaissance dinstances qui consiste trouver pour un individu donn tous les
concepts dont il est instance (voir section 1.3 dans le chapitre 5). De nombreux systmes
de reprsentation ont t dnis dans ce cadre, citons ici le systme Classic [BPS94].
2.11 Les rgles dassociation
Les rgles dassociation expriment des corrlations prsentes dans les donnes. Un ensemble
dexemples tant fourni, chacun de ceux-ci tant dcrit par des attributs (souvent appels items
C
e

d
o
c
u
m
e
n
t

e
s
t

l
a

p
r
o
p
r
i


e
x
c
l
u
s
i
v
e

d
e

O
l
i
v
i
e
r

B
E
R
N
H
A
R
D

(
o
l
i
v
i
e
r
.
s
i
m
p
l
e
l
i
f
e
@
g
m
a
i
l
.
c
o
m
)

-

1
2

m
a
i

2
0
1
4


1
4
:
2
2
Chapitre 3 Lenvironnement mthodologique de lapprentissage 111
en fouille de donnes), une rgle dassociation est une implication de la forme : X = Y , o X
et Y sont des attributs ou items.
On dit que cette rgle a un support s si s% des exemples incluent tous les items prsents dans
X et dans Y , et une conance c si c% des exemples qui contiennent les items de X contiennent
aussi les items de Y . La gure 3.15 illustre ces concepts.
X Y
Fig. 3.15: Support et conance dune rgle dassociation X = Y . Le support correspond la
proportion dexemples contenant la fois les items de X et ceux de Y dans lensemble
de tous les exemples. La conance correspond la proportion des items de X qui
contiennent aussi les items de Y .
Nous ne dtaillerons pas les algorithmes de recherche de rgles dassociation ici. Mais, nous
renvoyons au chapitre 18.
Remarque
Le but des algorithmes de dcouverte des rgles dassociation est de trouver toutes les rgles dassociation
avec un support et une conance suprieures des seuils xs par lutilisateur. Des extensions permettant
de prendre en compte des taxonomies, des associations quantitatives et des formes temporelles ont aussi
t dveloppes.
Les algorithmes de recherche de rgles dassociation ont gnralement deux phases. Dabord, ils cherchent
tous les ensembles ditems de support suprieur au seuil x (les itemsets frquents, voir section 6.5). En-
suite, les rgles peuvent tre calcules directement partir des itemsets frquents.
Comme les donnes peuvent tre en trs grand nombre et impliquer dnormes quantits de sous-
ensembles ditems potentiels parmi lesquels il faut identier les itemsets frquents (frequent item sets ou
FIS, en anglais), la premire phase peut tre trs coteuse en calculs. Cest pourquoi les recherches sur
lamlioration de son ecacit sont nombreuses. On peut distinguer deux types dapproches : celles qui
essaient de rduire le nombre ditemsets candidats qui ont besoin dtre compts, et celles qui cherchent
rendre le comptage des candidats plus ecace.
Dans la premire famille dapproches, lidentication de la proprit dite dantimonotonicit selon
laquelle tous les sous-ensembles des itemsets frquents doivent aussi tre frquents permet un lagage
trs ecace. Des travaux ultrieurs se sont focaliss par exemple sur la recherche ditemsets longs. En
eet, pour des itemsets n items, le nombre de sous-ensembles est de 2
n
. Il est cependant possible
didentier ecacement ces itemsets longs grce une technique de look-ahead : une fois quun itemset
a t identi comme frquent, aucun de ses sous-ensembles na besoin dtre compt. On cherche donc
maximiser la probabilit que les itemsets compts par look-ahead soient eectivement frquents. Pour
ce faire, une bonne heuristique consiste biaiser la gnration des candidats vers des items de grande
frquence puisque ceux-ci ont plus de chance dtre prsents dans les itemsets frquents longs.
Dans la seconde famille dapproches, des tables de hachage embotes peuvent tre utilises pour
contrler quels sont les itemsets candidats prsents dans un exemple. Cette technique est ecace pour
compter des itemsets courts, elle lest moins pour les itemsets longs. Dans ce cas, on peut faire appel
des techniques de projection de bases de donnes qui permettent de rduire le nombre dexemples
considrer.
C
e

d
o
c
u
m
e
n
t

e
s
t

l
a

p
r
o
p
r
i


e
x
c
l
u
s
i
v
e

d
e

O
l
i
v
i
e
r

B
E
R
N
H
A
R
D

(
o
l
i
v
i
e
r
.
s
i
m
p
l
e
l
i
f
e
@
g
m
a
i
l
.
c
o
m
)

-

1
2

m
a
i

2
0
1
4


1
4
:
2
2
112 PARTIE 1 : Les fondements de lapprentissage
3. Les protocoles dapprentissage
3.1 Introduction
On appelle protocole dapprentissage les rgles du jeu selon lesquelles soprent les interactions
entre lapprenant et son environnement, qui peut comprendre un professeur et mme dautres
apprenants, voire des acteurs malveillants. Nous en avons dj parl dans la section 4.2.2 du
chapitre 1.
Lune des tches de lutilisateur est de choisir le protocole le plus adapt son problme. Par
exemple, il peut ntre intress que par des prdictions ou dcisions et non pas par la formu-
lation dune hypothse par lapprenant. Lapprentissage est alors moins exigeant. Il peut tre
capable dattendre que toutes les donnes soient disponibles avant de procder lapprentissage
(apprentissage batch) ou, au contraire, devoir fournir des rponses nimporte quel moment (ap-
prentissage en ligne ou anytime learning). Il se peut quun apprentissage actif soit envisageable,
dans lequel lapprenant a une certaine initiative sur les exemples demander pour lapprentissage.
3.2 Batch vs. en ligne
Le terme ot de donnes (data streams, en anglais) dsigne des donnes arrivant au cours
du temps, souvent de manire pratiquement continue. Lanalyse de ots de donnes implique
la plupart du temps le traitement la vole des donnes sans quil soit possible de revenir
sur ces donnes plus tard. Cest le cas de lanalyse de logs sur Internet ou de lanalyse du
fonctionnement de rseaux dordinateurs. Souvent, lutilisateur nest pas alors seulement intress
dans les relations entre les attributs, mais il cherche aussi caractriser les volutions de ces
relations au cours du temps.
Lanalyse de ots de donnes soulve dintressants problmes, parmi lesquels le calcul dagr-
gats et de rsums statistiques, ainsi que celui de lapprentissage incrmental ou de lapprentissage
en ligne. Un d majeur est celui de lanalyse dnormes volumes de donnes, ventuellement
htrognes, dans des environnements non-stationnaires. Se pose en particulier de manire cru-
ciale la question de lanalyse de donnes qui ne vrient pas lhypothse i.i.d. (donnes tires
alatoirement indpendantes et identiquement distribues).
Une extension de ce protocole concerne l apprentissage au long cours (long-life learning ou
continuous learning) dans lequel lapprenant est suppos fonctionner sur une longue priode de
temps et donc faire face des drives de lenvironnement, la fois en termes de capteurs et din-
formations disponibles, quen terme de modication du concept cible. Il est mme envisageable
que lapprenant doive changer de tche. Dans ce cas, il peut tre intressant de tirer parti de
points communs entre les domaines et utiliser de lapprentissage par transfert.
Le chapitre 21 contient davantage dinformations sur ces dirents types dapprentissage.
3.3 Passif vs. actif
Ce qui prcde dans louvrage, et en particulier les analyses du chapitre 2, a sembl sanctionner
lide que lapprentissage tait un processus passif devant les donnes, cest--dire nayant pas
dinitiative dans le choix des donnes dapprentissage. Il est dailleurs exact que lessentiel de
lanalyse thorique de lapprentissage est bti sur lhypothse que les donnes sont indpendam-
ment et identiquement distribues (tirage i.i.d.), tant au cours de lapprentissage, quaprs, en
reconnaissance et dcision.
C
e

d
o
c
u
m
e
n
t

e
s
t

l
a

p
r
o
p
r
i


e
x
c
l
u
s
i
v
e

d
e

O
l
i
v
i
e
r

B
E
R
N
H
A
R
D

(
o
l
i
v
i
e
r
.
s
i
m
p
l
e
l
i
f
e
@
g
m
a
i
l
.
c
o
m
)

-

1
2

m
a
i

2
0
1
4


1
4
:
2
2
Chapitre 3 Lenvironnement mthodologique de lapprentissage 113
Pourtant, tous ceux qui ont jou au jeu de Mastermind
14
ou qui ont fait des expriences
scientiques, savent quil est gnralement beaucoup moins coteux, en termes dexpriences
raliser, de slectionner soigneusement les questions poses la nature ou ladversaire. Il est
donc tentant de doter les systmes dapprentissage dune capacit slectionner ou suggrer les
expriences raliser. On parle alors dapprentissage actif. Lespoir est videmment alors de
diminuer le cot du recueil de donnes (par exemple le cot dexprimentation ou dtiquetage
par un expert). Deux problmes sont alors surmonter. Dune part, sur quel critre slectionner
les donnes supposes les plus informatives, dautre part, comment fonder ces nouveaux appren-
tissages pour lesquels lhypothse de tirage i.i.d. des donnes nest plus respect.
Nous reportons le lecteur aux sections 4.2.2 du chapitre 1 et 1 du chapitre 21.
4. Lvaluation de lapprentissage
Plutt que de parler de lapprentissage, nous devrions parler dapprentissages au pluriel. Le
problme de lvaluation est donc galement multiforme. Dans ce chapitre, nous nous concentre-
rons sur lapprentissage inductif supervis partir dun chantillon dapprentissage.
La question est alors : tant donn un algorithme qui retourne des dcisions ou bien une
hypothse permettant de calculer une dcision pour nimporte quelle entre de A, comment
valuer la performance de cette rgle de dcision au sens large ?
Sut-il par exemple de faire conance au principe MRE et de se fonder sur la performance
mesure sur lchantillon dapprentissage ? Surtout pas, du moins sans prcautions. En eet, non
seulement la performance en apprentissage, ce que nous avons appel risque empirique dans le
chapitre 2, est intrinsquement optimiste, mais en outre son comportement nest pas forcment
un bon indicateur de la vraie performance (le risque rel). Un phnomne classique, dj prsent
au chapitre 1 est schmatis sur la gure 3.16 dans lequel le risque empirique diminue au fur et
mesure que le systme prend en compte davantage dinformations (soit par un accroissement du
nombre dexemples prsents, soit par une rptition des exemples dapprentissage) tandis que
le risque rel, dabord dcroissant, se met augmenter aprs un certain stade. Ce phnomne est
appele surapprentissage ou suradaptation ou encore surajustement (over-tting).
Le risque empirique ne peut donc lui seul servir de base lestimation de la performance de
lapprentissage ralis. Comment doit-on alors procder ?
4.1 Lvaluation a priori : critres thoriques
Une solution consiste appliquer les rsultats thoriques dcrits dans les chapitres 2 et 21
qui fournissent des bornes en probabilit sur le risque rel en fonction du risque empirique. Ces
bornes prennent la forme gnrale :
R
Rel
(h) = R
Emp
(h) + (H, m)
o est une fonction de la richesse de lespace dhypothses H et m est la taille de lchantillon
dapprentissage o.
Si on peut obtenir ainsi des bornes asymptotiquement serres en thorie , elles sont dtermi-
nes sous des hypothses de pire cas , cest--dire en tant prt aronter toute distribution
des donnes et tout concept cible. En pratique, les bornes calcules de cette manire sont g-
nralement trop lches et ne permettent pas destimer prcisment la performance relle. Cest
14
Jeu dans lequel il faut deviner la position et la couleur dune squence de pions cachs par un adversaire.
C
e

d
o
c
u
m
e
n
t

e
s
t

l
a

p
r
o
p
r
i


e
x
c
l
u
s
i
v
e

d
e

O
l
i
v
i
e
r

B
E
R
N
H
A
R
D

(
o
l
i
v
i
e
r
.
s
i
m
p
l
e
l
i
f
e
@
g
m
a
i
l
.
c
o
m
)

-

1
2

m
a
i

2
0
1
4


1
4
:
2
2
114 PARTIE 1 : Les fondements de lapprentissage
Fig. 3.16: Phnomne de sur-apprentissage. Tandis que le risque empirique continue de diminuer
au fur et mesure de la prise en compte dinformations, le risque rel qui diminuait
galement dans un premier temps, commence raugmenter aprs un certain stade.
Il ny a alors plus de corrlation entre le risque empirique et le risque rel.
pourquoi, sauf cas particuliers favorables, lestimation de la performance en apprentissage sopre
gnralement par des mesures empiriques.
4.2 Lvaluation empirique a posteriori : gnralits
Quel que soit le principe inductif utilis pour apprendre une rgle de dcision, lalgorithme qui
cherche cette rgle doit pouvoir lvaluer, en regard du principe inductif, au sein dun ensemble
de possibilits. Ainsi, un algorithme qui sappuie sur le principe MRE slectionne une rgle qui
minimise le risque empirique. Tout algorithme utilise in ne une mesure de performance dont
une composante est la dlit aux donnes dapprentissage. Cependant, tant la thorie, esquisse
dans les chapitres 1 et 2 et dveloppe dans le chapitre 21, que la pratique, montrent quil ne
faut pas utiliser la performance directement et uniquement mesure sur lchantillon de donnes
ayant servi lapprentissage pour estimer la vraie performance, cest--dire le risque rel pour
ce qui concerne lapprentissage supervis.
4.3 Lestimation du risque rel dune hypothse
Comme nous lavons vu, le risque rel est souvent considr comme le critre de performance
le plus important dun systme dapprentissage. Il est donc essentiel de pouvoir lestimer le
plus prcisment possible, ce qui, en gnral, requiert lutilisation des exemples dapprentissage
disponibles puisquils sont supposs tre notre (unique) source dinformation sur la distribution
vraie des donnes. Le problme souvent rencontr est que lchantillon dapprentissage est de taille
limite, pour ne pas dire rduite. Cela limite la prcision des estimations possibles, mais, surtout,
ncessite doprer des arbitrages entre la part de lchantillon utilise pour lapprentissage et celle
qui sert lestimation.
Lapproche la plus simple consiste utiliser toutes les donnes dapprentissage, la fois pour
lapprentissage et pour lestimation de la performance. Cest ce que lon appelle la mthode de
resubstitution. Cette mthode est optimiste et conduit facilement du sur-apprentissage.
Cest pour viter ce biais que lon opre une distinction en gnral entre les donnes utilises
C
e

d
o
c
u
m
e
n
t

e
s
t

l
a

p
r
o
p
r
i


e
x
c
l
u
s
i
v
e

d
e

O
l
i
v
i
e
r

B
E
R
N
H
A
R
D

(
o
l
i
v
i
e
r
.
s
i
m
p
l
e
l
i
f
e
@
g
m
a
i
l
.
c
o
m
)

-

1
2

m
a
i

2
0
1
4


1
4
:
2
2
Chapitre 3 Lenvironnement mthodologique de lapprentissage 115
pour lapprentissage et les donnes utilises pour le test. Il existe direntes mthodes pour
oprer cette distinction, exposes dans la suite de cette section.
4.3.1 Lutilisation dun chantillon de test
Prsentation
La mthode la plus simple pour estimer la qualit objective dune hypothse dapprentissage
h est de couper lensemble des exemples en deux ensembles indpendants : le premier, not L,
est utilis pour lapprentissage de h et le second, not T , sert mesurer sa qualit. Ce second
ensemble est appel chantillon (ou ensemble dexemples) de test. On a o = LT et LT =
Comme nous allons le voir, la mesure des erreurs commises par h sur lensemble de test T est
une estimation du risque rel derreur de h. Cette estimation se note :

R
Rel
(h)
Examinons dabord le cas particulier de lapprentissage dune rgle de classication.
Le cas de la classication
Rappelons dabord la dnition dune matrice de confusion (C est ici le nombre de classes) :
Dnition 3.3 (Matrice de confusion)
La matrice de confusion M(i, j) dune rgle de classication h est une matrice C C dont
llment gnrique donne le nombre dexemples de lensemble de test T de la classe i qui ont t
classs dans la classe j.
Dans le cas dune classication binaire, la matrice de confusion est donc de la forme :
h
h
h
h
h
h
h
h
h
h
h
h
h
h
h
hh
Classe estime
Classe relle
+ (P) (N)
+ Vrais positifs (VP) Faux positifs (FP)
Faux ngatifs (FN) Vrais ngatifs (VN)
Si toutes les erreurs sont considres comme galement graves, la somme des termes non
diagonaux de M, divise par la taille t de lensemble de test, est une estimation

R
Rel
(h) sur T
du risque rel de h.

R
Rel
(h) =

i,=j
M(i, j)
t
En notant t
err
le nombre dobjets de lensemble de test mal classs, on a donc :

R
Rel
(h) =
t
err
t
Le point de vue de la statistique
En statistique, un problme central est celui destimer si les mesures eectues doivent sexpli-
quer par une hypothse dintrt (note conventionnellement H
1
), par exemple tel antibiotique
est ecace, ou si elles peuvent sexpliquer par une hypothse nulle (H
0
), par exemple ne mettant
pas en jeu leet des antibiotiques.
On obtient alors une matrice de confusion entre les hypothses H
0
et H
1
. Un test dhypothse
revient alors prendre une dcision entre H
0
et H
1
. Deux types derreurs sont alors distingus :
C
e

d
o
c
u
m
e
n
t

e
s
t

l
a

p
r
o
p
r
i


e
x
c
l
u
s
i
v
e

d
e

O
l
i
v
i
e
r

B
E
R
N
H
A
R
D

(
o
l
i
v
i
e
r
.
s
i
m
p
l
e
l
i
f
e
@
g
m
a
i
l
.
c
o
m
)

-

1
2

m
a
i

2
0
1
4


1
4
:
2
2
116 PARTIE 1 : Les fondements de lapprentissage
Lerreur de premire espce qui consiste rejeter H
0
alors que H
0
est vraie. On note la
probabilit de cette erreur .
Lerreur de seconde espce qui consiste accepter H
0
alors que H
1
est vraie. On note la
probabilit de cette erreur . La probabilit complmentaire, 1 , est appele puissance
du test.
Lintervalle de conance de lestimation
Quelle conance peut-on accorder lestimation

R
Rel
(h) ? Peut-on la traduire numriquement ?
La rponse ces deux questions est donne de manire simple par des considrations statistiques
classiques. Si les chantillons alatoires dapprentissage et de test sont indpendants alors la
prcision de lestimation ne dpend que du nombre t dexemples de lensemble de test et de la
valeur de

R
Rel
(h).
Il est dmontr lannexe 2 quune approximation susante dans le cas o t est assez grand
(au del de la centaine) donne lintervalle de conance de

R
Rel
(h) x % par la formule :
_
_
t
err
t
(x)

t
err
t
(1
t
err
t
)
t
_
_
La fonction (x) a en particulier les valeurs suivantes :
x 50 % 68 % 80 % 90 % 95 % 98 % 99 %
(x) 0.67 1.00 1.28 1.64 1.96 2.33 2.58
Exemple Calcul dintervalle de conance
Par exemple, pour t = 300 et t
err
= 15, on a

R
Rel
(h) = 0.2 et lintervalle de conance
95 % de

R
Rel
(h) vaut :
_
0.2 1.96
_
0.2(1 0.2)
300
_
[0.25, 0.15]
ce qui signie que la probabilit que R
Rel
(h) soit dans cet intervalle est suprieure 95 %.
Si on avait obtenu la mme proportion derreur sur un chantillon de test de taille 1000, cet
intervalle aurait t rduit environ de moiti : [0.225, 0.175].
Lestimation du taux derreur rel par une mesure sur un chantillon de test T indpendant de
lchantillon dapprentissage /, fournit une estimation non biaise de R
Rel
(h) avec un intervalle
de conance contrlable, ne dpendant que de la taille t de lchantillon de test. Plus celle-ci est
grande, plus lintervalle de conance est rduit et par consquent plus le taux derreur empirique
donne une indication du taux derreur rel.
Notons quil est absolument indispensable daccompagner les courbes dapprentissage
relatives un algorithme et un problme dapprentissage des intervalles de conance cor-
respondants.
4.3.2 Lestimation par validation croise
Lorsque la taille de lchantillon de donnes tiquetes est faible, il faut faire face un dilemme.
Si lchantillon retenu pour lapprentissage est trop petit, le systme peut ne pas atteindre le
niveau de performance qui aurait t possible avec toutes les donnes. Il faudrait donc garder
C
e

d
o
c
u
m
e
n
t

e
s
t

l
a

p
r
o
p
r
i


e
x
c
l
u
s
i
v
e

d
e

O
l
i
v
i
e
r

B
E
R
N
H
A
R
D

(
o
l
i
v
i
e
r
.
s
i
m
p
l
e
l
i
f
e
@
g
m
a
i
l
.
c
o
m
)

-

1
2

m
a
i

2
0
1
4


1
4
:
2
2
Chapitre 3 Lenvironnement mthodologique de lapprentissage 117
un maximum dexemples pour lapprentissage. Dun autre ct, si lchantillon de test est trop
rduit, il devient impossible destimer prcisment la performance du systme. Il existe un moyen
de sortir de ce dilemme.
Lide de la validation croise N plis (N-fold cross-validation) consiste :
1. Diviser les donnes dapprentissage o en N sous-chantillons de tailles gales.
2. Retenir lun de ces chantillons, disons de numro i, pour le test et apprendre sur les N 1
autres.
3. Mesurer le taux derreur empirique

R
i
Rel
(h) sur lchantillon i.
4. Recommencer N fois en faisant varier lchantillon i de 1 N.
Lerreur estime nale est donne par la moyenne des erreurs mesures :

R
Rel
(h) =
1
N
N

i=1

R
i
Rel
(h)
.

R
1
R eel
(h
1
)

R
2
R eel
(h
2
)

R
i
R eel
(h
i
)

R
N
R eel
(h
N
)

R
R eel
(h) =
1
N
N

i=1

R
i
R eel
(h)
Fig. 3.17: Validation croise.
On peut montrer que cette procdure (voir gure 3.17) fournit une estimation non biaise
du taux derreur rel. Il est courant de prendre pour N des valeurs comprises entre 5 et 10.
De cette manire, on peut utiliser une grande partie des exemples pour lapprentissage tout en
obtenant une mesure prcise du taux derreur rel. En contrepartie, il faut raliser la procdure
dapprentissage N fois.
La question se pose cependant de savoir quelle hypothse apprise on doit nalement
utiliser. Il est en eet probable que chaque hypothse apprise dpende de lchantillon i utilis
pour lapprentissage et que lon obtienne donc N hypothses direntes.
Deux approches sont alors souvent utilises. Lide gnrale est que la procdure de validation
croise sert seulement estimer la performance que lon peut atteindre en utilisant lespace
dhypothse H dans lequel on t prises les direntes hypothses.
1. La premire consiste rapprendre une hypothse nale en utilisant cette fois la totalit
de lchantillon dapprentissage. On suppose que lon obtient ainsi lhypothse la meilleure
possible tant donnes toutes les informations disponibles, tout en ayant une estimation de
la performance en attendre.
2. La deuxime approche consiste utiliser les N hypothses h
i
apprises et les faire voter.
C
e

d
o
c
u
m
e
n
t

e
s
t

l
a

p
r
o
p
r
i


e
x
c
l
u
s
i
v
e

d
e

O
l
i
v
i
e
r

B
E
R
N
H
A
R
D

(
o
l
i
v
i
e
r
.
s
i
m
p
l
e
l
i
f
e
@
g
m
a
i
l
.
c
o
m
)

-

1
2

m
a
i

2
0
1
4


1
4
:
2
2
118 PARTIE 1 : Les fondements de lapprentissage
Notons demble que si les hypothses apprises sont trs direntes les unes des autres (en
supposant que lon puisse mesurer cette dirence), cest quil faut peut-tre y voir une indication
de linadquation de lespace des hypothses H. Cela semble en eet montrer une grande variance
(en gnral associe une grande dimension de Vapnik-Chervonenkis), et donc le risque dun
apprentissage sans valeur (voir la section 4.2 dans le chapitre 2).
4.3.3 Lestimation par la mthode du leave-one-out
Lorsque les donnes disponibles sont trs peu nombreuses, il est possible de pousser lextrme
la mthode de validation croise en prenant pour N le nombre total dexemples disponibles. Dans
ce cas, on ne retient chaque fois quun seul exemple pour le test, et on rpte lapprentissage
N fois pour tous les autres exemples dapprentissage (voir gure 3.18).
Lestimation par la mthode du leave-one-out est (presque) non biaise. Si elle conduit aussi
gnralement une moindre variance sur les hypothses produites que la validation croise (lais-
sant de ct plus quun seul exemple pour le test), en revanche, la variance sur lestimation de
lerreur, ou du risque rel, est plus leve. De plus, elle tend sous-estimer lerreur si les don-
nes ne sont pas vraiment identiquement et indpendamment distribues. Par ailleurs, si elle est
simple mettre en uvre, elle est coteuse en calculs [GE03].

R
R eel
(h) =
1
N
N

i=1

R
i
R eel
(h)
Fig. 3.18: Estimation de la performance par mthode du leave-one-out.
4.3.4 Quelques variantes de la mthode de validation croise : bootstrap, jackknife
Ces techniques dirent des prcdentes en ce quelles utilises des tirages avec remise dans
lensemble des exemples. Le procd est le suivant : on tire alatoirement un exemple, pour le
placer dans un ensemble appel boostrap
15
. Le procd est rpt n fois et lapprentissage est
alors eectu sur lensemble bootstrap. Un test est men sur les exemples non prsents dans cet
ensemble, donnant une premire valeur P
1
des erreurs du classicateur. Un autre test est ralis
sur lensemble complet des exemples, donnant la valeur P
2
. Lensemble de lopration est rpt
K fois. Une certaine combinaison linaire de la moyenne P
1
des valeurs P
1
et de la moyenne P
2
15
On sait que le Baron de Munchausen savait slever dans les airs en tirant sur ses bottes. La mthode du mme
nom donne des rsultats tout aussi tonnants (quoique ici justis thoriquement et pratiquement).
C
e

d
o
c
u
m
e
n
t

e
s
t

l
a

p
r
o
p
r
i


e
x
c
l
u
s
i
v
e

d
e

O
l
i
v
i
e
r

B
E
R
N
H
A
R
D

(
o
l
i
v
i
e
r
.
s
i
m
p
l
e
l
i
f
e
@
g
m
a
i
l
.
c
o
m
)

-

1
2

m
a
i

2
0
1
4


1
4
:
2
2
Chapitre 3 Lenvironnement mthodologique de lapprentissage 119
des valeurs P
2
obtenues donne la valeur

R
Rel
(h). La thorie [HTF01] propose la formule :

R
Rel
(h) = 0.636 P
1
+ 0.368 P
2
en se basant sur le fait que lesprance de la proportion des lments non rpts dans lensemble
de test est gale 0.368. Pour de petits chantillons, la mthode bootstrap fournit une estimation
remarquablement prcise de R
Rel
(h). En contrepartie, elle demande une grande valeur de K
(plusieurs centaines), cest--dire un nombre lev dapprentissages de la rgle de classication.
Il existe enn une autre mthode proche mais plus complexe destimation appele jackknife
16
qui vise rduire le biais du taux derreur en resubstitution, lorsque des donnes sont utilises
la fois pour lapprentissage et pour le test. Nous renvoyons le lecteur intress [Rip96] pp.72-
73 ou [Web99]. Ce sont galement de bonnes rfrences pour le problme de lestimation de
performance en gnral.
4.4 Divers indices composites de performances
La seule mesure du taux derreur peut ne pas tre pertinente pour une tche dapprentissage
donne.
Exemple
Supposons que nous considrions une tche de discrimination entre deux classes, et quaprs
apprentissage, on observe sur un ensemble de test constitu de 105 exemples positifs et 60
exemples ngatifs, les performances suivantes :
SVM :
X
X
X
X
X
X
X
X
X
X
Estim
Rel
+
+ 94 37
11 23
Baysien naf :
X
X
X
X
X
X
X
X
X
X
Estim
Rel
+
+ 72 29
33 31
Apparemment, le systme SVM (voir chapitre 14) est plus performant sur cette tche, puisque
son taux derreur est de :
11+37
165
= 0.29 au lieu de
29+33
165
= 0.375 pour le classieur baysien
naf (voir chapitre 2). Pourtant, ce critre derreur nest peut-tre pas celui qui nous intresse
en priorit.
Par exemple, on peut observer que la classication obtenue ici avec le SVM est biaise vers
la classe majoritaire puisque 94 + 37 = 131 exemples sont classs +, au lieu de seulement
72 +29 = 101 pour le classieur naf, qui respecte donc beaucoup mieux les proportions des
deux classes. De plus, il se peut que ce qui nous intresse soit en fait, pour cette tche, le taux
de vrais ngatifs . Dans ce cas, il faut choisir la classication retourne par le classieur
baysien naf avec 31 vrais ngatifs au lieu de 23 seulement avec le SVM.
An daider mesurer la performance pertinente en fonction des grandes tches dapprentis-
sage, plusieurs indices composites calculs partir de la matrice de confusion (rpte ci-dessous)
ont t utiliss. Ils incluent :
Le taux de bonne prdiction (accuracy) : prcision =
V P+V N
P+N
Le taux de vrais positifs : taux_VP =
V P
P
(aussi appel sensibilit (sensitivity) en recherche
mdicale par exemple).
Le taux de vrais ngatifs : taux_VN =
V N
N
(aussi appel spcicit ( specicity) en recherche
mdicale par exemple).
16
Ou couteau suisse : un outil multifonction bien pratique.
C
e

d
o
c
u
m
e
n
t

e
s
t

l
a

p
r
o
p
r
i


e
x
c
l
u
s
i
v
e

d
e

O
l
i
v
i
e
r

B
E
R
N
H
A
R
D

(
o
l
i
v
i
e
r
.
s
i
m
p
l
e
l
i
f
e
@
g
m
a
i
l
.
c
o
m
)

-

1
2

m
a
i

2
0
1
4


1
4
:
2
2
120 PARTIE 1 : Les fondements de lapprentissage
Le rappel (recall ) :
V P
P
Le prcision (precision) :
V P
V P+FP
La F_mesure (F-mesure) qui est une moyenne harmonique du rappel et de la prcision
( > 0) :
(1 +
2
) rappel pr ecision

2
rappel +pr ecision
On confond souvent la F_mesure avec la F1_mesure :
2 rappel pr ecision
rappel +pr ecision
h
h
h
h
h
h
h
h
h
h
h
h
h
hh
Classe estime
Classe relle
+ (P) (N)
+ Vrais positifs (VP) Faux positifs (FP)
Faux ngatifs (FN) Vrais ngatifs (VN)
Le rappel et la prcision sont deux mesures populaires en recherche dinformation (information
retrieval ) car elles correspondent deux souhaits importants. On cherche en eet extraire le
maximum des documents eectivement pertinents (rappel ) tout en maximisant la proportion de
documents pertinents dans les documents classs positivement (prcision). Souvent, ces deux
souhaits sont contradictoires.
4.5 Le rglage des algorithmes par un ensemble de test
Lorsque lon cherche rsoudre un problme dapprentissage, on cherche se dcider pour la
meilleure mthode, ce qui implique :
le choix du principe inductif ;
le choix dune mesure de performance, ce qui implique souvent celui dune fonction de cot ;
le choix dun algorithme dapprentissage ;
le choix de lespace dhypothses, qui dpend en partie du choix de lalgorithme ;
le rglage de tous les paramtres contrlant le fonctionnement de lalgorithme.
Gnralement loprateur essaie plusieurs mthodes sur le problme dapprentissage an de
dterminer celle qui semble la plus approprie la classe de problmes concerne. Comment
doit-il procder ?
Il faut se mer dune approche qui semble naturelle. On pourrait en eet croire quil sut de
mesurer pour chaque mthode la performance empirique laide de lune des techniques dcrites
plus haut, dans la section 4.3, faisant appel dune manire ou dune autre un chantillon de
test. Cela serait cependant commettre la faute de faire dpendre le rglage de la mthode dap-
prentissage (ou de ses mta-paramtres) dun ensemble dexemples, ici lensemble de validation,
qui devient la fois source de rglages et juge de paix pour lestimation de performance. En
procdant de la sorte, on risque dadapter troitement la mthode dapprentissage cet chan-
tillon de validation. Cela est dangereux car il se peut que, comme dans le cas du phnomne de
sur-apprentissage, tant poursuivre ce but, on sloigne dune diminution du risque rel. Cest
pourquoi on prvoit, ct de lchantillon dapprentissage et de lchantillon de validation, un
troisime chantillon indpendant des deux autres, lchantillon de test
17
, qui ne servira que pour
lestimation nale de la rgle de dcision nalement obtenue (voir gure 3.19).
17
La terminologie est ici mal xe dans la communaut : certains auteurs dnissent chantillon de test
et chantillon de validation linverse. Il faut donc se mer et vrier que lon utilise bien la mme
convention que son interlocuteur.
C
e

d
o
c
u
m
e
n
t

e
s
t

l
a

p
r
o
p
r
i


e
x
c
l
u
s
i
v
e

d
e

O
l
i
v
i
e
r

B
E
R
N
H
A
R
D

(
o
l
i
v
i
e
r
.
s
i
m
p
l
e
l
i
f
e
@
g
m
a
i
l
.
c
o
m
)

-

1
2

m
a
i

2
0
1
4


1
4
:
2
2
Chapitre 3 Lenvironnement mthodologique de lapprentissage 121
Ensemble
d'apprentissage
Ensemble
de validation
Ensemble
de test
Fig. 3.19: chantillons utiliss pour lapprentissage et son valuation.
Malheureusement, dans de nombreuses applications, le nombre dexemples, cest--dire dob-
servations pour lesquelles un expert a fourni une tiquette, est limit. Le plus souvent chaque
nouvel exemple est coteux obtenir et il ne peut donc tre question daugmenter volont
lchantillon dapprentissage, lchantillon de validation et lchantillon de test. Il arrive ainsi
que lon utilise une procdure plus complexe de double validation croise imbrique, dans la-
quelle les exemples sont tirs indpendamment pour constituer les trois ensembles.
4.5.1 Estimation de risque : la courbe ROC
Jusquici nous avons essentiellement dcrit des mthodes dvaluation des performances ne
prenant en compte quun nombre : lestimation du risque rel. Cependant, dans un contexte de
prise de dcision, il peut tre utile dtre plus n dans lvaluation des performances et de prendre
en compte non seulement un taux derreur, mais aussi les taux de faux positifs et de faux
ngatifs (disponibles partir de la matrice de confusion, voir au paragraphe 4.4). Souvent,
en eet, le cot de mauvaise classication nest pas symtrique et lon peut prfrer avoir un
taux derreur un peu moins bon si cela permet de rduire le type derreur le plus coteux (par
exemple, il vaut mieux retirer tort lappendice (faux positif), plutt que de ne pas dtecter
une appendicite (faux ngatif)). La courbe ROC (de langlais Receiver Operating Characteristic)
permet de rgler ce compromis
18
.
Supposons que la fonction de dcision sappuie sur une fonction h valeur relle dnie sur
lespace des entres A. On peut alors tablir un graphique pour chaque classe donnant la pro-
babilit dappartenir cette classe en fonction de la valeur de sortie de la fonction h que lon
appelle ici critre de dcision (voir la gure 3.20).
Fig. 3.20: Courbes de probabilit correspondant aux classes + et .
Comme on le voit sur la gure 3.21, pour chaque seuil de dcision, on peut calculer la pro-
portion de vrais positifs (fraction des exemples de la classe + tiquets comme + partir du
18
Ces courbes ont t utilises pour la premire fois lors de la deuxime guerre mondiale quand, dans lusage des
radars, on a voulu quantier leur capacit distinguer des interfrences de nature alatoire du signal indiquant
rellement la prsence daronefs.
C
e

d
o
c
u
m
e
n
t

e
s
t

l
a

p
r
o
p
r
i


e
x
c
l
u
s
i
v
e

d
e

O
l
i
v
i
e
r

B
E
R
N
H
A
R
D

(
o
l
i
v
i
e
r
.
s
i
m
p
l
e
l
i
f
e
@
g
m
a
i
l
.
c
o
m
)

-

1
2

m
a
i

2
0
1
4


1
4
:
2
2
122 PARTIE 1 : Les fondements de lapprentissage
seuil de dcision) et de faux positifs .
Fig. 3.21: Seuil dcidant pour chaque classe des vrais positifs , faux ngatifs , faux
positifs et vrais ngatifs .
On peut alors construire la courbe ROC : pour chaque seuil, on reporte la proportion de vrais
positifs en fonction de celle des faux positifs . Il est clair quidalement, si la fonction de
dcision permettait de sparer compltement les deux courbes de probabilit correspondant aux
deux classes (apprentissage parfait), on pourrait obtenir 100 % de vrais positifs pour 100 % de
faux positifs pour un seuil donn passant entre les deux courbes. En revanche, si les deux courbes
de probabilit se superposent parfaitement (aucune discrimination), alors, pour chaque seuil de
dcision, il y a autant de vrais positifs que de faux positifs . La courbe ROC est alors
la droite correspondant la fonction identit. Le test a 50 % de chances de conduire au bon
diagnostic. Plus la courbe sincurve vers le haut, plus le test est pertinent (le rapport des vrais
positifs sur les faux positifs augmente). La pertinence est mesure par laire sous la courbe ;
elle augmente avec sa courbure (voir la gure 3.22).
Lorsque lon a trouv un systme de classication susamment bon, il reste choisir le seuil
pour un diagnostic classe + / classe . Le choix du seuil doit fournir une proportion de vrais
positifs leve sans entraner une proportion inacceptable de faux positifs. Chaque point de la
courbe reprsente un seuil particulier, allant du plus svre : limitant le nombre de faux positifs au
prix de nombreux exemples de la classe + non diagnostiqus (forte proportion de faux ngatifs,
cest--dire faible proportion de vrais positifs), aux plus laxistes : augmentant le nombre de
vrais positifs au prix de nombreux faux positifs (voir la gure 3.22). Le seuil optimal pour une
application donne dpend de facteurs tels que les cots relatifs des faux positifs et faux ngatifs,
comme de celui de la prvalence de la classe +. Par exemple, un oprateur (de tlphonie ou de
chane cable) cherche dtecter des problmes de rsiliation : quels sont les abonns susceptibles
C
e

d
o
c
u
m
e
n
t

e
s
t

l
a

p
r
o
p
r
i


e
x
c
l
u
s
i
v
e

d
e

O
l
i
v
i
e
r

B
E
R
N
H
A
R
D

(
o
l
i
v
i
e
r
.
s
i
m
p
l
e
l
i
f
e
@
g
m
a
i
l
.
c
o
m
)

-

1
2

m
a
i

2
0
1
4


1
4
:
2
2
Chapitre 3 Lenvironnement mthodologique de lapprentissage 123
de le quitter ?
19
. Ces abonns fuyants sont peu nombreux, mais trs coteux. On cherchera donc
essayer den dtecter le maximum an de tenter de les retenir, quitte dtecter aussi quelques
faux. On utilisera alors un seuil laxiste .
Fig. 3.22: Une courbe ROC gauche. Deux seuils sur cette courbe droite.
On peut comparer plusieurs systmes dapprentissage en comparant leurs courbes ROC. Si,
pour une tche donne, un systme a une courbe uniformment suprieure celle de lautre
systme, alors on peut conclure quil a un meilleur pouvoir discriminant. En revanche, il peut
arriver que les courbes ROC correspondant aux deux systmes se chevauchent (courbe 3.23).
Dans ce cas, chaque systme est suprieur lautre pour un intervalle de valeur du critre de
dcision, et le choix doit soprer sur la base des cots relatifs des faux positifs et des faux
ngatifs .
Fig. 3.23: Courbes ROC correspondant deux systmes qui se croisent.
19
On les appelle les churners (de churn : baratte) dans le jargon du mtier. On parle aussi dattrition.
C
e

d
o
c
u
m
e
n
t

e
s
t

l
a

p
r
o
p
r
i


e
x
c
l
u
s
i
v
e

d
e

O
l
i
v
i
e
r

B
E
R
N
H
A
R
D

(
o
l
i
v
i
e
r
.
s
i
m
p
l
e
l
i
f
e
@
g
m
a
i
l
.
c
o
m
)

-

1
2

m
a
i

2
0
1
4


1
4
:
2
2
124 PARTIE 1 : Les fondements de lapprentissage
4.6 Dautres critres dapprciation
En plus des critres numriques, il existe un certain nombre de qualits qui permettent de
distinguer une hypothse parmi dautres.
Lintelligibilit des rsultats dapprentissage
Dans le cas o lhypothse apprise est une grammaire ou un ensemble de rgles logiques,
par exemple, elle peut tre munie dune smantique directement interprtable dans le lan-
gage de lingnieur ou de lexpert. Il est important dans ce cas quelle soit comprhensible.
Cette facult dintelligibilit a dj t voque dans le premier chapitre de ce livre : nous
y avons fait remarquer que la discipline de lextraction de connaissances dans les donnes
faisait grand cas de cette intelligibilit et que parfois lapprentissage dun petit nombre de
rgles comprhensibles valait mieux quun fouillis de rgles sophistiques, mme avec une
performance objective suprieure.
La simplicit des hypothses produites
Ce critre est reli au prcdent. Il relve dun argument rhtorique classique, le rasoir
dOccam, qui arme quil ne sert rien de multiplier les entits inutiles
20
, autrement
dit quune explication simple vaut mieux quune explication complique. Ce principe a t
rationnalis par certains chercheurs dans le domaine de la thorie de lapprentissage [LV97].
5. La comparaison des mthodes dapprentissage
On peut toujours utiliser dirents algorithmes dapprentissage sur une mme tche. Comment
interprter la dirence de performance mesure empiriquement entre deux algorithmes ? Plus
concrtement, est-ce quun algorithme dont la performance en taux derreur de classication
binaire vaut 0.17 est meilleur quun autre dont la performance mesure est de 0.20 ?
La rponse nest pas vidente, car la performance mesure dpend la fois des caractristiques
des tests empiriques eectus et des chantillons de tests utiliss. Dpartager deux systmes
sur une seule mesure est donc problmatique. La mme question se pose dailleurs pour deux
hypothses produites par le mme algorithme partir de conditions initiales direntes.
Toute une littrature porte sur ce problme et nous nen esquissons que les grandes lignes dans
ce qui suit. On ne saurait tre trop attentif ces questions lorsque lon teste eectivement des
systmes, sous peine darmer peu prs nimporte quoi.
Notons que le problme de dcider si un algorithme ou une hypothse est meilleure quune
autre se place naturellement dans le cadre du test dhypothses en statistique, que nous avons
dj voqu plus haut dans la section 4.3.1. Il nest donc pas surprenant que la plupart des
techniques de comparaison viennent du monde des statistiques.
Le principe gnral est de caractriser la distribution de probabilit sur les dirences possibles
de performance sous lhypothse quil ny a pas en fait de dirence entre les mthodes (hypothse
nulle : H
0
). On compare alors la dirence observe par rapport cette courbe, et on dcide si
la probabilit que cette dirence ait t observe sous H
0
est susamment petite pour que
20
Frustra t per plura, quod eri potest per pauciora, classiquement traduit par : It is vain to do with more
what can be done with less. Ou Essentia non sunt multiplicanda praeter necessitatem. Entities should not be
multiplied unnecessarily. Guillaume dOccam (1288-1348).
C
e

d
o
c
u
m
e
n
t

e
s
t

l
a

p
r
o
p
r
i


e
x
c
l
u
s
i
v
e

d
e

O
l
i
v
i
e
r

B
E
R
N
H
A
R
D

(
o
l
i
v
i
e
r
.
s
i
m
p
l
e
l
i
f
e
@
g
m
a
i
l
.
c
o
m
)

-

1
2

m
a
i

2
0
1
4


1
4
:
2
2
Chapitre 3 Lenvironnement mthodologique de lapprentissage 125
lon dcide quil y a bien en fait une dirence entre les algorithmes ou entre les hypothses
compares.
Lors de la comparaison entre deux algorithmes, ou de deux hypothses produites par le mme
algorithme partir de conditions initiales direntes, il faut distinguer le cas o lon se base sur
des chantillons de test identiques ou dirents. Nous allons traiter rapidement les deux cas.
5.1 La comparaison de deux algorithmes partir dun mme jeu de donnes
5.1.1 La comparaison de deux algorithmes sur un mme ensemble de test
Si les ensembles tests sur lesquels sont valus les deux algorithmes sont les mmes, alors les
intervalles de conance peuvent tre beaucoup plus serrs que si on les value sur des ensembles de
test dirents dans la mesure o lon limine la variance due la dirence entre les chantillons
de test.
Soient donc deux hypothses de classication h
1
et h
2
. Notons :
n
00
= Nombre dexemples de tests mal classs par h
1
et h
2
n
01
= Nombre dexemples de tests mal classs par h
1
, mais pas par h
2
n
10
= Nombre dexemples de tests mal classs par h
2
, mais pas par h
1
n
11
= Nombre dexemples de tests correctement classs par h
1
et h
2
.
Posons comme hypothse nulle que les deux classieurs ont le mme taux derreur en gnra-
lisation. Nous nous attendons alors observer que n
01
= n
10
=
n
01
+n
10
2
.
On peut alors avoir recours au test du
2
qui consiste examiner lcart quadratique entre
la valeur attendue dune variable alatoire et la moyenne observe et diviser cet cart par la
valeur attendue.
_
n
01

n
01
+n
10
2
_
2
n
01
+n
10
2
+
_
n
10

n
01
+n
10
2
_
2
n
01
+n
10
2
=
(n
01
+n
10
)
2
n
01
+n
10
qui suit une loi du chi-2 un degr de libert.
Le test de McNemar est un test du chi-2 corrig un degr de libert :
([n
01
n
10
[ 1)
2
n
01
+n
10

2
1
(3.5)
Il accepte lhypothse nulle, pas de dirence entre les performances des deux classieurs, au
niveau si cette valeur est infrieure ou gale
2
,1

2
0.05,1
= 3.84.
5.1.2 Validation croise N plis avec t tests coupls
Lide de ce test est dutiliser un mcanisme de validation croise pour obtenir N couples
densembles dapprentissage et de test : (o
i
, T
i
)
i=1,...,N
. Les frquences derreur observes pour
les deux classieurs sur lensemble de test T
i
sont notes : p
1
i
et p
2
i
respectivement.
Si les deux classieurs ont des performances quivalentes, on sattend ce que les variables p
1
i
et p
2
i
aient mmes moyennes, ou encore que la dirence de leurs moyennes soient nulle.
Soit p
i
= p
1
i
p
2
i
cette dirence. tant donn que lon suppose que les variables p
1
i
et p
2
i
suivent approximativement des lois normales, leur dirence p
i
suit aussi, approximativement,
une loi normale de moyenne .
On dnira donc lhypothse nulle H
0
, correspondant labsence de dirence entre les deux
classieurs, comme : = 0.
C
e

d
o
c
u
m
e
n
t

e
s
t

l
a

p
r
o
p
r
i


e
x
c
l
u
s
i
v
e

d
e

O
l
i
v
i
e
r

B
E
R
N
H
A
R
D

(
o
l
i
v
i
e
r
.
s
i
m
p
l
e
l
i
f
e
@
g
m
a
i
l
.
c
o
m
)

-

1
2

m
a
i

2
0
1
4


1
4
:
2
2
126 PARTIE 1 : Les fondements de lapprentissage
Soient la moyenne et la moyenne des carts quadratiques :
m =

N
i=1
p
i
N
et S
2
=

N
i=1
(p
i
m)
2
N 1
Sous lhypothse nulle, nous avons une statistique suivant une distribution t N 1 degrs
de libert :

N(m0)
S
=

N m
S
t
N1
(3.6)
Le test accepte lhypothse nulle, pas de dirence entre les performances des deux classieurs,
au niveau si cette valeur est dans lintervalle [t
/2,N1
, t
/2,N1
]. On a par exemple t
0.025,9
=
2.26 et t
0.025,29
= 2.05.
Notons que mme si ce test fait lhypothse que les deux variables p
1
i
et p
2
i
suivent des lois
normales, il est robuste aux carts avec cette hypothse. Do lutilisation trs courante de ce
test.
5.1.3 Les 5 2 cv t tests coupls
Dans son article de 1998, [Die98], Dietterich remarque que linconvnient de la validation
croise N plis avec tests coupls quand N est grand est quil y a un fort recoupement des
ensembles dapprentissage ce qui peut conduire une sous estimation de la variance.
Le test quil propose utilise cinq rplications dune validation croise deux plis. chaque
rplication, le jeu de donnes est divis en deux parties gales. On note p
(j)
i
la dirence entre
les taux derreur des deux classieurs pour le pli j 1, 2 et la rplication i 1, . . . , 5. Pour
chaque rplication i, la moyenne des taux derreur est p
i
= (p
(1)
i
+p
(2)
i
)/2, et la variance estime
est s
2
i
= (p
(1)
i
p
i
)
2
+ (p
(2)
i
p
i
)
2
.
Soit lhypothse nulle H
0
selon laquelle les deux algorithmes ont la mme performance. La
dirence p
(j)
i
de deux variables identiquement distribues, en ignorant ici quelles ne sont pas
indpendantes, peut tre considre comme suivant une loi normale de moyenne 0 et de variance
inconnue
2
. Dans ce cas, le rapport s
2
i
/
2
suit une distribution chi-2 (
2
) un degr de libert,
et leur somme suit une distribution du
2
cinq degrs de libert :
M =

5
i=1
s
2
i

2

2
5
et t =
p
(1)
1
_
M/5
=
p
(1)
1
_

5
i=1
s
5
i
/5
t
5
(3.7)
ce qui donne une t-statistique 5 degrs de libert.
Le test 52 cv t tests coupls accepte lhypothse nulle, pas de dirence entre les performances
des deux classieurs, au niveau si cette valeur est dans lintervalle [t
/2.5
, t
/2.5
]t
0.025,5
= 2.57.
On peut aussi utiliser ce test pour dcider si un algorithme est suprieur un autre, pour une
tche donne, dans une version un ct (one-sided). Ainsi, on dcidera que lalgorithme 1 est
infrieur lalgorithme 2 en comparant les hypothses : H
0
: 0 et H
1
: > 0.
On calcule les mmes statistiques que prcdemment (quation 3.7) et lhypothse nulle est
accepte si la valeur calcule est infrieure : t
,5
t
0.05,5
= 2.02.
Alpaydin, [Alp99], a amlior ce test pour le rendre plus robuste et plus performant.
5.2 La comparaison de deux algorithmes partir de jeux de donnes dirents
Il existe une dirence fondamentale entre les tests eectus partir dun jeu de donnes
unique et les tests portant sur plusieurs jeux de donnes. Les tests sur un seul jeu de donnes
C
e

d
o
c
u
m
e
n
t

e
s
t

l
a

p
r
o
p
r
i


e
x
c
l
u
s
i
v
e

d
e

O
l
i
v
i
e
r

B
E
R
N
H
A
R
D

(
o
l
i
v
i
e
r
.
s
i
m
p
l
e
l
i
f
e
@
g
m
a
i
l
.
c
o
m
)

-

1
2

m
a
i

2
0
1
4


1
4
:
2
2
Chapitre 3 Lenvironnement mthodologique de lapprentissage 127
impliquent gnralement lestimation de la performance moyenne et de sa variance sur des tapes
rptes dapprentissage et de test avec des tirages alatoires partir du jeu de donnes. Comme
ces ensembles, dapprentissage comme de test, ne sont pas indpendants, un grand soin doit tre
apport an dviter des estimations biaises.
Il est cependant frquent que lon veuille comparer des algorithmes sur des jeux de donnes
dirents. Dans ce cas, la variance des rsultats est en partie attribuable la dirence des jeux
de donnes. Demsar dans une tude trs intressante, [Dem06], avertit que le t-test nest plus
une mthode approprie, et recommande le test de rangs signs de Wilcoxon.
5.2.1 Le test de rangs signs de Wilcoxon
De nombreux tests statistiques sappuient sur des a priori sur la forme de la distribution des
mesures eectues. Par exemple, le t-test tudi plus haut suppose que les mesures suivent une
loi normale. Il peut cependant arriver que nous nous sentions inconfortables lide dmettre
de telles suppositions. Dans ce cas, il faut avoir recours aux tests non paramtriques. Les tests
bass sur la comparaison des rangs font partie de ces tests.
Lide est ici de remplacer les valeurs numriques des taux derreur observs sur les classieurs
compars et les jeux de test par les rangs des performances mesures. Si les classieurs sont de
performance comparable, on devrait obtenir des rangs peu prs bien mlangs. En revanche,
si un classieur est signicativement suprieur un autre, alors les rangs correspondant aux
taux derreur quil obtient sur les jeux de donnes devraient tre biaiss vers les premiers rangs,
cest--dire les taux derreur les plus faibles. De mme, si un classieur a une variance de ses
rsultats suprieure la variance de lautre classieur, il devrait obtenir la fois plutt des rangs
levs et des rangs bas. Il existe des tests statistiques spciques sur les rangs moyens ou sur
la distribution des rangs permettant de calculer le degr auquel on peut croire, ou non, la
supriorit dun algorithme sur lautre.
Les test de rangs signs (signed rank tests) sappuient sur un autre type de classement. Ici, on
classe lcart entre les performances des deux classieurs tests sur les dirents jeux de test, et
pour chaque cart [R
Emp
(A)R
Emp
(B)[ (not [
A

B
[ sur la gure 3.24), on retient lalgorithme
gagnant. Ainsi, si lalgorithme A est le gagnant pour le plus grand cart, alors il a gagn pour le
rang 1, et ainsi de suite.
Sil ny avait pas de dirence signicative de performance entre les deux algorithmes, on
devrait obtenir des rangs moyens peu prs gaux pour les deux algorithmes. Soit N le nombre
de jeux de tests, G
A
(resp. G
B
) la somme des rangs sur lesquels lalgorithme A (resp. B) a gagn,
et T = min(G
A
, G
B
). Pour N 25, la statistique
z =
T
1
4
N(N + 1)
_
1
24
N(N + 1)(2N + 1)
est distribue peu prs selon une loi normale. Avec = 0.05, lhypothse nulle, les deux
algorithmes ont des performances quivalentes, peut tre rejete si z < 1.96.
5.3 La comparaison de multiples algorithmes
Lorsque lon compare entre eux davantage que deux algorithmes, on se retrouve dans la si-
tuation de tests multiples, ce qui demande un soin particulier, comme devraient le savoir les
praticiens de lapprentissage, conscients du problme du lien entre mesure du risque empirique
sur lapparente meilleure hypothse et son risque rel. Pourtant, de nombreuses publications et
tudes sont entaches derreurs mthodologiques.
C
e

d
o
c
u
m
e
n
t

e
s
t

l
a

p
r
o
p
r
i


e
x
c
l
u
s
i
v
e

d
e

O
l
i
v
i
e
r

B
E
R
N
H
A
R
D

(
o
l
i
v
i
e
r
.
s
i
m
p
l
e
l
i
f
e
@
g
m
a
i
l
.
c
o
m
)

-

1
2

m
a
i

2
0
1
4


1
4
:
2
2
128 PARTIE 1 : Les fondements de lapprentissage
|
A

B
| |
A

B
|
Fig. 3.24: Pour 11 jeux de donnes, on note ( gauche) que lalgorithme A a gagn sur les rangs
2, 3, 5, 7, 10 et 11, et lalgorithme B sur les rangs 1, 4, 6, 8 et 9. On a donc G
A
= 37
et G
B
= 29. droite, on obtient G
A
= 53 et G
B
= 13. La valeur critique pour 11
jeux de test est 10. Donc, on ne peut pas conclure gauche : [G
A
G
B
[ < 10 alors
que lon peut dcider que A est meilleur que B droite (G
A
G
B
= 40).
Le problme est dviter de commettre au moins une erreur de type 1, consistant rejeter
lhypothse H
0
(e.g. lalgorithme nest pas meilleur que les autres) alors quelle est vraie (de fait,
il ny a pas de supriorit signicative).
Les statistiques orent des procdures appropries pour tester la signication de la dirence
entre moyennes multiples. Les deux plus connues sont le test ANOVA (ANalysis Of VAriance)
et le test non paramtrique de Friedman.
5.3.1 Lanalyse de la variance : ANOVA
Lanalyse ANOVA divise la variabilit totale entre les rsultats observs pour les dirents
algorithmes entre une variabilit entre les algorithmes, une variabilit entre les jeux de donnes,
et une variabilit rsiduelle (erreur). Si la variabilit entre algorithmes est estime comme signi-
cativement plus grande que la variabilit rsiduelle, alors lhypothse nulle peut tre rejete et
on peut conclure quil y a une dirence entre les algorithmes. Nous renvoyons le lecteur tout
ouvrage gnral sur les tests statistiques pour plus de dtails.
La limite principale du test ANOVA est quil suppose que les chantillons de donnes sont
issus dune distribution normale, ce qui na aucune raison dtre dans le cas de mesures de taux
derreur. Cest pourquoi on prfre le test de Friedman.
5.3.2 Le test de Friedman
Dans le test de Friedman, on classe les K algorithmes pour chaque jeu de test sparment. Le
meilleur algorithme obtenant le rang 1, le deuxime le rang 2, etc. En cas dgalit, le rang moyen
est assign aux algorithmes gaux. Soit r
j
i
le rang du j-me algorithme sur le jeu de donnes j
parmi N. Le test de Friedman compare les rangs moyens R
j
=
1
N

i
r
j
i
des algorithmes.
Sous lhypothse nulle selon laquelle tous les algorithmes sont quivalents, les rangs de chaque
algorithme devraient obir la statistique de Friedman :
C
e

d
o
c
u
m
e
n
t

e
s
t

l
a

p
r
o
p
r
i


e
x
c
l
u
s
i
v
e

d
e

O
l
i
v
i
e
r

B
E
R
N
H
A
R
D

(
o
l
i
v
i
e
r
.
s
i
m
p
l
e
l
i
f
e
@
g
m
a
i
l
.
c
o
m
)

-

1
2

m
a
i

2
0
1
4


1
4
:
2
2
Chapitre 3 Lenvironnement mthodologique de lapprentissage 129

2
F
=
12 N
K(K + 1)
_

j
R
2
j

K(K + 1)
2
4
_
avec K 1 degrs de libert, quand N et K sont susamment grands (N > 10 et K > 5).
Iman et Davenport, [ID80], ont montr que cette statistique tait trop prudente et ont calcul
une statistique plus prcise :
F
F
=
(N
1
)
2
F
N(K 1)
2
F
distribue selon la F-distribution avec K 1 et (K 1)(N 1) degrs de libert.
5.4 Discussion
Les procdures de comparaison discutes ne prennent en compte que les taux derreurs. Il
est clair que si deux classieurs ont la mme performance, mais que lun est plus complexe que
lautre, il vaut mieux retenir le plus simple des deux.
Par ailleurs, peu dtudes prennent en compte des cots de mauvaise classication dissym-
triques. Il y a l un champ de recherche qui reste explorer.
6. Autres problmes pratiques
6.1 Classes trs dsquilibres
Il existe de nombreuses applications pour lesquelles les classes dobjets sont dsquilibres
(imbalanced data sets, en anglais). Par exemple, dans le cas de lidentication de pollutions
maritimes partir dimages satellites, la fraction dimages montrant un bateau en train de
dgazer en mer est heureusement trs faible par rapport lensemble des images rcoltes, de
lordre de moins de une pour dix mille [KHM98]. De mme, dans des applications de dtection
de bioactivit, au sein de toutes les molcules documentes dans les chimiothques, trs peu
de molcules sont bioactives par rapport une cible pharmacologique. En consquence, si lon
entranait sans prcaution un systme sur les donnes brutes, le systme obtiendrait un score
excellent en se contentant de prdire indistinctement la classe majoritaire.
Cette prdiction serait correcte, et le dsquilibre des classes sans importance, si le systme
tait ensuite appel travailler dans les mmes conditions, par exemple si les images satellites sont
parcourues alatoirement pour une surveillance en continu. Mais supposons quune information
de pollution parvienne au centre de surveillance : les images satellites examines seront celles
des bateaux dans la zone concerne. Ce nest plus un bateau sur dix mille quil faut identier,
mais un sur dix. Lapprentissage doit donc tre fait partir dun ensemble dimages o il y a dix
bateaux innocents pour un seul coupable.
Prenons un autre exemple : la lecture automatique des numros des plaques minralogiques
partir des photos ash des bornes radars. Pour simplier, intressons-nous seulement liden-
tication du dernier chire, en supposant le vhicule franais (5 pour un vhicule du Doubs, 3
pour un de la Gironde, etc.). Admettons que, pour chaque chire, il y a autant de vhicules qui
circulent en France (ce nest sans doute pas vrai, mais si on avait les chires prcis, on pour-
rait en tenir compte). On a donc un problme de classication : partir de limage du dernier
chire, lui attribuer une classe entre 0 et 9. Lensemble dapprentissage peut se constituer avec
C
e

d
o
c
u
m
e
n
t

e
s
t

l
a

p
r
o
p
r
i


e
x
c
l
u
s
i
v
e

d
e

O
l
i
v
i
e
r

B
E
R
N
H
A
R
D

(
o
l
i
v
i
e
r
.
s
i
m
p
l
e
l
i
f
e
@
g
m
a
i
l
.
c
o
m
)

-

1
2

m
a
i

2
0
1
4


1
4
:
2
2
130 PARTIE 1 : Les fondements de lapprentissage
un nombre identique dimages supervises par la mme classe, puisque ce que nous appellerons
au chapitre 15 la probabilit a priori des classes vaut un dizime pour chaque classe. Les classes
sont donc parfaitement quilibres en phase dapprentissage et de test.
Mais quand le radar est install la sortie de Besanon, il prendra une proportion plus impor-
tante de photos de plaques se terminant par 5, mais il nen tiendra pas compte ( tort) dans sa
dcision et il aura tendance verbaliser tort trop de plaques ne se terminant pas par 5. Cest un
problme du mme type que le prcdent : la dcision est biaise par rapport lapprentissage,
car les probabilits a priori des classes ont chang entre les deux phases.
Si on connat les probabilits a priori des classes en exploitation, et quelles sont direntes
de celles de lensemble dapprentissage, il est donc ncessaire de rquilibrer cet ensemble dap-
prentissage. Pour ce faire, on dispose des approches suivantes (on suppose pour simplier quil
ny a que deux classes) :
R-quilibrage des classes. Cela peut tre eectu soit en retirant des exemples de la
classe majoritaire (par exemple par un tirage alatoire), soit en augmentant articielle-
ment la classe minoritaire. La premire solution a linconvnient dliminer des donnes qui
peuvent tre porteuses dune information utile, spcialement lorsque la taille de lchantillon
dapprentissage est petite par rapport la dimension de lespace des entres. Cest pourquoi
il est intressant de considrer la seconde solution. Celle-ci se dcline en plusieurs options :
Cration dexemples virtuels. Une technique intressante est de crer des exemples virtuels
proches des exemples par un procd de bruitage, par exemple par une gnration de dis-
tribution gaussienne autour des exemples. En contrlant la variance de cette distribution,
on provoque de fait une sorte de lissage ou de rgularisation des hypothses produites (qui
ont ainsi tendance moins pouser les exemples des classes minoritaires).
Augmentation du poids des exemples. Lorsque lalgorithme dapprentissage prend en comp-
te le poids des exemples (dans certains cas de rseaux connexionnistes ou dans les ap-
proches baysiennes par exemple), il est envisageable daugmenter le poids des exemples
des classes minoritaires de manire rquilibrer le poids global des classes.
Modication de la fonction de performance. Sans modier lchantillon dapprentis-
sage, il est possible de modier le critre de performance que le systme cherche optimiser.
Deux approches en particulier sont utilises :
Modication de la matrice de cots. Une possibilit est de pnaliser beaucoup la mauvaise
classication des exemples des classes minoritaires par rapport la mauvaise classication
des exemples des classes majoritaires (voir la section 6.2).
Modication du critre de performance. Dans un esprit proche de la solution prcdente,
il est possible de modier la formule du taux derreur pour tenir compte des frquences
respectives des direntes classes.
Utilisation dune technique de dplacement co-vari (covariate-shift) qui modie le
critre empirique pour biaiser lapprentissage vers la rgion de A dans laquelle devraient
se trouver la majorit des exemples venir. (voir [QCSSL09]).
Il faut remarquer que cette modication de la fonction de performance produit un rsultat qui
nest pas facile relier avec exactitude au changement de la valeur des probabilits a priori des
classes entre lapprentissage et la dcision. Aucune de ces techniques nest de plus uniformment
suprieure aux autres. Il faut donc en examiner les avantages et inconvnients pour chaque appli-
cation, en testant lhypothse apprise en situation de fonctionnement, si possible. La littrature
sur ce problme est abondante (voir par exemple [Dom99, DH00, Elk01, JS02, KHM98, SLD02]).
C
e

d
o
c
u
m
e
n
t

e
s
t

l
a

p
r
o
p
r
i


e
x
c
l
u
s
i
v
e

d
e

O
l
i
v
i
e
r

B
E
R
N
H
A
R
D

(
o
l
i
v
i
e
r
.
s
i
m
p
l
e
l
i
f
e
@
g
m
a
i
l
.
c
o
m
)

-

1
2

m
a
i

2
0
1
4


1
4
:
2
2
Chapitre 3 Lenvironnement mthodologique de lapprentissage 131
6.2 Matrice de cots non symtrique
Un autre cas de dissymtrie entre les classes se produit quand une mauvaise classication
na pas les mmes eets ou le mme cot. Un exemple simple est le dpistage primaire dune
maladie : il vaut mieux du point de vue de la sant publique raliser un test pessimiste , qui
envoie vers des examens complmentaires une proportion importante de patients sains que de
ne pas faire dexamen complmentaire sur des patients vraiment malades. En consquence, le
cot de mauvaise dcision nest pas le mme pour les deux classes. Ce cas peut se traiter en se
dplaant sur la courbe ROC, comme expliqu au paragraphe 4.5.1. La thorie baysienne de la
dcision (chapitre 15) peut intgrer explicitement des cots de dcision non symtriques. Il faut
noter que dans la plupart des mthodes dapprentissage de concept, le choix de cots derreur
gaux est implicitement fait.
6.3 Donnes bruites
Les donnes peuvent tre bruites de plusieurs manires. Le bruit de mesure modie la valeur
relle des attributs sans changer la classe. Il est souvent d des erreurs de saisie ou des impr-
cisions pendant la capture des donnes. Il ny a pas grand-chose faire pour le rduire. Le bruit
de classe est une erreur de lexpert, qui se trompe (soit par mgarde, soit par incomptence)
dans lattribution dune tiquette.
Il est parfois possible de dtecter et dliminer les erreurs dues au bruit de classe quand une
donne de la classe
1
est loin (au sens dune certaine distance) des autres donnes de la mme
classe et entoure de donnes de la classe
2
. Les techniques ddition que lon verra avec les
mthodes des plus proches voisins, au chapitre 15 sont conues pour dtecter ces donnes mal
tiquetes et pour enlever ces points isols (ou outliers) que lon peut supposer victimes dun bruit
de classe. Mais le problme est trs dlicat rgler dans le cas gnral, puisque rien nassure que
deux classes doivent tre bien spares. Le vritable problme se situe dans les zones de confusion
entre classes, o une mthode ddition donne un rsultat alatoire.
Dans certains cas, on peut mettre des hypothses sur la probabilit P
ij
quune donne de
vraie classe
i
soit tiquete par la classe
j
et en tirer prot dans lexploitation des donnes.
Ces travaux restent pour le moment du domaine de la recherche (voir par exemple [Mag07]).
6.4 Espace dentre de trs grande dimension
Lorsque les donnes sont dcrites laide de trs nombreux descripteurs, comme cest par
exemple le cas en analyse dimages, en gnomique ou en recherche dinformation sur le Web,
plusieurs problmes potentiels se posent :
Le problme le plus important est que les algorithmes de recherche de rgularits dans des
espaces de grande dimension ne peuvent plus distinguer facilement les vraies rgularits des
concidences fortuites. Par exemple, dans le cas de la classication laide de donnes issues de
puces ADN, il existe statistiquement presque toujours au moins un gne (parmi des milliers)
dont la mesure de lactivit permet de classer parfaitement les quelques dizaines dexemples
dapprentissage, sans que ce gne soit vritablement li au phnomne biologique tudi. Cela est
d au fait que la capacit dun espace dhypothses prenant en compte de trs nombreux attributs
est trs grande et quil est alors ncessaire de disposer soit dun chantillon dapprentissage
de taille susante (cest--dire norme), soit de connaissances a priori permettant de limiter
eectivement cette capacit. Une approche souvent utilise dans ce cas est de rduire la dimension
de lespace dentre en recourant des mthodes telles que celles dcrites dans la section 1.3.
C
e

d
o
c
u
m
e
n
t

e
s
t

l
a

p
r
o
p
r
i


e
x
c
l
u
s
i
v
e

d
e

O
l
i
v
i
e
r

B
E
R
N
H
A
R
D

(
o
l
i
v
i
e
r
.
s
i
m
p
l
e
l
i
f
e
@
g
m
a
i
l
.
c
o
m
)

-

1
2

m
a
i

2
0
1
4


1
4
:
2
2
132 PARTIE 1 : Les fondements de lapprentissage
6.5 Trs gros volumes de donnes en grande dimension
Alors quun nombre limit de donnes dcrites dans un espace de grande dimension pose le
problme de la dcouverte able de structures dans ces donnes, disposer dun nombre important
de donnes en grande dimension pose de surcrot des problmes calculatoires.
Prenons le cas par exemple dun site de e-commerce disposant dun catalogue de d = 10
5
articles, que nous nommerons items, et devant satisfaire une moyenne de N = 10
6
transactions
par semaine. Lanalyse des donnes correspondantes pose des ds la fois calculatoires et
statistiques. Par exemple, le simple calcul dune matrice de corrlation par paire require O(Nd
2
)
oprations et une taille mmoire de lordre de O(d
2
), soit 10
16
et 10
10
respectivement. Des ordres
de grandeur clairement trop importants pour tre considrs la lgre.
Heureusement, ce genre de donnes est frquemment du type clairsem (sparse), cest--dire
que chaque transaction, par exemple, nimplique typiquement quune dizaine ditems. Cela signie
que seulement 10/50 000 ou encore 0, 02 % des lments de la matrice de transactions N d sont
non nuls.
Il est donc intressant dessayer de tirer parti de cette proprit. Cest ce qui est fait couram-
ment en fouille de donnes (data mining) avec la recherche des sous-ensembles I ditems (appels
itemsets en anglais, mais aussi, frquemment, en franais) prsents dans la matrice de transac-
tions. Les itemsets frquents peuvent aussi tre considrs comme des contraintes sur lensemble
de tous les modles probabilistes dun certain ordre pour les donnes.
Il existe plusieurs variantes dalgorithmes ecaces pour chercher les itemsets frquents, cest-
-dire dont la frquence f
I
est suprieure un certain seuil, dans des matrices clairsemes. Nous
renvoyons au chapitre 18.
Remarque
Le traitement des gigantesques bases de donnes ou quantits de donnes (au-dessus du tera-octets ou
tera-bytes (tera pour 10
12
)) reste encore essentiellement du ressort de la recherche. Outre des progrs
impratifs sur lecacit des algorithmes
21
et sur la rpartition de leur xecution sur des grilles de calcul,
la solution de ce problme passe par le dveloppement de techniques dchantillonnage sans biais, de
calculs destimations statistiques la vole, et dalgorithmes dapprentissage incrmental.
6.6 Exemples non indpendants (non i.i.d.)
Parce que lanalyse thorique de lapprentissage repose essentiellement sur des mthodes sta-
tistiques et que le lampadaire de la statistique claire essentiellement le terrain dans lequel les
vnements ou donnes sont supposs indpendants et identiquement distribus, on a longtemps
eu recours et abus de lhypothse i.i.d.
Cependant, il est courant que les donnes ne vrient pas cette proprit. Les patients qui
viennent voir un mdecin ne sont pas ncessairement indpendants les uns des autres, ce qui
revient dire que la connaissance de patients dj vus peut fournir des informations sur le
prochain patient. De mme, supposons quune camra soit dispose dans une rue de Paris pour
faire un apprentissage sur le type de vhicules prsents. Si les prises de vue sont eectues avec
un cart susant, alors il est probable quelles seront i.i.d., en revanche, avec des prises de vues
rapproches, le systme pourra tre victime deets de squences, par exemple lorsquun un
cortge ociel passe.
Les donnes non indpendantes posent des problmes intressants. Dune part, elles apportent
moins dinformation sur les rgularits sous-jacentes p
.
puisquelles sont en partie redon-
21
Il est de plus en plus souvent dit quun bon algorithme dapprentissage sur m donnes doit tre en
complexit au plus O(m).
C
e

d
o
c
u
m
e
n
t

e
s
t

l
a

p
r
o
p
r
i


e
x
c
l
u
s
i
v
e

d
e

O
l
i
v
i
e
r

B
E
R
N
H
A
R
D

(
o
l
i
v
i
e
r
.
s
i
m
p
l
e
l
i
f
e
@
g
m
a
i
l
.
c
o
m
)

-

1
2

m
a
i

2
0
1
4


1
4
:
2
2
Chapitre 3 Lenvironnement mthodologique de lapprentissage 133
dantes. Dautre part, les dpendances entre exemples peuvent indiquer des tendances temporelles
intressantes dtecter et identier. On peut galement les exploiter comme dans le tracking
qui consiste apprendre une dpendance locale p
.
t

sur un sous-espace A
t
chaque instant
et prdire peu prs A
t+1
. Ainsi, il est possible dapprendre des modles plus simples, car lo-
caux, et dobtenir une performance gnrale aussi bonne, voire meilleure quun apprentissage sur
lensemble des donnes, avec un apprentissage en ligne beaucoup moins coteux (voir [SKS07]).
Il existe plusieurs analyses thoriques pour rendre compte des performances attendre dans
ce type de situation. Pour le moment, ces analyses reposent sur lide de dtecter une granularit
susante dans les donnes pour que les grumeaux correspondants puissent tre considrs
indpendants. Les bornes sur lerreur en gnralisation deviennent alors nettement moins bonnes
que sous lhypothse dindpendance. Ces tudes peuvent certainement tre amliores.
6.7 Apprentissage multi-objectif
Lapprentissage est fondamentalement une activit multi-objectifs. Par exemple, on veut
la fois identier une bonne rgle de dcision, qui ne soit pas trop coteuse valuer, qui soit
ventuellement facile interprter, et qui sarticule aisment avec les connaissances antrieures.
Pourtant, la plupart du temps, soit un seul objectif est explicitement retenu, comme la perfor-
mance en gnralisation, soit les dirents objectifs sont agrgs dans un seul nombre. Cela est
essentiellement d au fait quune grande partie des algorithmes classiques ne peuvent optimiser
quun critre de performance scalaire.
Des expriences ont cependant t dcrites dans lesquelles le fait de poursuivre simultanment
plusieurs buts pouvait amliorer la performance sur certains des sous-buts, avec les mmes don-
nes dapprentissage. Par exemple, un rseau de neurones, auquel tait demand de prdire la
classe de formes en entre, voyait ses performances augmentes pour cette tche si on lui de-
mandait simultanment de prdire aussi la couleur des formes (cest--dire que la couleur tait
demande en sortie au lieu dtre fournie en entre pour le rseau un seul objectif. De ce fait, le
rseau ne bnciait pas de davantage dinformation en cours dapprentissage, mais on lobligeait
tablir des relations entre classe et couleur, ce qui, dans ce cas, avantageait lapprentissage).
Ces phnomnes observs de manire empiriques restent analyser en profondeur.
Des progrs ont t raliss rcemment sur loptimisation multi-critres grce au concept de
front de Pareto. Ces progrs sont lis en partie lutilisation de techniques volutionnaires (voir
chapitre 8) et de mthodes doptimisation stochastiques (voir par exemple [YS08]).
6.8 Apprentissage multi-tiquette
On parle dapprentissage multi-tiquette quand la tche dapprentissage est la prdiction
dune ou de plusieurs tiquette(s) pour chaque entre, et o les donnes dapprentissage sont
souvent tiquetes avec plusieurs valeurs. Lensemble dapprentissage prend alors la forme :
o = (x
1
, Y
1
), . . . , (x
m
, Y
m
) o les Y
i
sont des ensembles de valeurs prises dans lespace de
sortie : Y
i
.
Par exemple, dans le contexte du tri, on peut vouloir pour une entre donne que le systme
renvoie une liste dentres classer avant et une liste dentre classer aprs. Il peut aussi sagir
dassocier des tiquettes ou tag des documents sur Internet, ou de catgoriser des phrases, des
courriels ou des molcules dans des classes non mutuellement exclusives.
Ce genre de tche, qui nest tudie que depuis peu de temps, requiert des mtriques dva-
luation particulires, ainsi que des algorithmes ddis (voir par exemple le tutoriel donn
ECML-PKDD-09, disponible sur :
http://www.ecmlpkdd2009.net/wp-content/uploads/2009/08/learning-from-multi-label-data.pdf).
C
e

d
o
c
u
m
e
n
t

e
s
t

l
a

p
r
o
p
r
i


e
x
c
l
u
s
i
v
e

d
e

O
l
i
v
i
e
r

B
E
R
N
H
A
R
D

(
o
l
i
v
i
e
r
.
s
i
m
p
l
e
l
i
f
e
@
g
m
a
i
l
.
c
o
m
)

-

1
2

m
a
i

2
0
1
4


1
4
:
2
2
134 PARTIE 1 : Les fondements de lapprentissage
Rsum
Ce chapitre a abord la reprsentation des connaissances pour les objets et les
concepts, les mthodes de base pour la recherche dune hypothse dapprentissage et
les techniques de la mesure de qualit dune hypothse. Les points suivants ont t
traits :
Les objets dapprentissage sont dcrits par des attributs qui peuvent tre num-
riques, symboliques, squentielles, mixtes.
Avant toute phase dapprentissage, on peut chercher nettoyer les donnes, en
particulier en liminant les attributs inutiles.
Les hypothses dapprentissage doivent aussi tre reprsentes. Un grand nombre
de possibilits existent : classes, valeurs numriques, arbres, modles baysiens et
markoviens, grammaires, formules logiques. Toutes ces reprsentations ne sont pas
compatibles avec tous les types de donnes.
Une fois lespace des hypothses dni, il faut pouvoir lexplorer. Les mthodes de
gradient, discret et numrique sont des techniques de base utilises dans beaucoup
dalgorithmes dapprentissage pour la recherche dune bonne solution.
Il faut aussi savoir mesurer la qualit dune hypothse produite par un algorithme :
les techniques par ensemble de test et ensemble de validation ainsi que les mthodes
par validation croise sont la base de cette mesure.
Il est aussi essentiel de savoir comparer deux algorithmes dapprentissage sur des
jeux de donnes identiques ou non, pour savoir lequel est le plus ecace dans cette
situation particulire.
Lutilisateur doit savoir dnir le protocole dapprentissage appropri son pro-
blme.
C
e

d
o
c
u
m
e
n
t

e
s
t

l
a

p
r
o
p
r
i


e
x
c
l
u
s
i
v
e

d
e

O
l
i
v
i
e
r

B
E
R
N
H
A
R
D

(
o
l
i
v
i
e
r
.
s
i
m
p
l
e
l
i
f
e
@
g
m
a
i
l
.
c
o
m
)

-

1
2

m
a
i

2
0
1
4


1
4
:
2
2
Deuxime partie
Apprentissage par exploration
C
e

d
o
c
u
m
e
n
t

e
s
t

l
a

p
r
o
p
r
i


e
x
c
l
u
s
i
v
e

d
e

O
l
i
v
i
e
r

B
E
R
N
H
A
R
D

(
o
l
i
v
i
e
r
.
s
i
m
p
l
e
l
i
f
e
@
g
m
a
i
l
.
c
o
m
)

-

1
2

m
a
i

2
0
1
4


1
4
:
2
2
C
e

d
o
c
u
m
e
n
t

e
s
t

l
a

p
r
o
p
r
i


e
x
c
l
u
s
i
v
e

d
e

O
l
i
v
i
e
r

B
E
R
N
H
A
R
D

(
o
l
i
v
i
e
r
.
s
i
m
p
l
e
l
i
f
e
@
g
m
a
i
l
.
c
o
m
)

-

1
2

m
a
i

2
0
1
4


1
4
:
2
2
Chapitre 4
Induction et relation dordre :
lespace des versions
La premire partie de ce livre a t dvolue aux concepts fondamentaux de lapprentis-
sage articiel. Ce chapitre est le premier de ceux destins prsenter des techniques
dapprentissage. Il prsente une mthode gnrale dinduction supervise de concepts
partir dexemples et de contre-exemples.
Lapprentissage de concept a longtemps t envisag uniquement comme une recherche
empirique dune hypothse cohrente avec lchantillon de donnes. La notion des-
pace des versions a profondment renouvel cette manire de voir. De fait, lespace
des versions nest rien dautre que lensemble de toutes les hypothses, prises dans un
ensemble H donn a priori, qui sont cohrentes avec les donnes dapprentissage. Cet
ensemble est en gnral trop grand pour tre manipul tel quel, mais il se trouve que
si une relation de gnralit entre hypothses peut tre dnie sur H, alors il devient
possible de dnir deux ensembles nis S et G qui ont la proprit de dnir implici-
tement tous les concepts cohrents, cest--dire lespace des versions. Lapprentissage
revient alors construire et adapter ces deux ensembles frontire : cest ce que fait
lalgorithme dlimination des candidats.
Ce chapitre constitue un pivot entre les chapitres conceptuels et les chapitres plus
appliqus. Il nous permettra dexaminer un exemple clair darticulation entre la notion
despace des hypothses cohrentes discutes dans le chapitre 2 et les principes des
mthodes dexploration de lespace des hypothses exposs dans le chapitre 3.
C
e

d
o
c
u
m
e
n
t

e
s
t

l
a

p
r
o
p
r
i


e
x
c
l
u
s
i
v
e

d
e

O
l
i
v
i
e
r

B
E
R
N
H
A
R
D

(
o
l
i
v
i
e
r
.
s
i
m
p
l
e
l
i
f
e
@
g
m
a
i
l
.
c
o
m
)

-

1
2

m
a
i

2
0
1
4


1
4
:
2
2
138
Sommaire
1 Les concepts de base . . . . . . . . . . . . . . . . . . . . . . . . . . . . 140
1.1 La description des attributs, la description des concepts . . . . . . . . . 140
1.2 Les slecteurs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 141
1.3 La relation de gnralit entre les hypothses . . . . . . . . . . . . . . . 142
1.4 La relation entre un objet et un concept . . . . . . . . . . . . . . . . . . 143
2 La structuration de lespace des hypothses . . . . . . . . . . . . . . 144
2.1 Prliminaires . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 144
2.2 Un ordre partiel sur lespace des hypothses . . . . . . . . . . . . . . . . 146
2.3 Quelques oprateurs de spcialisation et de gnralisation . . . . . . . . 147
2.4 Quelques proprits utiles dun espace structur par une relation dordre
partiel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 149
3 La construction de lespace des versions . . . . . . . . . . . . . . . . . 152
3.1 Lalgorithme dlimination des candidats . . . . . . . . . . . . . . . . . . 152
3.2 Un exemple dapplication : le systme LEX . . . . . . . . . . . . . . . . 155
4 La reprsentation des connaissances par un treillis de Galois . . . . 156
4.1 La construction de la structure . . . . . . . . . . . . . . . . . . . . . . . 156
4.2 Lutilisation pour lapprentissage . . . . . . . . . . . . . . . . . . . . . . 158
V
oici un petit problme dapprentissage. Jai devant moi quatre oiseaux, deux ca-
nards et deux manchots. Les attributs suivants sont susants pour les dcrire : la
Forme de leur bec, leur Taille, leur Envergure et la Couleur de leur cou. Le premier
nous indique si le bec est Aplati ou non, les deux suivants se mesurent en centimtres
et le dernier peut prendre les valeurs Roux, Orange, Gris ou Noir. Ces oiseaux sont tiquets
soit + (les canards), soit (les manchots) et je veux apprendre un concept cohrent avec les
exemples, une formule qui explique tous les canards et rejette tous les manchots.
Je me donne un langage de reprsentation pour les concepts : je vais les crire comme une
conjonction de certaines proprits sur les attributs. Par exemple, la formule logique suivante :
[Aplati = V RAI] Taille [30, 50] Envergure ] , +[[Couleur = CouleurChaude]
est un concept qui reprsente lensemble des oiseaux dont le bec est de la forme Aplati, dont la
taille est comprise entre 30 cm et 50 cm, dont lenvergure est indirente et dont la couleur du
cou est soit Roux, soit Orange. Ce qui peut scrire, dans une syntaxe plus lgre, comme :
(V RAI, [30, 50], ?, CouleurChaude)
Je me trouve devant ces quatre oiseaux que je vais examiner les uns aprs les autres. Ils sont
reprsents par le tableau suivant :
Aplati Taille Envergure Couleur Classe
e
1
= V RAI 30 49 Roux + (canard)
e
2
= FAUX 70 32 Gris (manchot)
e
3
= V RAI 40 46 Orange + (canard)
e
2
= FAUX 60 33 Orange (manchot)
PARTIE 2 : Apprentissage par exploration
C
e

d
o
c
u
m
e
n
t

e
s
t

l
a

p
r
o
p
r
i


e
x
c
l
u
s
i
v
e

d
e

O
l
i
v
i
e
r

B
E
R
N
H
A
R
D

(
o
l
i
v
i
e
r
.
s
i
m
p
l
e
l
i
f
e
@
g
m
a
i
l
.
c
o
m
)

-

1
2

m
a
i

2
0
1
4


1
4
:
2
2
Chapitre 4 Induction et relation dordre : lespace des versions 139
Je commence par le premier exemple, un canard. Comment crire, dans le langage des concepts,
une hypothse de gnralisation compatible pour le moment avec lui seul ? Pourquoi pas juste-
ment :
(V RAI, [30, 50], ?, CouleurChaude)
Mais si je veux tre prudent, je peux aussi produire le concept qui se contente de mmoriser ce
premier exemple :
(V RAI, [30, 30], [49, 49], Roux)
Je dispose galement dune solution radicalement inverse, induire le concept universel :
(V RAI FAUX)] , +[] , +[Couleur = ( ?, ?, ?, ?)
qui signie que jaccepte partir de cet exemple unique de considrer comme cohrents tous les
oiseaux que peut dcrire mon langage des hypothses.
Si je considre maintenant le second exemple, il est clair que cette dernire possibilit doit
tre limine puisquelle couvre dsormais un contre-exemple. Je peux la couper au ras de
ce contre-exemple
1
selon lun des attributs. Il y a six solutions, parmi lesquelles :
v
1
= ( ? , ] , 49], ? , ?)
v
t
1
= ( ? , ? , ? , CouleurChaude)
Je peux aussi conserver ma politique prudente et produire :
v
2
= (V RAI, [30, 30], [49, 49], Roux)
qui est toujours cohrent vis--vis de mes deux exemples. Jaurais aussi pu gnrer, entre autres :
v
3
= ( ?, ] , 31], ? , ?)
v
4
= (V RAI, [0, 35], [46, +[, Roux)
Il est intuitif de vrier que le concept v
1
est plus gnral que v
4
et v
2
, et que de mme v
4
est
plus gnral que v
2
. En revanche, bien que v
3
soit apparemment un concept trs vaste, on ne
peut pas dire quil soit plus gnral que v
4
: il ne contient pas lobjet [V RAI, 33, 50, Roux] que
v
4
contient.
Cet exercice sera termin plus loin ; la notion intuitive de concept plus gnral quun
autre sera formalise. Pour le moment, retenons quelques principes qui gouvernent cette faon
de procder :
Une formule du langage des concepts dcrit un ensemble dobjets (ici, doiseaux).
Les concepts sont relis entre eux par une relation de gnralit, qui rete linclusion des
ensembles dobjets quils reprsentent.
Le nombre de concepts cohrents avec les exemples est trs grand (ou inni, si la taille des
objets nest pas mesure en nombres entiers).
Les exemples sont introduits les uns aprs les autres et chaque fois lensemble courant
dhypothses se modie pour quelles restent cohrentes avec les exemples dj examins.
1
Cest--dire exclure ce contre-exemple et le minimum de ce que le langage des hypothses impose dexclure
avec lui.
C
e

d
o
c
u
m
e
n
t

e
s
t

l
a

p
r
o
p
r
i


e
x
c
l
u
s
i
v
e

d
e

O
l
i
v
i
e
r

B
E
R
N
H
A
R
D

(
o
l
i
v
i
e
r
.
s
i
m
p
l
e
l
i
f
e
@
g
m
a
i
l
.
c
o
m
)

-

1
2

m
a
i

2
0
1
4


1
4
:
2
2
140 PARTIE 2 : Apprentissage par exploration
Ce chapitre a pour objet de formaliser ces notions, en particulier grce lintroduction dune
relation dordre dans lespace des concepts. Il va aussi montrer quil est possible de calculer, en
traitant squentiellement les exemples, deux ensembles nis S et G de concepts partir desquels
on peut dduire tous ceux qui acceptent les exemples et refusent les contre-exemples.
Notations utiles pour le chapitre
H Lensemble de toutes les hypothses, choisi par lapprenant
L
.
Le langage de description des exemples
L
1
Le langage de description des hypothses
couverture(h) Lensemble des exemples couverts par lhypothse h
_ . . . est plus spcique que . . .
_ . . . est plus gnral que . . .
Llment maximal de H
Llment minimal de H
hps Lhypothse la plus spcique cohrente avec un ensemble dexemples
hpg Lhypothse la plus gnrale cohrente avec un ensemble dexemples
La disjonction logique
La conjonction logique
gen
Un oprateur de gnralisation
spe
Un oprateur de spcialisation
1. Les concepts de base
1.1 La description des attributs, la description des concepts
Nous disposons dun ensemble dapprentissage de m exemples o = (x
i
, u
i
), i = 1, m), avec u
i
valant soit V RAI ou + (exemple du concept apprendre), soit FAUX ou (contre-exemple).
Lensemble des exemples positifs est not o
+
, celui des exemples ngatifs o

. Les valeurs x
sont prises dans un espace de reprsentation
2
A, qui est une combinaison dattributs de nature
diverse. Nous considrons ici que les attributs peuvent tre :
Binaires : le bec dun oiseau est Aplati ou non.
Numriques comme lEnvergure.
Nominaux comme la Couleur. En gnral, un attribut nominal est simplement une num-
ration de valeurs possibles comme Couleur = Rouge, Orange, Gris, Noir. Cet ensemble
de valeurs possibles sappelle un domaine. Mais une hirarchie peut exister sur ces valeurs,
comme dans notre exemple dintroduction :
CouleurChaude = Rouge, Orange,
CouleurFroide = Gris, Noir et
Couleur = CouleurChaude, CouleurFroide.
On sait dans ce cas que lattribut est appel arborescent (voir le chapitre 3 et la gure 4.1).
2
Lespace de reprsentation est not LI (pour Language of Instances) dans la terminologie originale de lespace
des versions.
C
e

d
o
c
u
m
e
n
t

e
s
t

l
a

p
r
o
p
r
i


e
x
c
l
u
s
i
v
e

d
e

O
l
i
v
i
e
r

B
E
R
N
H
A
R
D

(
o
l
i
v
i
e
r
.
s
i
m
p
l
e
l
i
f
e
@
g
m
a
i
l
.
c
o
m
)

-

1
2

m
a
i

2
0
1
4


1
4
:
2
2
Chapitre 4 Induction et relation dordre : lespace des versions 141
Fig. 4.1: Lattribut Couleur est arborescent.
On cherche apprendre des hypothses, ou concepts, qui sont des lments crits dans L
1
, le
langage des hypothses
3
(voir le chapitre 1). Le langage L
1
peut tre dni de faons varies,
mais nous pouvons dj donner un exemple : le langage de la logique des propositions sur des
slecteurs, qui est apparu informellement dans lexemple dintroduction.
1.2 Les slecteurs
Il est frquent dans lapprentissage par lespace de versions que le langage L
1
choisi pour
reprsenter les concepts soit, comme dans lexemple liminaire, une partie de la logique des pro-
positions. Plus prcisment, il sagit souvent dune conjonction de proprits binaires sur les
attributs des exemples. On appelle slecteurs ces proprits, que lon peut dnir ainsi :
Dnition 4.1
Un slecteur est une application agissant sur un seul attribut de lespace de reprsentation des
donnes, valeurs dans {VRAI, FAUX}.
Selon la nature des attributs, un slecteur prend des formes direntes :
Si lattribut est binaire, le slecteur scrit (attribut = V RAI) ou (attribut = FAUX) ; sa
valeur V RAI ou FAUX se dduit directement de celle de lattribut.
Si lattribut est nominal de domaine D, le slecteur scrit (attribut D
t
), avec D
t
D. Il
est V RAI si lattribut prend une valeur de D
t
, FAUX sinon.
Si lattribut est arborescent, le slecteur scrit (attribut = V ), o V est une valeur attache
un nud de larbre. Il est V RAI si la valeur de lattribut est un nud compris au sens
large entre V et une feuille de larbre.
Si lattribut est numrique, le slecteur est dni par un intervalle de R. Il est V RAI si la
valeur est incluse dans cet intervalle, bornes comprises.
Exemple
Pour revenir notre exemple de dpart, le concept :
[Aplati = V RAI]Hauteur [30, 50]Largeur ], +[[Couleur = CouleurChaude]
qui scrit de manire simplie :
(V RAI, [30, 50], ?, CouleurChaude)
3
Dans le vocabulaire classique de lespace des versions, le langage des hypothses est souvent not LG (pour
Language of Generalizations).
C
e

d
o
c
u
m
e
n
t

e
s
t

l
a

p
r
o
p
r
i


e
x
c
l
u
s
i
v
e

d
e

O
l
i
v
i
e
r

B
E
R
N
H
A
R
D

(
o
l
i
v
i
e
r
.
s
i
m
p
l
e
l
i
f
e
@
g
m
a
i
l
.
c
o
m
)

-

1
2

m
a
i

2
0
1
4


1
4
:
2
2
142 PARTIE 2 : Apprentissage par exploration
est compos dune conjonction de quatre slecteurs, un pour chaque attribut. Lattribut
Aplati est binaire, Taille et Envergure sont numriques et Couleur est arborescent, comme
le montre la gure 4.1. Sur lobjet :
Bec Aplati Taille Envergure Couleur du cou
V RAI 60 46 noir
Le premier slecteur est V RAI, le second est FAUX, le troisime est V RAI et le quatrime
est FAUX.
1.3 La relation de gnralit entre les hypothses
Nous avons vu dans la section 5, que linduction supervise pouvait tre considre comme
un jeu entre lespace des exemples et lespace des hypothses. Le processus dapprentissage teste
les hypothses candidates de H sur les exemples dapprentissage dans A. Les informations ainsi
glanes servent dterminer dautres hypothses candidates, et ainsi de suite jusquau critre
darrt.
Nous supposons ici que les exemples dapprentissage sont considrs squentiellement, donc
qu ltape t lapprenant a fabriqu une hypothse candidate h
t
cohrente avec lchantillon
dapprentissage partiel o
t
. Un nouvel exemple dapprentissage z
t+1
= (x
t+1
, u
t+1
), avec u
t+1

V RAI, FAUX devient alors disponible. Il y a deux possibilits : soit il est correctement class
par lhypothse courante h
t
, donc h
t
(x
t+1
) = u
t+1
, auquel cas il ny a pas de raison de modier
h
t
et lon a simplement h
t+1
= h
t
, soit x
t+1
nest pas correctement class par h
t
. Deux cas sont
alors possibles.
Lexemple est de classe ngative, cest un contre-exemple du concept cible, et il est incorrec-
tement class comme positif par h
t+1
. Cela signie que la partie de A couverte par h
t+1
est trop grande, au moins en ce qui concerne le point x
t+1
, (donc que le concept courant
nest plus correct). Il faut donc la rduire, cest--dire chercher une sous-partie excluant x
t+1
mais couvrant encore tous les exemples positifs de o
t
.
Au contraire, x
t+1
est de classe positive, et il est incorrectement class comme ngatif par
h
t+1
. Dans ce cas, cela signie que la partie de A couverte par h
t+1
est trop petite, au
moins en ce qui concerne le point x
t+1
(donc que le concept courant nest plus complet). Il
faut donc laugmenter, cest--dire chercher une sur-partie incluant x
t+1
mais ne couvrant
aucun des exemples ngatifs de o
t
(voir la gure 4.2).
Dans les deux cas, il est patent que lhypothse courante doit tre modie en fonction des
relations dinclusion dans A. Il faut donc trouver une relation entre les hypothses dans H qui
respecte la relation dinclusion dans A. On parle de relation de gnralit entre les hypothses.
Plus formellement, nous dirons quune hypothse h
1
est plus spcique ou encore moins gn-
rale quune hypothse h
2
si et seulement si lensemble des exemples couverts par h
1
est inclus
dans lensemble des exemples couverts par h
2
.
Dnition 4.2 (Couverture dune hypothse)
La couverture dune hypothse h H, note couverture(h), est lensemble des exemples de A
que dcrit h. On dit que h couvre les lments de couverture(h).
Dnition 4.3 (Relation de gnralit dans H)
Une hypothse h
1
est plus spcique (ou moins gnrale) quune hypothse h
2
, ce qui se note
h
1
_ h
2
, si et seulement si couverture(h
1
) couverture(h
2
).
C
e

d
o
c
u
m
e
n
t

e
s
t

l
a

p
r
o
p
r
i


e
x
c
l
u
s
i
v
e

d
e

O
l
i
v
i
e
r

B
E
R
N
H
A
R
D

(
o
l
i
v
i
e
r
.
s
i
m
p
l
e
l
i
f
e
@
g
m
a
i
l
.
c
o
m
)

-

1
2

m
a
i

2
0
1
4


1
4
:
2
2
Chapitre 4 Induction et relation dordre : lespace des versions 143
Fig. 4.2: Lorsquun nouvel exemple est mal class par lhypothse courante, il faut modier celle-
ci soit en la rduisant au sens de linclusion (a) an dexclure le nouvel exemple sil est
ngatif, soit en laugmentant (b) sil est positif.
Remarque : Cette relation est prendre au sens large : toute hypothse est plus spcique
quelle-mme.
Les relations _ et _ sur H sont illustres dans les gures 4.3 et 4.4.
X
H
Gnral
Spcifique
Fig. 4.3: La relation dinclusion dans A induit la relation de gnralisation dans H. Ici, h
t+1
_
h
t
.
1.4 La relation entre un objet et un concept
Nous nous situons dans ce chapitre dans le cadre du principe inductif MRE, qui a t dcrit au
chapitre 2. Cela signie que chaque hypothse sera value en fonction de sa performance mesure
sur lchantillon dapprentissage, cest--dire de son risque empirique. La mthode de base de
lespace des versions traite de plus le cas du risque empirique nul, cest--dire quelle recherche
C
e

d
o
c
u
m
e
n
t

e
s
t

l
a

p
r
o
p
r
i


e
x
c
l
u
s
i
v
e

d
e

O
l
i
v
i
e
r

B
E
R
N
H
A
R
D

(
o
l
i
v
i
e
r
.
s
i
m
p
l
e
l
i
f
e
@
g
m
a
i
l
.
c
o
m
)

-

1
2

m
a
i

2
0
1
4


1
4
:
2
2
144 PARTIE 2 : Apprentissage par exploration
X
H
Gnral
Spcifique
Fig. 4.4: La relation dinclusion dans A induit la relation de gnralisation dans H. Ici, h
t+1
_
h
t
.
les hypothses cohrentes
4
, saccordant parfaitement aux donnes, cest--dire ne faisant aucune
erreur sur les exemples dapprentissage.
Dnition 4.4 (Hypothse cohrente, correcte, complte)
Lorsque le risque empirique associ une hypothse est nul, on dit que lhypothse est cohrente.
Cela signie :
1. Que tous les exemples positifs de lchantillon dapprentissage sont correctement tiquets
par lhypothse : on dit aussi que lhypothse couvre tous les exemples positifs. Lhypo-
thse est alors dite complte.
2. Que tous les exemples ngatifs sont correctement classs par lhypothse, cest--dire rejets
comme ne faisant pas partie du concept. On dit alors que lhypothse ne couvre pas les
exemples ngatifs : elle est dite correcte.
La gure 4.5 illustre ces notions. Si lon suppose que les exemples tiquets sont issus dun
concept cible, un risque empirique nul signie que, sur lchantillon dapprentissage au moins, le
concept cible et lhypothse considre concident.
2. La structuration de lespace des hypothses
2.1 Prliminaires
Dans sa version de base, la mthode de lespace des versions a pour but de rsoudre le problme
suivant :
Trouver tous les lments de H cohrents avec les exemples.
4
Nous vitons ici langlicisme consistant qui est souvent employ. Il se confond souvent avec la consistance
de la mthode MRE, pour laquelle nous employons le mot pertinence (voir le chapitre 2).
C
e

d
o
c
u
m
e
n
t

e
s
t

l
a

p
r
o
p
r
i


e
x
c
l
u
s
i
v
e

d
e

O
l
i
v
i
e
r

B
E
R
N
H
A
R
D

(
o
l
i
v
i
e
r
.
s
i
m
p
l
e
l
i
f
e
@
g
m
a
i
l
.
c
o
m
)

-

1
2

m
a
i

2
0
1
4


1
4
:
2
2
Chapitre 4 Induction et relation dordre : lespace des versions 145
Fig. 4.5: La notion de couverture des exemples (gurs par des +) et des contre-exemples (gu-
rs par des 0) par les hypothses. Les hypothses sont ici gures par le sous-espace des
exemples quelles couvrent dans lespace A. Les hypothses h
1
, h
2
et h
3
sont respecti-
vement complte mais incorrecte, correcte mais incomplte, et complte et correcte,
cest--dire cohrente.
Comme on le verra, la relation de gnralit sur H permet dviter une numeration complte
de ses individus, tout en gardant la possibilit de vrier pour tout concept sil est cohrent ou
non avec les donnes dapprentissage.
Il est noter que cette mthode de base exclut le bruit dans les donnes dapprentissage,
cest--dire quelle ne sait pas traiter le cas o deux objets identiques sont lun tiquet positif,
lautre tiquet ngatif.
Il est commode de supposer que le langage de gnralisation inclut le langage de reprsenta-
tion des exemples : ainsi, chaque exemple peut tre considr comme une hypothse ne couvrant
que cet exemple, qui scrit comme lexemple lui-mme. Cest ce que lon appelle lastuce de la
reprsentation unique (single representation trick). Ce nest pas tout fait le cas du problme
dapprentissage donn en introduction, puisque lexemple :
Bec Aplati Taille Envergure Couleur Classe
e
1
= V RAI 30 49 roux +
scrit dans le langage des concepts de manire un peu dirente :
(V RAI, [30, 30], [49, 49], roux)
Mais la correspondance est assez directe pour que lon puisse ignorer la fonction de transforma-
tion. Il existe des cas o cette transformation est plus complexe
5
.
Pour simplier, nous supposerons dans la suite sans relle perte de gnralit que
L
.
L
1
(4.1)
5
Cest le cas de linfrence de grammaires rgulires que nous verrons au chapitre 7. Dans ce problme, un
exemple est reprsent par une squence de lettres et son apprentissage par cur par un automate qui ne
reconnat que cette squence. Cest encore plus net en programmation logique inductive (chapitre 5), o la
vrication quun concept couvre un exemple se fait par lxcution dun programme Prolog, ce qui est loin
dtre trivial.
C
e

d
o
c
u
m
e
n
t

e
s
t

l
a

p
r
o
p
r
i


e
x
c
l
u
s
i
v
e

d
e

O
l
i
v
i
e
r

B
E
R
N
H
A
R
D

(
o
l
i
v
i
e
r
.
s
i
m
p
l
e
l
i
f
e
@
g
m
a
i
l
.
c
o
m
)

-

1
2

m
a
i

2
0
1
4


1
4
:
2
2
146 PARTIE 2 : Apprentissage par exploration
L
.
est donc identi un sous-ensemble de L
1
, ce que lon peut exprimer dune autre faon :
un exemple est le concept qui gnralise le moins lexemple en question.
2.2 Un ordre partiel sur lespace des hypothses
La relation dinclusion dnie sur A induit une relation de gnralit sur H qui est une relation
dordre partiel. La gure 4.6 illustre cette notion. Cette relation est partielle et non pas totale,
ce qui signie que deux lments quelconques dans lespace considr peuvent ne pas tre lis
par cette relation.
Fig. 4.6: La relation dinclusion dans A induit la relation de gnralisation dans H. Il sagit
dune relation dordre partielle : ici, les hypothses h
2
et h
3
sont incomparables entre
elles, mais elles sont toutes les deux plus spciques que h
1
.
Une relation dordre partiel induit une structure de treillis sur H. Cela signie que pour tout
couple dhypothses h
i
et h
j
, il existe au moins une hypothse qui soit plus gnrale que chacune
dentre elles et quil nest pas possible de la spcier sans perdre cette proprit. Lensemble de
ces hypothses est appel le gnralis maximalement spcique de h
i
et h
j
et not gms(h
i
, h
j
).
De mme, il existe un ensemble dhypothses plus spciques que h
i
et h
j
quil nest pas possible
de gnraliser sans perdre cette proprit. On appelle cet ensemble le spcialis maximalement
gnral et on le note smg(h
i
, h
j
).
Par une extension facile au cas de plus de deux hypothses, on peut dnir de mme un
ensemble gms(h
i
, h
j
, h
k
, . . .) et un ensemble smg(h
i
, h
j
, h
k
, . . .).
Finalement, nous supposons
6
quil existe dans H une hypothse plus gnrale que toutes les
autres (ou lment maximal) note et une hypothse plus spcique que toutes les autres (ou
lment minimal) note (voir la gure 4.7).
Les exemples ainsi que plusieurs gures du chapitre 1 et de ce chapitre montrent clairement que
la relation dinclusion est fondamentale pour le problme de linduction. En eet, une hypothse
incorrecte (donc couvrant indment des exemples ngatifs) devra tre spcialise pour que sa
couverture exclue ces exemples, alors quune hypothse incomplte (ne couvrant pas tous les
exemples positifs connus) devra tre gnralise pour que ces exemples deviennent lments
de sa couverture. Il est donc naturel que le processus dinduction soit guid par ces relations
dinclusion.
6
Cest en gnral le cas en pratique.
C
e

d
o
c
u
m
e
n
t

e
s
t

l
a

p
r
o
p
r
i


e
x
c
l
u
s
i
v
e

d
e

O
l
i
v
i
e
r

B
E
R
N
H
A
R
D

(
o
l
i
v
i
e
r
.
s
i
m
p
l
e
l
i
f
e
@
g
m
a
i
l
.
c
o
m
)

-

1
2

m
a
i

2
0
1
4


1
4
:
2
2
Chapitre 4 Induction et relation dordre : lespace des versions 147
h
i
h
j
gms(h
i
, h
j
)
smg(h
i
, h
j
)
H
Fig. 4.7: Une vision schmatique et partielle du treillis de gnralisation sur H induit par la
relation dinclusion dans A. Chaque che indique la relation de gnralit (note _
dans le texte). Llment le plus spcique du treillis est et le plus gnral est .
Nous avons galement dj soulign dans le chapitre 1 que linduction ncessite une mise jour
des hypothses directement dans H. Comme lespace H des hypothses est dni par son langage
de description L
1
, cela signie quil faut trouver comment associer la relation dinclusion
dans A des oprations syntaxiques sur L
1
correspondant la relation de gnralit. Trouver
des quivalences aux relations dinclusion dans A revient donc trouver des oprateurs dans
le langage L
1
qui permettent de modier une hypothse h
m
en une nouvelle hypothse h
m+1
inclue dans la premire ou lincluant
7
, cest--dire plus spcique ou plus gnrale.
2.3 Quelques oprateurs de spcialisation et de gnralisation
Le problme de la recherche doprateurs syntaxiques de gnralisation ou de spcialisation
sera galement dbattu dans le chapitre 5 portant sur la programmation logique inductive, en
particulier parce que la solution nest pas vidente lorsque lon utilise des reprsentations en
logique des prdicats dite aussi logique dordre 1. Il est en revanche facile dexhiber des exemples
doprateurs satisfaisants dans le cas de reprsentations fondes sur la logique des propositions
et la reprsentation attribut-valeur (voir le chapitre 13). titre dillustration, nous prsentons
quelques-uns de ces oprateurs de gnralisation.
Lopration de gnralisation est note
gen
. Une formule du type A (B = v
1
) ( signie
quun objet couvert par le concept ( est dcrit par la conjonction dun slecteur sur les attri-
buts A (ici avec A binaire) et B (ici avec B nominal ordonn), ce dernier valant v
1
pour B. On
constatera que les gnralisations proposes ne sont videmment pas des oprations logiquement
valides.
7
On tire prot ici de la confusion assume entre la notion de concept et celle de partie de . (voir lquation 4.1)
pour parler de concept inclus dans un autre, alors que la relation dinclusion na, proprement parler, de sens
que pour les catgories qui sont dnies sur ..
C
e

d
o
c
u
m
e
n
t

e
s
t

l
a

p
r
o
p
r
i


e
x
c
l
u
s
i
v
e

d
e

O
l
i
v
i
e
r

B
E
R
N
H
A
R
D

(
o
l
i
v
i
e
r
.
s
i
m
p
l
e
l
i
f
e
@
g
m
a
i
l
.
c
o
m
)

-

1
2

m
a
i

2
0
1
4


1
4
:
2
2
148 PARTIE 2 : Apprentissage par exploration
Oprateur de clture dintervalle
A (B = v
1
) (
A (B = v
2
) (
_
gen
A (B [v
1
, v
2
]) (
Par exemple :
Bec Aplati (Envergure = 50) canard
Bec Aplati (Envergure = 55) canard
_
gen
Bec Aplati (Envergure [50, 55]) canard
Oprateur de lascension dans larbre de hirarchie
Pour gnraliser une description incluant un attribut arborescent, il sut de le remplacer
par lun de ses ascendants dans larbre :
A (B = n
1
) (
A (B = n
2
) (
_
gen
A (B = n) (
o n est le plus petit nud ascendant commun aux nuds n
1
et n
2
. Par exemple :
Bec Aplati (Couleur = roux) canard
Bec Aplati (Couleur = orange) canard
_
gen
Bec Aplati (Couleur = Couleur chaude) canard
Oprateur dabandon de conjonction
A B (
gen
A (
Par exemple : Bec Aplati (Couleur = roux) canard
gen
Bec Aplati canard
Oprateur dajout dalternative
A (
gen
A B (
Par exemple :
Bec Aplati canard
gen
Bec Aplati (Couleur = orange) canard
Oprateur de changement de conjonction en disjonction
A B (
gen
A B (
Par exemple :
Bec Aplati (Couleur = orange) canard
gen
Bec Aplati (Couleur = orange) canard
Chaque oprateur de gnralisation permet de transformer lexpression dune hypothse en lex-
pression dune hypothse plus gnrale, couvrant davantage dlments de lespace des exemples
A. Il est possible de renverser chaque oprateur de gnralisation pour obtenir des oprateurs de
spcialisation qui transforment une hypothse en une hypothse moins gnrale, ou plus spci-
que, couvrant moins dlments de A.
C
e

d
o
c
u
m
e
n
t

e
s
t

l
a

p
r
o
p
r
i


e
x
c
l
u
s
i
v
e

d
e

O
l
i
v
i
e
r

B
E
R
N
H
A
R
D

(
o
l
i
v
i
e
r
.
s
i
m
p
l
e
l
i
f
e
@
g
m
a
i
l
.
c
o
m
)

-

1
2

m
a
i

2
0
1
4


1
4
:
2
2
Chapitre 4 Induction et relation dordre : lespace des versions 149
Ainsi loprateur de gnralisation par monte dans la hirarchie des descripteurs peut fournir
un oprateur de spcialisation par descente dans la hirarchie :
A (B = n) (
spe
A (B = n
1
) (
o n est un nud ascendant du descripteur n
1
.
Bec Aplati (Couleur = Couleur chaude) canard
spe
Bec Aplati (Couleur = roux) canard
Pour rsumer, si un espace dhypothses H est dni par un langage L
1
qui admet des op-
rateurs de spcialisation et de gnralisation, alors il est muni dune structure dordre partiel
associe la relation dinclusion sur lespace des exemples A. De ce fait, elle est particulire-
ment pertinente pour la tche dinduction. Ainsi, la recherche dune hypothse cohrente avec
les exemples dapprentissage peut tre guide par ces oprateurs et tre par consquent beau-
coup plus ecace quune recherche par gradient (chapitre 3). En examinant quelques proprits
de lespace H ainsi muni dune relation dordre, nous allons voir que lavantage peut tre plus
important encore.
2.4 Quelques proprits utiles dun espace structur par une relation dordre
partiel
Rappelons dabord quil ny a gnralement pas bijection entre lespace des hypothses H et
lespace des exemples A : cest ce quimplique lexistence dun biais de reprsentation, cest--dire
les limites de lexpressivit du langage L
1
.
De ce fait, il est important de sassurer que certaines proprits sont vries. Il en est deux
qui nous concernent spcialement. La premire a trait la convexit de H : est-on certain que
lapplication des oprateurs de spcialisation/gnralisation sur des expressions de L
1
produit
toujours des expressions valides qui ont une contrepartie dans A ? En dautres termes, ne risque-
t-on pas, en jouant avec ces oprateurs, de produire des hypothses qui nauraient pas de
sens ? La deuxime proprit est duale de la prcdente : peut-il y avoir des hypothses dans Hqui
sont de fait plus gnrales ou plus spciques quune autre hypothse de H, mais quon ne puisse
pas obtenir partir de celle-ci par une squence doprateurs de spcialisation/gnralisation ? Si
lune ou lautre de ces deux proprits savrait non vrie (voir gure 4.8), alors lexploration
de H par lapplication des oprateurs pourrait conduire des rsultats aberrants : soit des
hypothses sans signication dans A, soit au contraire la non production dhypothses pertinentes
de H. Heureusement, ces deux proprits peuvent tre obtenues. Plus formellement :
Dnition 4.5 (Ensemble convexe pour la gnralisation)
Un ensemble E dont les lments sont reprsentables dans un langage L
1
est convexe si et
seulement si :
Pour tous h
1
, h
2
, h
3
tels que h
1
, h
3
E, et h
1
_ h
2
_ h
3
alors h
2
E
Proprit 4.1 (Thorme de convexit [Hir90])
Lensemble des hypothses H dni par un langage L
1
sur lequel sont dnis des oprateurs de
spcialisation/gnralisation est convexe.
C
e

d
o
c
u
m
e
n
t

e
s
t

l
a

p
r
o
p
r
i


e
x
c
l
u
s
i
v
e

d
e

O
l
i
v
i
e
r

B
E
R
N
H
A
R
D

(
o
l
i
v
i
e
r
.
s
i
m
p
l
e
l
i
f
e
@
g
m
a
i
l
.
c
o
m
)

-

1
2

m
a
i

2
0
1
4


1
4
:
2
2
150 PARTIE 2 : Apprentissage par exploration

Fig. 4.8: Un exemple densemble non convexe pour la relation de gnralit.


Dnition 4.6 (Ensemble born pour la gnralisation)
Un ensemble C dhypothses dcrits par un langage L
1
est born si et seulement si pour tout h
dans C il existe une hypothse g maximalement gnrale dans C et une hypothse s maximalement
spcique dans C telles que s _ h _ g.
Il nest pas possible de garantir la proprit dtre born pour tout ensemble dcrit sur un
langage L
1
muni doprateurs de spcialisation/gnralisation. Cest donc une contrainte quil
faut chaque fois vrier ou imposer si besoin. Cette contrainte est en gnral vrie sur les
langages dordre 0 (logique des propositions), elle demande par contre des soins particuliers en
logique dordre 1 (logique des prdicats).
Si les deux proprits prcdentes sont vraies, alors une troisime proprit, fondamentale pour
la suite, en dcoule.
Dnition 4.7 (S : Les hypothses cohrentes maximalement spciques)
Lensemble des hypothses de H couvrant les exemples positifs et excluant les exemples ngatifs,
et telles quil ne soit pas possible de les spcialiser sans perdre ces proprits, est appel le S-set.
Nous le noterons S dans la suite.
Dnition 4.8 (G : Les hypothses cohrentes maximalement gnrales)
Lensemble des hypothses de H couvrant les exemples positifs et excluant les exemples ngatifs,
et telles quil ne soit pas possible de les gnraliser sans perdre ces proprits, est appel le G-set.
Nous le noterons G dans la suite.
Thorme 4.1 (Reprsentation de lespace des versions par S et G [Hir90])
Si un ensemble dhypothses est convexe et born, alors il peut tre reprsent par sa borne
infrieure S et sa borne suprieure G.
Dnition 4.9 (Espace des versions)
Lensemble de toutes les hypothses cohrentes avec les exemples dapprentissage est appel lespace
des versions.
Le thorme (4.1) prouve que lespace des versions peut tre reprsent de manire conomique
par ses bornes S et G.
C
e

d
o
c
u
m
e
n
t

e
s
t

l
a

p
r
o
p
r
i


e
x
c
l
u
s
i
v
e

d
e

O
l
i
v
i
e
r

B
E
R
N
H
A
R
D

(
o
l
i
v
i
e
r
.
s
i
m
p
l
e
l
i
f
e
@
g
m
a
i
l
.
c
o
m
)

-

1
2

m
a
i

2
0
1
4


1
4
:
2
2
Chapitre 4 Induction et relation dordre : lespace des versions 151
Cette proprit a trois corollaires essentiels :
1. tout instant, lensemble des hypothses cohrentes avec un ensemble dexemples dap-
prentissage est reprsentable par une borne infrieure (un ensemble dhypothses S) et
une borne suprieure (un ensemble dhypothses G) : toute hypothse comprise entre un
lment de S et un lment de G est cohrente.
2. Un algorithme dapprentissage peut oprer en calculant ces deux bornes, et donc en calcu-
lant lensemble des hypothses cohrentes. Il sagit l dune ide novatrice par rapport aux
algorithmes dapprentissage recherchant une hypothse cohrente par modication incr-
mentale dune hypothse initiale.
3. Il nexiste donc pas de concept cohrent moins spcique quun lment de G ou plus
spcique quun lment de S.
En considrant un exemple comme une hypothse, grce la relation L
.
L
1
(quation 4.1),
nous pouvons donc remarquer que S est un sous-ensemble du gms de lensemble des exemples
positifs (on ne peut rien dire daussi simple sur G). Nous allons voir lapplication de cette ide
dans lalgorithme dlimination des candidats propos par T. Mitchell [Mit82].
Fig. 4.9: Cette gure schmatise les dirents cas possibles lors de la mise jour des ensembles
S et G par lalgorithme dlimination des candidats. Les cas (a), (b), (c) et (d) corres-
pondent la mise jour de S pour tenir compte dun exemple positif. On suppose ici
quun lment de S ne couvre pas ce nouvel exemple et doit tre gnralis. Les ches
en pointills illustrent le cas o quatre directions de gnralisations seraient possibles.
La direction (b) doit tre limine car elle correspond une surgnralisation : lhypo-
thse produite est en eet plus gnrale quune hypothse de G et doit donc couvrir des
exemples ngatifs. Lhypothse (d) doit galement tre carte car elle est plus gnrale
quune autre hypothse de S qui est cohrente avec les exemples. Il reste donc les hy-
pothses (a) et (c) qui remplaceront lancienne hypothse dans S. Les cas (a), (b) et
(d) illustrent des cas duaux dans le cas de la mise jour de lensemble G pour tenir
compte dun nouvel exemple ngatif.
C
e

d
o
c
u
m
e
n
t

e
s
t

l
a

p
r
o
p
r
i


e
x
c
l
u
s
i
v
e

d
e

O
l
i
v
i
e
r

B
E
R
N
H
A
R
D

(
o
l
i
v
i
e
r
.
s
i
m
p
l
e
l
i
f
e
@
g
m
a
i
l
.
c
o
m
)

-

1
2

m
a
i

2
0
1
4


1
4
:
2
2
152 PARTIE 2 : Apprentissage par exploration
3. La construction de lespace des versions
Nous allons voir maintenant comment construire S et G partir des exemples, et nous vri-
erons que tout lment de lespace des versions est plus spcique quun certain lment de G
et moins spcique quun certain lment de S.
3.1 Lalgorithme dlimination des candidats
Lapprentissage par lespace des versions est associ un algorithme de construction des solu-
tions, appel llimination des candidats (algorithme 1).
Il procde de manire itrative, exemple par exemple, en mettant jour S et G. Sa convergence
est assure par un thorme (non dmontr ici) qui prouve quun seul examen de chaque exemple
sut et que lordre de prsentation des exemples ninue pas sur le rsultat de lalgorithme.
Algorithme 1 : Algorithme dlimination des candidats.
Rsultat : Initialiser G comme lhypothse la plus gnrale de H
Initialiser S comme lhypothse la moins gnrale de H
pour chaque exemple x faire
si x est un exemple positif alors
Enlever de G toutes les hypothses qui ne couvrent pas x
pour chaque hypothse s de S qui ne couvre pas x faire
Enlever s de S
Gnraliser(s,x,S)
cest--dire : ajouter S toutes les gnralisations minimales h de s telles que :
h couvre x et
il existe dans G un lment plus gnral que h
Enlever de S toute hypothse plus gnrale quune autre hypothse de S
n
sinon
/* x est un exemple ngatif */
Enlever de S toutes les hypothses qui couvrent x
pour chaque hypothse g de G qui couvre x faire
Enlever g de G
Spcialiser(g,x,G)
cest--dire : ajouter G toutes les spcialisations maximales h de g telles que :
h ne couvre pas x et
il existe dans S un lment plus spcique que h
Enlever de G toute hypothse plus spcique quune autre hypothse de G
n
n si
n
Cet algorithme gre deux procdures Generaliser(s,x,G) et Specialiser(g,x,S), qui se-
ront utilises pour remplacer dans G (respescivement S) un concept devenant trop spcique
(respectivement trop gnral) par un ou plusieurs autres concepts permettant de respecter les
contraintes de consistance. Ces procdures se dnissent grce aux notions de spcialisation
minimale et de gnralisation minimale. La gure 4.9 illustre les dirents cas qui peuvent se
rencontrer lors de la mise jour des bornes S et G par lalgorithme dlimination des candidats.
C
e

d
o
c
u
m
e
n
t

e
s
t

l
a

p
r
o
p
r
i


e
x
c
l
u
s
i
v
e

d
e

O
l
i
v
i
e
r

B
E
R
N
H
A
R
D

(
o
l
i
v
i
e
r
.
s
i
m
p
l
e
l
i
f
e
@
g
m
a
i
l
.
c
o
m
)

-

1
2

m
a
i

2
0
1
4


1
4
:
2
2
Chapitre 4 Induction et relation dordre : lespace des versions 153
Il est donc dmontr que cet algorithme itratif remplit le but x : il permet de trouver S et
G. partir de l il autorise la caractrisation de tous les concepts cohrents avec les exemples.
Exemple Les oiseaux
Gnralisation et spcialisation minimale
Dans lexemple des canards et des manchots, les oprations de spcialisation et de gnrali-
sation ont une dnition naturelle. Soit le concept :
v
1
= (Bec Aplati = ? , Taille [0, 60], Envergure [33, +[, Couleur = Couleur chaude)
et le contre-exemple (on ne rpte pas les noms des attributs) :
e
4
= (FAUX, 60, 38, orange)
Il y a quatre possibilits de spcialisation minimale de v
1
vis--vis de e
4
:
( V RAI , [0, 60], [33, +[, Couleur chaude)
( ? , [0, 59], [33, +[, Couleur chaude)
( ? , [0, 60], [39, +[, Couleur chaude)
( ? , [0, 60], [33, +[, roux)
Pour le concept :
v
4
= (V RAI, [0, 59], [46, +[, roux)
et lexemple :
(FAUX, 60, 47, orange)
on obtient la gnralisation minimale :
(?, [0, 60], [47, +[, Couleur chaude)
Droulement de lalgorithme
Pour simplier, nous allons liminer le troisime attribut, lEnvergure. Les donnes dappren-
tissage sont donc les suivantes :
Bec Aplati Taille Couleur Classe
e
1
= V RAI 30 roux +
e
2
= FAUX 70 gris
e
3
= V RAI 40 orange +
e
4
= FAUX 60 orange
DEBUT
Initialisation
G = (?, ?, ?)
S =
Lecture de e
1
= ((V RAI, 30, roux), +)
On gnralise minimalement S pour couvrir e
1
:
S = (V RAI, [30, 30], roux)
G est inchang : G = (?, ?, ?)
Lecture de e
2
= ((FAUX, 70, gris), )
S est inchang : S = (V RAI, [30, 30], roux)
C
e

d
o
c
u
m
e
n
t

e
s
t

l
a

p
r
o
p
r
i


e
x
c
l
u
s
i
v
e

d
e

O
l
i
v
i
e
r

B
E
R
N
H
A
R
D

(
o
l
i
v
i
e
r
.
s
i
m
p
l
e
l
i
f
e
@
g
m
a
i
l
.
c
o
m
)

-

1
2

m
a
i

2
0
1
4


1
4
:
2
2
154 PARTIE 2 : Apprentissage par exploration
Il y a quatre spcialisations minimales de G pour rejeter e
2
:
( V RAI , ?, ?)
( ? , [0, 69], ?)
( ? , [71, +[, ?)
( ?, ?, Couleur chaude)
On ajoute G les trois hypothses pour lesquelles il existe dans S un lment plus
spcique.
G = ( V RAI , ?, ?),
( ? , [0, 69], ?)
( ?, ?, Couleur chaude)
Lecture de e
3
= ((V RAI, 40, orange), +)
On gneralise minimalement S pour couvrir e
3
S = (V RAI, [30, 40], Couleur chaude)
G est inchang.
Lecture de e
4
= ((FAUX, 60, orange), )
On essaie de spcialiser chaque lment de G par rapport e
4
.
Le premier lment ne couvre pas e
4
.
Les deux suivants donnent chacun 4 concepts possibles :
Spcialisations minimales de ( ? , [0, 69], ?) pour rejeter (FAUX, 60, orange) :
( V RAI , [0, 69], ?)
( ? , [0, 59], ?)
( ? , [61, 69], ?)
( ? , ?, Couleur froide)
Spcialisations minimales de ( ?, ?, Couleur chaude) pour rejeter (FAUX, 60, orange) :
( V RAI , ?, Couleur chaude)
(? , [0, 59], Couleur chaude)
(? , [61, +[, Couleur chaude)
(? , ?, roux)
On ajoute G les spcialisations pour lesquelles il existe dans S un lment plus
spcique. Finalement, en ne conservant que le concept le plus gnral quand il en
existe deux en relation de gnralit, G comporte les deux lments suivants :
G = ( V RAI , ?, ?), ( ? , [0, 59], ? )
S est inchang : S = (V RAI, [30, 40], Couleur chaude)
FIN
Tout concept plus gnral que le seul lment de S et plus spcique quun des deux
lments de G est solution. Voici trois concepts valides :
(V RAI, [30, 55], ?)
(V RAI, [0, 59], Couleur chaude)
(?, [0, 42], ?)
C
e

d
o
c
u
m
e
n
t

e
s
t

l
a

p
r
o
p
r
i


e
x
c
l
u
s
i
v
e

d
e

O
l
i
v
i
e
r

B
E
R
N
H
A
R
D

(
o
l
i
v
i
e
r
.
s
i
m
p
l
e
l
i
f
e
@
g
m
a
i
l
.
c
o
m
)

-

1
2

m
a
i

2
0
1
4


1
4
:
2
2
Chapitre 4 Induction et relation dordre : lespace des versions 155
3.2 Un exemple dapplication : le systme LEX
Le systme Lex a t dvelopp par Tom Mitchell en 1983 pour apprendre automatiquement
les conditions dutilisation des oprateurs mathmatiques permettant de calculer la primitive
dexpressions mathmatiques. Cest exactement ce quoi les lves des classes prparatoires aux
grandes coles passent beaucoup de temps. Au dbut, on leur donne un ensemble de recettes
que lon appelle ici des oprateurs OP. Par exemple (r et c sont ici de constantes) :
Sortie des constantes de multiplication OP
1
:
_
r f(x) dx = r
_
f(x) dx
Rgle dintgration par parties OP
2
:
_
u dv = uv
_
v du
Rgle de lidentit OP
3
: 1 f(x) = f(x)
Lintgrale dune somme est la somme
des intgrales
OP
4
:
_
[f
1
(x) + f
2
(x)] dx =
_
f
1
(x) dx +
_
f
2
(x) dx
Primitive de la fonction sin(x) OP
5
:
_
sin(x) dx = cos(x) + c
Primitive de la fonction cos(x) OP
6
:
_
cos(x) dx = sin(x) + c
Rgle dintgration des fonctions puis-
sance
OP
7
:
_
x
n
dx =
x
n+1
n+1
+ c
Au dbut de leur apprentissage, les lves connaissent ces rgles mais ne savent pas exactement
dans quel contexte il est judicieux dappliquer chacune dentre elles. De ce fait, ils mettent
beaucoup de temps rsoudre les problmes car ils se perdent dans de nombreuses impasses. Au
fur et mesure de leur entranement, ils apprennent appliquer ces rgles juste au moment o
elles font progresser vers la solution. Cest ce type dapprentissage quessaie de simuler le systme
Lex.
Fig. 4.10: Une taxonomie des fonctions de base telle que celle employe par le systme Lex.
Au dbut de son apprentissage, le systme connat un ensemble doprateurs dintgration sym-
boliques tels que ceux donns plus haut. Il est galement dot dune taxonomie sur les concepts
de fonctions mathmatiques (voir gure 4.10). Le systme suit alors un cycle qui est schmatis
sur la gure 4.11. chaque cycle, un module fournit un exercice rsoudre. Un systme de
rsolution de problme tente alors de trouver une solution en enchanant des oprateurs din-
tgration. Cela fournit un arbre de rsolution qui peut aboutir une solution ou un chec
(par exemple si le systme ne trouve pas de solution avec les ressources calcul alloues). Chaque
utilisation des oprateurs selon une branche ayant men un succs fournit un exemple positif de
lemploi de cet oprateur (en fait, il faut aussi examiner si la solution est optimale). Inversement,
chaque utilisation dun oprateur le long dune branche ayant men un chec correspond une
utilisation errone de cet oprateur et fournit donc un exemple ngatif de contexte dutilisation.
Ces exemples et contre-exemples sont alors fournis un systme dapprentissage utilisant lalgo-
C
e

d
o
c
u
m
e
n
t

e
s
t

l
a

p
r
o
p
r
i


e
x
c
l
u
s
i
v
e

d
e

O
l
i
v
i
e
r

B
E
R
N
H
A
R
D

(
o
l
i
v
i
e
r
.
s
i
m
p
l
e
l
i
f
e
@
g
m
a
i
l
.
c
o
m
)

-

1
2

m
a
i

2
0
1
4


1
4
:
2
2
156 PARTIE 2 : Apprentissage par exploration
Fig. 4.11: Larchitexture gnrale du systme Lex avec le cycle dutilisation.
Fig. 4.12: Un exemple de cycle dapprentissage dans le systme Lex.
rithme dlimination des candidats qui calcule ainsi les bornes S et G dnissant les contextes
dans lesquels il est appropri dutiliser loprateur considr (voir la gure 4.12 pour un exemple
de cycle).
4. La reprsentation des connaissances par un treillis de Galois
4.1 La construction de la structure
Nous nous plaons maintenant dans une situation techniquement un peu dirente de celle
traite par lespace des versions, mais proche dans son esprit. Nous supposons que le langage de
C
e

d
o
c
u
m
e
n
t

e
s
t

l
a

p
r
o
p
r
i


e
x
c
l
u
s
i
v
e

d
e

O
l
i
v
i
e
r

B
E
R
N
H
A
R
D

(
o
l
i
v
i
e
r
.
s
i
m
p
l
e
l
i
f
e
@
g
m
a
i
l
.
c
o
m
)

-

1
2

m
a
i

2
0
1
4


1
4
:
2
2
Chapitre 4 Induction et relation dordre : lespace des versions 157
reprsentation est purement binaire, cest--dire que chaque exemple ou contre-exemple se dcrit
par un ensemble de rponses V RAI ou FAUX des tests quon lui pose. Par exemple :
x
1
vole
x
2
a des plumes
x
3
pond des ufs
x
4
mammifre
x
5
nage sous leau
Sur cette reprsentation, un ensemble dobjets o = s
1
, s
2
, s
3
, s
4
peut tre dcrit par le
tableau suivant :
x
1
x
2
x
3
x
4
x
5
commentaire
s
1
1 1 1 0 0 oie
s
2
0 0 1 1 1 ornithorynque
s
3
1 0 0 1 0 rhinolophe
s
4
1 1 1 0 0 cygne
Lide de la reprsentation par treillis de Galois est de ne pas garder les exemples sous forme
de matrice de VRAI et FAUX, ou ici de 0 et de 1, mais de les transformer en une reprsentation
ordonne, comme sur la gure 4.13.
, S
{x
3
}, {s
1
, s
2
, s
4
} {x
1
}, {s
1
, s
3
, s
4
} {x
4
}, {s
2
, s
3
}
{x
1
, x
4
}, {s
3
}
{x
1
, x
2
, x
3
}, {s
1
, s
4
} {x
3
, x
4
, x
5
}, {s
2
}
X,
1
Fig. 4.13: Un treillis de Galois.
Que signie un tel diagramme ? Le niveau suprieur de la gure, compose dune seule case,
correspond labsence dattribut ; le niveau en dessous, compos de trois cases, exprime la relation
des exemples avec un attribut parmi les quatre ; le niveau suivant exprime la relation des exemples
avec deux attributs, etc. On devrait selon ce principe sattendre trouver dans le second niveau
les cinq cases de la gure 4.14.
Mais on ne reprsente que celles qui sont indispensables : comme lensemble s
1
, s
4
est stric-
tement inclus dans lensemble s
1
, s
3
, s
4
, la variable x
1
rend lcriture de x
2
inutile ce niveau.
De mme, x
5
est rendue inutile par x
4
ou par x
3
.
C
e

d
o
c
u
m
e
n
t

e
s
t

l
a

p
r
o
p
r
i


e
x
c
l
u
s
i
v
e

d
e

O
l
i
v
i
e
r

B
E
R
N
H
A
R
D

(
o
l
i
v
i
e
r
.
s
i
m
p
l
e
l
i
f
e
@
g
m
a
i
l
.
c
o
m
)

-

1
2

m
a
i

2
0
1
4


1
4
:
2
2
158 PARTIE 2 : Apprentissage par exploration
{x
3
}, {s
1
, s
2
, s
4
} {x
1
}, {s
1
, s
3
, s
4
} {x
4
}, {s
2
, s
3
} {x
2
}, {s
1
, s
4
} {x
5
}, {s
2
}
Fig. 4.14: La premire ligne complte.
Pour tracer un trait reprsentant la relation dordre entre les lments de niveaux dirents
dans le treillis de Galois, il faut que les deux composantes reprsentant les attributs et les
exemples soient en double relation dinclusion stricte, mais en sens inverse. Par exemple, la
case x
1
, s
1
, s
3
, s
4
est en relation avec la case x
1
, x
4
, s
3
puisque x
1
x
1
, x
4
et
s
1
, s
3
, s
4
s
3
.
Cette structure rsume parfaitement les relations de gnralit des attributs vis--vis des ob-
jets et, symtriquement, celles des objets vis--vis des attributs. Il est videmment possible de
reconstituer le tableau des donnes dapprentissage partir de celle-ci. On peut aussi dmontrer
que le treillis de Galois construit sur une matrice binaire est unique. Divers algorithmes, soit
prenant en compte tous les exemples la fois, soit incrmentaux, ont t proposs pour raliser
cette construction. Il est important de remarquer que la taille du treillis peut tre exponentielle
en fonction du nombre dattributs.
4.2 Lutilisation pour lapprentissage
En quoi cette relation dordre particulire dans le langage des exemples peut-elle tre utile
lapprentissage ? Par la structuration quelle dgage des donnes, qui permet de les explorer
de manire organise. Si les donnes sont partages en exemples positifs et ngatifs et que lon
cherche laborer un concept correct le plus gnral possible, une technique est de travailler de
manire ascendante dans la structure du treillis.
Sur notre exemple, supposons que les objets s
2
et s
3
soient les exemples et s
1
et s
4
les contre-
exemples. La remonte dans le treillis se fait en suivant la relation dordre, successivement par
les cases A, x
3
, x
4
, x
5
, s
2
x
4
, s
2
, s
3
. Il nest pas possible daller plus loin
car les objets s
1
et s
4
seraient couverts. Dans ce cas prcis, le concept est compatible avec les
donnes et il est facile de vrier que lattribut x
4
mammifre forme lui tout seul ce concept.
Dans des cas plus complexes, le test dun concept seectue de la mme faon, en contrlant
sa cohrence au fur et mesure de la progression dans le treillis. Il est possible que celle-ci soit
mise en chec si les exemples sont bruits, par exemple si lun est la fois ngatif et positif. Dans
ce cas, la structure permet de trouver le concept correct le plus gnral, le concept complet le
moins gnral, ou un compromis entre les deux
8
.
La plupart du temps, le treillis nest pas construit avant lapprentissage, mais en parallle
avec la cration du concept. On ne dveloppe que la partie ncessaire au fur et mesure. Cette
technique permet dviter une explosion combinatoire, mais oblige oprer des choix sur lesquels
on ne pourra pas toujours revenir.
Nous navons pas prcis quel espace dhypothses ni quelle mthode dapprentissage utiliser,
car tous les deux sont la disposition de lutilisateur : la structure en treillis de Galois induit une
technique cohrente dexploration des donnes quel que soit le type du concept cherch
9
et quel
que soit lalgorithme dapprentissage proprement dit. Par exemple, les mthodes dapprentissage
par plus proches voisins (chapitre 15) sont utilises dans ce cadre [NN97].
8
Rappelons quun concept est correct sil ne couvre aucun exemple ngatif, complet sil couvre tous les exemples
positifs, compatible ou cohrent sil est correct et complet.
9
Souvent crit sous la forme dune formule en logique des propositions.
C
e

d
o
c
u
m
e
n
t

e
s
t

l
a

p
r
o
p
r
i


e
x
c
l
u
s
i
v
e

d
e

O
l
i
v
i
e
r

B
E
R
N
H
A
R
D

(
o
l
i
v
i
e
r
.
s
i
m
p
l
e
l
i
f
e
@
g
m
a
i
l
.
c
o
m
)

-

1
2

m
a
i

2
0
1
4


1
4
:
2
2
Chapitre 4 Induction et relation dordre : lespace des versions 159
Notes historiques et sources bibliographiques
La thse de Tom Mitchell en 1978, Version spaces : an approach to concept learning, a mar-
qu un tournant fondamental dans lapproche de lapprentissage articiel. Jusque-l en eet,
mis part les travaux portant sur la reconnaissance des formes, lintelligence articielle tait
essentiellement guide par ltude de la cognition naturelle, humaine en particulier. Dans cette
optique, les systmes dapprentissage dvelopps reprsentaient des tentatives de simuler la cog-
nition humaine sur des tches particulires. Ainsi, le systme Arch de Patrick Winston (1970)
[Win70], simulait lapprentissage dun concept (celui darche) partir dexemples positifs et nga-
tifs darches. Le systme AM de Doug Lenat [Len78] simulait le raisonnement dun mathmaticien
en train daborder la thorie des nombres et de produire des conjectures dans ce domaine. Dans
tous les cas, il tait suppos que le concept cible (ou la connaissance cible) tait connaissable
par un agent humain, et donc par le systme apprenant cens le simuler. Dune part, cela allait
de pair avec des approches thoriques de lapprentissage portant sur lidentication exacte du
concept cible et non sur une approximation. Dautre part, cela conduisait considrer des algo-
rithmes explorant lespace des hypothses possibles en adaptant et en modiant progressivement
une hypothse unique, de mme quapparemment un agent humain raisonne sur la base de la
meilleure hypothse courante et ladapte si ncessaire. Les ides contenues dans la thse de Tom
Mitchell ont profondment boulevers ce point de vue.
Dabord, lide despace des versions, lensemble de toutes les hypothses cohrentes avec les
donnes dapprentissage, met soudain distance les systmes articiels et leurs contreparties
naturelles. Cela autorise tudier des algorithmes dapprentissage nouveaux et sans ncessaire-
ment de plausibilit psychologique. Lalgorithme dlimination des candidats en est un exemple.
Ensuite, il devient naturel de sinterroger sur lespace des hypothses mme et sur sa capacit
contenir le concept cible. Cela a conduit Mitchell souligner linvitabilit dun biais pour
apprendre. Comme nous lavons dj amplement discut dans les chapitres 1 et 2, la possibilit
de linduction est compltement dpendante de la richesse de lespace des hypothses. Avant
la thse de Mitchell, les chercheurs en intelligence articielle examinaient en quoi la reprsen-
tation des connaissances choisie tait ou non favorable des raisonnements pertinents pour le
domaine considr (cest en particulier toute lessence des recherches de Lenat). En revanche il
ntait pas question de sinterroger sur la possibilit, encore moins la ncessit, davoir un espace
dhypothses limit. La ralisation progressive de ce dernier point saccompagne de lessor des
travaux portant sur des thories de lapprentissage comme techniques dapproximation et non
plus comme identication dun concept cible. Le dveloppement concomittant du connexionnisme
dans les annes quatre-vingts joue alors un rle de catalyseur en permettant lintrusion des ma-
thmatiques du continu, et donc des outils de lanalyse mathmatique, comme loptimisation et
la convergence, dans ltude de lapprentissage.
Pour terminer par une note philosophique, il est remarquable que la vision de lapprentissage
comme slection de bonnes hypothses au sein dun ensemble dhypothses possibles donn a
priori saccorde la vision actuelle de la biologie. La thorie de lvolution de Charles Darwin,
celle de Pierre Changeux et de ses collgues (qui voient lapprentissage comme limination de
connexions dans le cerveau), et la thorie de Noam Chomsky sur lapprentissage de la langue
naturelle comme spcialisation dune grammaire universelle dnissant lenveloppe des langues
possibles, toutes ces dmarches thoriques vont lunisson. Lapproche actuelle de lapprentissage
articiel, considrant lapprentissage comme la slection des hypothses les plus performantes par
rapport aux observations, sest nalement jointe ce mouvement. Lavenir nous dira la destine
de cet tonnant exemple multidisciplinaire de pense unique.
C
e

d
o
c
u
m
e
n
t

e
s
t

l
a

p
r
o
p
r
i


e
x
c
l
u
s
i
v
e

d
e

O
l
i
v
i
e
r

B
E
R
N
H
A
R
D

(
o
l
i
v
i
e
r
.
s
i
m
p
l
e
l
i
f
e
@
g
m
a
i
l
.
c
o
m
)

-

1
2

m
a
i

2
0
1
4


1
4
:
2
2
160 PARTIE 2 : Apprentissage par exploration
Nous donnons dans ce qui suit quelques indications bibliographiques aux lecteurs intresss
par les recherches et les dveloppements portant sur les espaces des versions.
Les origines de lapprentissage par gnralisation et spcialisation remontent au moins Wins-
ton [Win75] ; la formalisation et la rsolution du problme par lespace des versions sont une des
tapes majeures de la naissance de la discipline. Lappellation espace des versions provient
du fait que Tom Mitchell tudiait toutes les versions des classieurs cohrents avec les donnes,
ces classieurs tant, dans son cas, pris dans un espace dexpressions logiques. Lessentiel de
la thorie et de lalgorithmique a t produit par Mitchell [Mit82]. La prsentation qui en est
donne ici est en partie reprise du texte de Jacques Nicolas dans [Nic93]. Les concepts introduits
et lalgorithme dlimination des candidats peuvent tre trouvs dans presque tous les livres
dintelligence articielle. Nous recommandons particulirement celui de Mitchell [Mit97].
Lalgorithme dlimination des candidats a fait lobjet de lexamen critique de David Haussler
[Hau88] qui a soulign en particulier que la taille de la borne G de lespace des versions pouvait
crotre exponentiellement avec le nombre dexemples ngatifs. Cette observation relativise vi-
demment lavantage apport par la considration de ces bornes. Cependant, lexamen de la preuve
de Haussler laisse supposer que le phnomne de croissance exponentielle ne peut se produire que
pour des chantillons de donnes trs particuliers, et prsents dans un ordre trs dfavorable.
Des chercheurs comme Haym Hirsh [Hir90] ou Benjamin Smith et Paul Rosenbloom [SR90] ont
propos des heuristiques pour amliorer lordre de prsentation des exemples. Une limite plus
srieuse de lapproche de Mitchell concerne les donnes bruites, cest--dire mal dcrites ou
mal classes. Linsistance sur la stricte cohrence des hypothses de lespace des versions avec
les exemples condamne gnralement lalgorithme original ne pas pouvoir trouver dhypothse
saccordant aux donnes. Des propositions ont donc t formules visant relcher lexigence de
stricte cohrence. Hirsh [Hir90, Hir92] a ainsi prsent un algorithme dapprentissage dans lequel
on forme un espace des versions pour chaque exemple positif, puis on en tablit lintersection. Il
montre que cette ide permet de traiter des donnes bruites. Michle Sebag [Seb94a, Seb94b] a
pouss cette ide plus loin avec lapproche de disjunctive version spaces qui marie une approche
de gnralisation en reprsentation attribut-valeur avec la technique de lespace des versions.
Lapprentissage grce la structure en treillis de Galois a t en particulier tudi par [Gan93,
Wil92a], [LS98]. La thorie de ces espaces est dveloppe dans [Bir67]. Lapprentissage par plus
proche voisins en liaison avec la construction de cette structure est tudie dans [NN97].
Rsum
La mthode de lespace des versions vise dnir tous les concepts cohrents avec
un ensemble dexemples.
Comme le nombre de ces concepts peut tre inni, on sintresse une dnition
de leur ensemble en intension.
Celle-ci est dnie par deux ensembles nis S et G et une relation dordre sur les
concepts.
La recherche dun concept particulier seectue, comme dans les treillis de Galois,
en exploitant la structure algbrique des solutions potentielles.
La mthode de lespace des versions est dune grande importance historique et
mthodologique. Son intrt pratique a t prouv, par exemple en infrence gram-
maticale.
C
e

d
o
c
u
m
e
n
t

e
s
t

l
a

p
r
o
p
r
i


e
x
c
l
u
s
i
v
e

d
e

O
l
i
v
i
e
r

B
E
R
N
H
A
R
D

(
o
l
i
v
i
e
r
.
s
i
m
p
l
e
l
i
f
e
@
g
m
a
i
l
.
c
o
m
)

-

1
2

m
a
i

2
0
1
4


1
4
:
2
2
Chapitre 5
La programmation logique inductive
La programmation logique inductive (PLI) ralise lapprentissage de formules de la lo-
gique des prdicats partir dexemples et de contre-exemples. Lenjeu est de construire
des expressions logiques comportant des variables lies les unes aux autres. Par exemple,
partir de la description des liens de parent dans quelques familles ( Jean est le
pre de Pierre , Paul est le pre de Jean , Paul est le grand-pre de Pierre ...),
un programme de PLI doit tre capable de trouver une formule du type Pour tous
les x et z tels que z est le grand-pre de y, il existe x tel que x est le pre de y et y
est le pre de z .
Ce type dapprentissage est dicile raliser. On se limite la plupart du temps
un sous-ensemble de la logique des prdicats quon appelle programme logique ,
en rfrence aux langages de programmation du type Prolog qui travaillent directe-
ment dans ce langage. La PLI a deux caractristiques fortes : dabord, le langage
de reprsentation des hypothses est trs bien connu mathmatiquement et algorith-
miquement. La notion de gnralisation peut donc tre introduite en cohrence avec
les outils de la logique, comme la dmonstration automatique. Ensuite, du fait de la
richesse de ce langage, la combinatoire de lapprentissage est trs grande : il sagit
dexplorer un espace immense en faisant constamment des choix quil sera dicile de
remettre en question. Cest pourquoi il est important en PLI de bien dcrire les biais
dapprentissage qui limitent cette exploration.
Comme le langage de description des concepts est riche, la PLI peut sappliquer un
grand nombre de situations. En pratique, les algorithmes permettent dapprendre des
concepts opratoires dans des domaines aussi varis que le traitement de la langue
naturelle, la chimie, le dessin industriel, la fouille de donnes, etc.
C
e

d
o
c
u
m
e
n
t

e
s
t

l
a

p
r
o
p
r
i


e
x
c
l
u
s
i
v
e

d
e

O
l
i
v
i
e
r

B
E
R
N
H
A
R
D

(
o
l
i
v
i
e
r
.
s
i
m
p
l
e
l
i
f
e
@
g
m
a
i
l
.
c
o
m
)

-

1
2

m
a
i

2
0
1
4


1
4
:
2
2
162
Sommaire
1 La programmation logique inductive : le cadre gnral . . . . . . . . 165
1.1 Complexit de linduction et expressivit du langage dhypothses . . . 165
1.2 La relation de couverture en logique du premier ordre . . . . . . . . . . 166
1.3 La subsomption en logique du premier ordre . . . . . . . . . . . . . . . 168
1.3.1 La -subsomption . . . . . . . . . . . . . . . . . . . . . . . . . 168
1.3.2 Limplication . . . . . . . . . . . . . . . . . . . . . . . . . . . . 169
1.3.3 La subsomption des thories . . . . . . . . . . . . . . . . . . . 169
1.3.4 La subsomption relative une thorie . . . . . . . . . . . . . . 170
1.4 Un rsum des relations de subsomption possibles . . . . . . . . . . . . 170
2 La logique des prdicats et les programmes logiques :
terminologie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 171
2.1 La syntaxe de la logique des prdicats . . . . . . . . . . . . . . . . . . . 171
2.1.1 Le langage de la logique des prdicats . . . . . . . . . . . . . . 172
2.1.2 Le langage des clauses et des programmes logiques . . . . . . . 172
2.2 Systme de preuve pour les langages de clauses . . . . . . . . . . . . . . 173
2.2.1 La substitution . . . . . . . . . . . . . . . . . . . . . . . . . . . 174
2.2.2 Lunication . . . . . . . . . . . . . . . . . . . . . . . . . . . . 174
2.2.3 Lunicateur le plus gnral . . . . . . . . . . . . . . . . . . . . 174
2.2.4 La rsolution . . . . . . . . . . . . . . . . . . . . . . . . . . . . 174
2.2.5 Rsolution et interprtation dun programme Prolog . . . . . . 175
3 La structuration de lespace des hypothses en logique des prdicats 175
3.1 Le calcul de la lgg pour la -subsomption . . . . . . . . . . . . . . . . . 175
3.2 Le calcul de rlgg pour la -subsomption relative . . . . . . . . . . . . . . 177
3.3 Le calcul de lgg pour la rsolution inverse . . . . . . . . . . . . . . . . . 179
4 Lexploration de lespace des hypothses . . . . . . . . . . . . . . . . 182
4.1 Le squelette des algorithmes de PLI . . . . . . . . . . . . . . . . . . . . 183
4.1.1 Stratgies de recherche . . . . . . . . . . . . . . . . . . . . . . 184
4.1.2 Llagage de lespace de recherche . . . . . . . . . . . . . . . . 184
4.2 Les biais de recherche dans lespace dhypothses . . . . . . . . . . . . . 184
4.2.1 Les biais syntaxiques . . . . . . . . . . . . . . . . . . . . . . . 185
4.2.2 Les biais smantiques . . . . . . . . . . . . . . . . . . . . . . . 185
5 Deux exemples de systmes de PLI . . . . . . . . . . . . . . . . . . . 186
5.1 Un systme empirique descendant : Foil . . . . . . . . . . . . . . . . . 186
5.2 Un systme empirique ascendant : Progol . . . . . . . . . . . . . . . . 189
6 La probabilisation de la PLI . . . . . . . . . . . . . . . . . . . . . . . . 190
7 Les domaines dapplication de la PLI . . . . . . . . . . . . . . . . . . 191
8 Les chantiers de la PLI . . . . . . . . . . . . . . . . . . . . . . . . . . . 193
8.1 Une transition de phase rdhibitoire ? . . . . . . . . . . . . . . . . . . . 193
8.2 Quelques problmes ouverts en PLI . . . . . . . . . . . . . . . . . . . . . 195
L
ornithologie sapprend vite : le dbutant que nous avons rencontr dans lavant-
propos de ce livre sait maintenant reconnatre nombre despces : des rapaces,
comme lpervier et le faucon plerin ou des palmipdes, comme la sarcelle et la
bernache. Il rencontre nouveau lexpert, qui se montre satisfait de ses progrs
(mais conscient de ses limites) et qui lui propose un nouvel exercice : apprendre reconnatre
PARTIE 2 : Apprentissage par exploration
C
e

d
o
c
u
m
e
n
t

e
s
t

l
a

p
r
o
p
r
i


e
x
c
l
u
s
i
v
e

d
e

O
l
i
v
i
e
r

B
E
R
N
H
A
R
D

(
o
l
i
v
i
e
r
.
s
i
m
p
l
e
l
i
f
e
@
g
m
a
i
l
.
c
o
m
)

-

1
2

m
a
i

2
0
1
4


1
4
:
2
2
Chapitre 5 La programmation logique inductive 163
le sexe de lanimal (sans dissection) sur des espces o seule la taille peut ventuellement aider.
Lensemble dapprentissage propos par lexpert donne pour mesure lenvergure en centimtres.
Il est le suivant :
espce envergure sexe
x
1
pervier 60 mle
x
2
pervier 80 femelle
x
3
plerin 90 mle
x
4
plerin 110 femelle
x
5
sarcelle 70 mle
x
6
sarcelle 70 femelle
Le dbutant saperoit rapidement quil ne sait pas trouver un concept pour distinguer les
mles des femelles. Cest trs simple voir : les exemples x
5
et x
6
sont dcrits par les mmes
attributs et sont associs des tiquettes contradictoires. Il fait part de cette rexion lexpert.
Daccord , lui rpond ce dernier, je sais que vous connaissez la mthode de lespace des
versions et que vous essayez de trouver un concept crit dans un certain langage des hypothses.
Vous avez choisi pour ce langage la logique des propositions sur des slecteurs portant sur des
attributs. Nest-ce pas ? Cest en eet impossible dapprendre quoi que ce soit dans ce langage
sur ces donnes. Je vais vous initier une autre faon de faire de lapprentissage.
Lexpert propose alors de reformuler les donnes sous la forme de prdicats, ce qui consiste
par exemple crire lattribut envergure pour lexemple x
5
de la manire suivante :
envergure(x
5
, 70) = V RAI
Dans ce formalisme, le premier exemple devient :
(epervier(x
1
) = V RAI) (envergure(x
1
, 60) = V RAI) (male(x
1
) = V RAI)
ou plus simplement :
epervier(x
1
) envergure(x
1
, 60) male(x
1
)
Lensemble des exemples est maintenant lunion (le OU ou ) dexpressions de ce type, cest--
dire une formule logique forme de la disjonction des exemples, chacun crit comme une conjonc-
tion ET () de prdicats sur ses attributs et sa supervision.
Et alors ? Est-ce que la contradiction entre les exemples x
5
et x
6
a disparu pour autant ?
demande le dbutant ? Non , rpond lexpert, vous avez raison, ce nest quune rcriture
pour linstant. Mais je vais vous donner un peu de matriel supplmentaire.
Il propose alors dutiliser deux nouveaux prdicats env-sup(x, y) et meme-esp(x, y) avec la
signication suivante : env-sup(x, y) est VRAI quand lenvergure de lexemple not x est stric-
tement suprieure celle de lexemple not y et meme-esp(x, y) est VRAI si lexemple x est de
la mme espce que lexemple y. Les exemples deviennent alors, en notant pour raccourcir :
epervier(x) par E(x)
pelerin(x) par P(x)
sarcelle(x) par S(x)
envergure(x, 60) par e(x, 60), etc.
C
e

d
o
c
u
m
e
n
t

e
s
t

l
a

p
r
o
p
r
i


e
x
c
l
u
s
i
v
e

d
e

O
l
i
v
i
e
r

B
E
R
N
H
A
R
D

(
o
l
i
v
i
e
r
.
s
i
m
p
l
e
l
i
f
e
@
g
m
a
i
l
.
c
o
m
)

-

1
2

m
a
i

2
0
1
4


1
4
:
2
2
164
E(x) P(x) S(x) B(x) e(x, 60) e(x, 70)
x
1
VRAI FAUX FAUX FAUX VRAI FAUX
x
2
VRAI FAUX FAUX FAUX FAUX FAUX
x
3
FAUX VRAI FAUX FAUX FAUX FAUX
x
4
FAUX VRAI FAUX FAUX FAUX FAUX
x
5
FAUX FAUX VRAI FAUX FAUX VRAI
x
6
FAUX FAUX VRAI FAUX FAUX VRAI
e(x, 80) e(x, 90) e(x, 100) e(x, 110) male(x) fem(x)
x
1
FAUX FAUX FAUX FAUX VRAI FAUX
x
2
VRAI FAUX FAUX FAUX FAUX VRAI
x
3
FAUX VRAI FAUX FAUX VRAI FAUX
x
4
FAUX FAUX FAUX VRAI FAUX VRAI
x
5
FAUX FAUX FAUX FAUX VRAI FAUX
x
6
FAUX FAUX FAUX FAUX FAUX VRAI
Il faut galement crire la table de vrit des prdicats relationnels env-sup et meme-esp. La
seconde est vidente et la premire dbute ainsi :
x
1
x
2
x
3
x
4
x
5
x
6
x
1
FAUX FAUX FAUX FAUX FAUX FAUX
x
2
VRAI FAUX FAUX FAUX VRAI VRAI
x
3
VRAI VRAI FAUX FAUX VRAI VRAI
... ... ... ... ... ... ...
Quoiquun peu impressionn par la quantit plus importante de donnes, le dbutant tente
lapprentissage dun concept dans le mme langage. Il obtient par exemple :
male = male(x
1
) male(x
3
) male(x
5
)
= [E(x
1
) e(x
1
, 60)] [P(x
3
) e(x
3
, 90)] [S(x
5
) e(x
5
, 70)]
Mais cela ne le satisfait pas, car il ny a aucune gnralisation. Il essaie donc dutiliser la connais-
sance supplmentaire fournie par lexpert et obtient ceci, aprs avoir essay un grand nombre de
formules :
env-sup(x
2
, x
1
) E(x
1
) E(x
2
) male(x
1
) fem(x
2
)
env-sup(x
4
, x
3
) P(x
3
) P(x
4
) male(x
3
) fem(x
4
)
meme-esp(x
1
, x
2
) meme-esp(x
3
, x
4
)
Bon, dit lexpert, nous y sommes presque. Nous savons tous les deux que les perviers et
les faucons sont des rapaces, mais pas les sarcelles. Pouvez-vous utiliser cette information ?
Voyons cela , rpond le dbutant :
env-sup(x
2
, x
1
) rapace(x
1
) rapace(x
2
) male(x
1
) fem(x
2
)
env-sup(x
4
, x
3
) rapace(x
3
) rapace(x
4
) male(x
3
) fem(x
4
)
meme-esp(x
1
, x
2
) meme-esp(x
3
, x
4
)
PARTIE 2 : Apprentissage par exploration
C
e

d
o
c
u
m
e
n
t

e
s
t

l
a

p
r
o
p
r
i


e
x
c
l
u
s
i
v
e

d
e

O
l
i
v
i
e
r

B
E
R
N
H
A
R
D

(
o
l
i
v
i
e
r
.
s
i
m
p
l
e
l
i
f
e
@
g
m
a
i
l
.
c
o
m
)

-

1
2

m
a
i

2
0
1
4


1
4
:
2
2
Chapitre 5 La programmation logique inductive 165
Cette fois, cest presque bon. Je vous donne une dernire cl. Que dites-vous de la formule
suivante ?
env-sup(X, Y) rapace(X) rapace(Y) meme-esp(X, Y) male(Y) fem(X)
Elle signie que, pour toutes les espces de rapaces (et non pour les autres oiseaux), la femelle
dune espce est denvergure suprieure au mle rpond le dbutant mais je naurais pas su
la trouver : je ne connaissais ni les prdicats relationnels ni les expressions avec des variables .
Notations utiles pour le chapitre
[= Relation dimplication smantique (thorie des modles)
Relation dimplication logique (thorie de la preuve)
[=
T
Relation dimplication relative la thorie T
ET : conjonction
OU : disjonction
Ngation
h
1
h
2
Lhypothse h
1
est plus gnrale que (ou subsume) h
2
1. La programmation logique inductive : le cadre gnral
1.1 Complexit de linduction et expressivit du langage dhypothses
Le chapitre 4 a montr comment on peut formaliser le problme de linduction de concept,
cest--dire de lapprentissage dune fonction indicatrice, valeur dans 0, 1. Lide essentielle
est de considrer lensemble de toutes les hypothses cohrentes
1
avec lchantillon dapprentis-
sage o = (x
1
, u
1
), (x
2
, u
2
), . . . (x
m
, u
m
). Cet espace est appel lespace des versions. Sa mise
jour seectue incrmentalement chaque fois quun nouvel exemple dapprentissage devient
disponible. Elle passe par la dtermination de la plus petite gnralisation (respectivement sp-
cialisation) dune hypothse et du nouvel exemple lors de ladaptation du S-set (respectivement
du G-set). Nous avons vu dans le chapitre 4 que les concepts de gnralisation et de spcialisation
se dnissent par rfrence la relation dinclusion entre les extensions des concepts, cest--dire
lensemble des objets de A quils couvrent. Un concept est dit plus spcique quun autre si son
extension est incluse dans lextension de lautre. On obtient ainsi une relation dordre partiel qui
est exploite dans lalgorithme dlimination des candidats pour mettre jour les deux bornes
de lespace des versions : le S-set et le G-set.
Cette approche de lapprentissage soulve deux problmes. Le premier est que la notion de cou-
verture dun exemple par une hypothse nest pas toujours aussi simple que le chapitre 4 peut
le laisser penser. Nous y revenons dans la section suivante. Le deuxime problme est que les
rgularits observes sur les parties de A ne se transportent pas compltement dans lespace des
concepts H dni par le langage L
1
dexpression des hypothses. Ainsi, lensemble des parties de
1
Cest--dire, rappelons-le, couvrant tous les exemples positifs et excluant tous les exemples ngatifs de cet
chantillon.
C
e

d
o
c
u
m
e
n
t

e
s
t

l
a

p
r
o
p
r
i


e
x
c
l
u
s
i
v
e

d
e

O
l
i
v
i
e
r

B
E
R
N
H
A
R
D

(
o
l
i
v
i
e
r
.
s
i
m
p
l
e
l
i
f
e
@
g
m
a
i
l
.
c
o
m
)

-

1
2

m
a
i

2
0
1
4


1
4
:
2
2
166 PARTIE 2 : Apprentissage par exploration
A forme une algbre, ce qui signie quil existe des oprations bien dnies pour calculer le plus
petit ensemble dexemples contenant deux ensembles dexemples, de mme que pour calculer le
plus grand ensemble dexemples contenus la fois dans deux ensembles dexemples. Ce sont les
oprations classiques dunion et dintersection. Malheureusement, les oprations correspondantes
sur lespace des concepts H : la plus petite gnralisation (least general generalization, lgg) et la
spcialisation maximale (most general specialization, mgs) ne sont pas en gnral dnies de ma-
nire unique. Cela provient du fait que tout ensemble dexemples ne correspond pas forcment
un concept, de mme que toute expression dans le langage des hypothses L
1
na pas ncessai-
rement une contrepartie dans A. Nous avons en eet vu la ncessit de lexistence dun biais de
langage, limitant la richesse de H. De ce fait, la complexit de lapprentissage de concept dpend
fortement de L
1
, le langage dexpression des hypothses.
En fonction du langage L
1
, il peut tre possible, ou impossible, de dnir une relation
sur L
1
L
1
de gnralit intensionnelle (dans H), appele subsomption, qui concide avec la
relation dinclusion dans A. Si h
1
h
2
implique que h
1
est aussi gnrale que h
2
, la relation de
subsomption est dite saine (sound) ; si h
1
est aussi gnrale que h
2
implique que h
1
h
2
, alors
la relation de subsomption est dite complte (complete). Lorsque la relation de subsomption est
saine, on peut dmontrer que lespace des versions correspondant un ensemble dexemples est
convexe par rapport la relation . Grce cela, on peut alors reprsenter lespace des versions
par une borne infrieure, le S-set, et par une borne suprieure, le G-set (voir le chapitre 4).
La complexit de linduction supervise dpend donc du langage dexpression des hypothses H.
Dans le chapitre 4, nous avons essentiellement fait rfrence des langages dhypothses en
attributs-valeurs. Ceux-ci sont souvent insusants pour dcrire des domaines dans lesquels il est
ncessaire de pouvoir dcrire des relations (comme dans le domaine des arches dcrits dans le
chapitre 2 ou dans lexemple introductif avec les relations de comparaison denvergure). Cest
pourquoi on est tent dutiliser la logique des prdicats ou logique du premier ordre qui permet
dexprimer des concepts relationnels. Mais est-il alors raisonnable de vouloir pratiquer de lin-
duction avec un tel langage dexpression des hypothses ? Nous examinons le prix payer dans
la suite.
1.2 La relation de couverture en logique du premier ordre
Lobjectif de la programmation logique inductive (PLI) est de construire des programmes
logiques partir dexemples superviss. Schmatiquement, un programme logique est un ensemble
de rgles de la forme prmisses conclusion. Selon que lon autorise lusage de la ngation pour
formuler les prmisses ou non, on parle de programmes normaux ou de programmes dnis.
tant donn leur avantage en terme de pouvoir expressif, nous tudierons dans ce chapitre
lapprentissage des programmes normaux. Par ailleurs, deux grandes familles dapproches sont
considres en programmation logique inductive :
1. Lapprentissage empirique dans lequel on dispose de nombreux exemples et contre-exemples
pour apprendre un nouveau concept (i.e. un programme). On cherche alors apprendre
une dnition qui permette dexpliquer (couvrir) tous les exemples positifs connus mais
aucun contre-exemple.
2. Lapprentissage interactif, dans lequel on cherche adapter une description (ou thorie)
du domaine en fonction de quelques nouveaux exemples et contre-exemples. On parle aussi
dans ce cas de rvision de connaissances.
Le deuxime type dapprentissage implique en gnral des raisonnements et des mcanismes
de gnralisation beaucoup plus complexes, et malheureusement moins matriss que dans le
C
e

d
o
c
u
m
e
n
t

e
s
t

l
a

p
r
o
p
r
i


e
x
c
l
u
s
i
v
e

d
e

O
l
i
v
i
e
r

B
E
R
N
H
A
R
D

(
o
l
i
v
i
e
r
.
s
i
m
p
l
e
l
i
f
e
@
g
m
a
i
l
.
c
o
m
)

-

1
2

m
a
i

2
0
1
4


1
4
:
2
2
Chapitre 5 La programmation logique inductive 167
premier. Pour des raisons de place, nous nous limitons donc dans ce chapitre ltude de lap-
prentissage empirique.
Dans le langage de description des hypothses par attributs-valeurs, une expression peut
prendre la forme :
(Taille = grande) (Couleur = rouge) (Forme = carr e)
dnotant le concept grands carrs rouges . La mme expression sert la fois dnoter un
exemple (un certain grand carr rouge ) et un ensemble dexemples (tous les grands car-
rs rouges). La logique par attributs-valeurs nest pas capable de faire la distinction entre les
exemples et les hypothses. Cela rvle un manque de pouvoir expressif, mais permet lastuce de
la reprsentation unique (single representation trick), ce qui signie en pratique que le test de
couverture dun exemple par une hypothse est le mme que le test de subsomption entre deux
hypothses. Ce test est ais dans le cas de la logique des attributs-valeurs et de la logique des
propositions en gnral.
Prenons le cas dexpressions conjonctives en logique attributs-valeurs. Le test de subsomption
entre deux expressions revient contrler que chaque paire attribut-valeur qui apparat dans
lexpression la plus gnrale apparat aussi dans lautre. Le processus de gnralisation dune
expression consiste monter dans la hirarchie dnie par la relation de subsomption. La gn-
ralisation revient donc abandonner un ou plusieurs termes de la conjonction. Par exemple, si
le concept :
(Taille = moyenne) (Couleur = rouge) (Forme = cercle)
doit tre gnralis pour couvrir lexemple :
(Taille = petite) (Couleur = rouge) (Forme = cercle) (Poids = lourd)
il sut de laisser tomber (Taille = moyenne) pour obtenir le concept adquat :
(Couleur = rouge) (Forme = cercle)
Il est noter que la gnralisation obtenue est unique et minimale (lgg).
De la mme manire, spcialiser une expression revient ajouter une paire attribut-valeur
dans la conjonction. Par exemple, si le concept :
(Couleur = rouge) (Forme = cercle)
ne doit pas couvrir lexemple ngatif :
(Taille = grande) (Couleur = rouge) (Forme = cercle)
il sut dajouter au concept une paire dattributs-valeurs absente de lexemple ngatif pour le
spcialiser assez. Il faut noter quen revanche il ny a pas ici de spcialisation maximale unique.
En logique des prdicats, il est ncessaire de reconsidrer les notions de couverture, de sub-
somption, et par voie de consquence les oprations de gnralisation et de spcialisation.
Considrons nouveau des concepts conjonctifs, mais cette fois exprims en logique du premier
ordre. Par exemple, en utilisant la syntaxe des programmes Prolog
2
, le concept1 apprendre
pourrait se reprsenter
3
par :
2
Dans cette syntaxe, le symbole :- signie limplication du membre gauche par le membre droit et la virgule
dans le membre droit est la conjonction.
3
Soit, en notation logique traditionnelle : rouge(X) cercle(X) concept1(X).
C
e

d
o
c
u
m
e
n
t

e
s
t

l
a

p
r
o
p
r
i


e
x
c
l
u
s
i
v
e

d
e

O
l
i
v
i
e
r

B
E
R
N
H
A
R
D

(
o
l
i
v
i
e
r
.
s
i
m
p
l
e
l
i
f
e
@
g
m
a
i
l
.
c
o
m
)

-

1
2

m
a
i

2
0
1
4


1
4
:
2
2
168 PARTIE 2 : Apprentissage par exploration
concept1(X) :- rouge(X), cercle(X).
Un concept peut tre dni par plusieurs clauses, par exemple :
concept2(X) :- rouge(X), carr(X).
concept2(X) :- vert(X), cercle(X).
ce qui signie que le concept correspond aux objets qui sont soit des carrs rouges, soit des
cercles verts.
Les exemples sont dcrits par des atomes clos (sans variable), par exemple :
petit(petitcerclerouge).
rouge(petitcerclerouge).
cercle(petitcerclerouge).
Ici, petitcerclerouge est un exemple de concept1 car concept1(petitcerclerouge) peut
tre prouv. Dune manire gnrale, tant donne une conjonction datomes clos Desc(Exemple)
dcrivant Exemple, un concept Concept(X) :- Conditions(X) classe Exemple positivement si :
T Desc(Exemple) (Concept(X) :- Conditions(X)) [= Concept(Exemple).
On suppose donc de manire gnrale que lon dispose dune connaissance initiale T, ou thorie
du domaine, mise sous forme de programme logique. Pour tester si un exemple est couvert par
un concept, on ajoute sa description dans la thorie du domaine, et on chercher prouver
4
Concept(Exemple) laide de la dnition du concept. Si la preuve choue, on interprte cet
chec comme une classication ngative (ngation par lchec). Dans ce cas, il faudra modier la
dnition du concept. Pour cela il faut examiner la notion de subsomption en logique du premier
ordre.
1.3 La subsomption en logique du premier ordre
Il sagit maintenant de dnir la relation de gnralit ou subsomption entre clauses. Par
exemple, on sattend ce que la clause :
concept3(X) :- rouge(X), cercle(X).
subsume, donc soit plus gnrale, que la clause :
concept3(X) :- petit(X), rouge(X), cercle(X).
En eet, on constate
5
que lextension correspondant la premire dnition inclut lextension
correspondant la seconde dnition. Il se trouve dailleurs que la seconde clause contient les
mmes littraux que la premire et quelle est donc, selon notre dnition de la section prcdente,
plus spcique. Cependant, ce cas npuise pas la notion de subsomption de deux clauses. Prenons
par exemple les deux clauses suivantes :
concept4(X) :- carr(X), triangle(Y), mmecouleur(X,Y).
concept4(X) :- carr(X), triangle(t), mmecouleur(X,t).
La premire clause dcrit lensemble des carrs de mme couleur que les triangles existants. La
seconde clause dcrit lensemble des carrs ayant la mme couleur quun triangle particulier t. Il
est vident que le deuxime ensemble est inclus dans le premier et donc que la premire clause
subsume la seconde. Il faut donc rendre compte aussi de ce cas de subsomption.
1.3.1 La -subsomption
En combinant les deux cas prcdents, on arrive ce quon appelle la -subsomption, qui se
dnit informellement ainsi :
4
Le symbole [= correspond la notion smantique de limplication. Nous reviendrons sur ce formalisme dans la
section suivante.
5
Nous restons volontairement informels dans cette premire exposition des notions de couverture et de sub-
somption.
C
e

d
o
c
u
m
e
n
t

e
s
t

l
a

p
r
o
p
r
i


e
x
c
l
u
s
i
v
e

d
e

O
l
i
v
i
e
r

B
E
R
N
H
A
R
D

(
o
l
i
v
i
e
r
.
s
i
m
p
l
e
l
i
f
e
@
g
m
a
i
l
.
c
o
m
)

-

1
2

m
a
i

2
0
1
4


1
4
:
2
2
Chapitre 5 La programmation logique inductive 169
Clause1 subsume Clause2 sil existe une substitution applicable Clause1 et telle que tous
les littraux dans la clause ainsi obtenue apparaissent dans Clause2.
Il est noter que si Clause1 -subsume Clause2, alors on a aussi Clause1 [= Clause2. En
revanche, la rciproque nest pas toujours vraie, comme le montre lexemple suivant :
list([V|W]) :- list(W).
list([X,Y|Z]) :- list(Z).
partir de la liste vide, la premire clause construit des listes de nimporte quelle longueur,
tandis que la seconde construit des listes de longueur paire. Toutes les listes construites par la
seconde clause peuvent aussi ltre par la premire, qui est donc plus gnrale. Pourtant, il ny
a pas de substitution applicable la premire clause et permettant dobtenir la seconde (une
telle substitution devrait appliquer W la fois sur [Y|Z] et sur Z, ce qui est impossible). La
-subsomption est donc plus faible que limplication. Elle a en outre des limitations rdhibitoires
si lon veut induire des clauses rcursives. Soit en eet, les clauses : p(f(f(a))) :- p(a) et
p(f(b)) :- P(b). Si lon cherche la plus petite gnralisation par rapport la -subsomption,
on trouve la clause : p(f(Y)) :- p(X), tandis que la clause p(f(X)) :- p(X), plus satisfaisante,
ne peut tre trouve. Le problme est que la -subsomption ne peut pas prendre en compte les
clauses qui peuvent tre rsolues avec elles-mmes.
1.3.2 Limplication
On pourrait envisager dutiliser limplication pour dnir la subsomption entre clauses :
Clause1 subsume Clause2 si Clause1 [= Clause2
Cela introduit cependant deux problmes. Le premier est quil sagit dune dnition sman-
tique (sappuyant sur la thorie des modles) et quil reste donc prciser la procdure eective
de preuve de subsomption ainsi que la procdure permettant de gnraliser une clause. Le second
problme est que la plus petite gnralisation (lgg) nest pas toujours unique si la subsomption
est dnie comme limplication logique. Soit par exemple les deux clauses :
list([A,B|C]) :- list(C).
list([P,Q,R|S]) :- list(S).
Selon limplication logique, ces clauses ont deux lgg :
list([X|Y]) :- list(Y) et list([X,Y|Z]) :- list(V).
Selon la -subsomption, seule cette dernire est une lgg. Il est noter que la premire lgg est en
ralit plus plausible.
1.3.3 La subsomption des thories
Jusque-l, nous avons seulement considr la subsomption entre deux clauses. Dans la plupart
des cas intressants, nous devons cependant prendre en compte des ensembles de clauses dcrivant
des thories
6
sur le monde. Il faut donc dnir aussi la subsomption entre thories. Par exemple,
soit la thorie :
concept5(X) :- petit(X), triangle(X).
polygone(X) :- triangle(X).
Elle est implique logiquement par la thorie suivante :
concept5(X) :- polygone(X).
polygone(X) :- triangle(X).
puisque tout modle de la seconde est un modle de la premire thorie. Pourtant, la clause :
6
En programmation logique, une thorie est simplement dnie comme un ensemble de clauses.
C
e

d
o
c
u
m
e
n
t

e
s
t

l
a

p
r
o
p
r
i


e
x
c
l
u
s
i
v
e

d
e

O
l
i
v
i
e
r

B
E
R
N
H
A
R
D

(
o
l
i
v
i
e
r
.
s
i
m
p
l
e
l
i
f
e
@
g
m
a
i
l
.
c
o
m
)

-

1
2

m
a
i

2
0
1
4


1
4
:
2
2
170 PARTIE 2 : Apprentissage par exploration
concept5(X) :- petit(X), triangle(X).
nest pas logiquement implique par la clause :
concept5(X) :- polygone(X).
La subsomption entre thories ne peut donc pas tre rduite la subsomption entre clauses.
1.3.4 La subsomption relative une thorie
Nous devons avoir recours dans ce cas la notion de subsomption relative une thorie entre
deux clauses. Par dnition : Clause1 subsume Clause2 relativement la thorie T si T Clause1
[= Clause2, ce que nous notons : Clause1 [=
T
Clause2.
Par exemple, supposons que T contienne la clause :
polygone(X) :- triangle(X).
Nous avons alors :
T concept5(X) :- polygone(X) [= concept5(X) :- petit(X), triangle(X).
De cette manire, nous obtenons en eet que :
concept5(X) :- polygone(X)
subsume :
concept5(X) :- petit(X), triangle(X)
relativement T.
1.4 Un rsum des relations de subsomption possibles
Pour rsumer, les trois types de relations de subsomption utiliss en programmation logique
inductive sont la -subsomption, limplication logique et la subsomption relative une thorie
du domaine. De ces trois types de subsomptions, la premire est la plus aise raliser (et elle
est dj NP-complte !). En particulier, la -subsomption est dcidable, tandis que limplication
logique ne lest pas
7
, mme pour des clauses de Horn. De mme, la subsomption relative est
plus svre que limplication : les deux sont indcidables, mais les procdures de preuve pour
limplication ne ncessitent pas la prise en compte de la thorie T, contrairement aux procdures
pour la subsomption relative qui doivent prendre en compte toutes les drivations possibles
partir de T Clause.
En pratique, lors de lapprentissage partir dexemples reprsents par des clauses, en prsence
ou non dune thorie du domaine, il est essentiel de pouvoir dterminer la plus petite gnrali-
sation (relative dans le cas de la subsomption relative) ainsi que leur spcialisation maximale.
Lexistence de ces gnralisations ou spcialisations dpend la fois du type de subsomption
considr et du langage utilis : logique des clauses ou logique rduite aux clauses de Horn. Le
tableau suivant fournit un rsum des rsultats connus sur les six cas possibles (+ correspondant
une rponse positive et une rponse ngative).
Clauses de Horn Clauses gnrales
Type de subsomption lgg mgs lgg mgs
-subsomption + + + +
Implication ([=) + si sans fonction +
Implication relative ([=
T
) +
Fig. 5.1: Existence de lgg et de mgs.
7
Church en 1932 a montr quil ne peut exister dalgorithme pouvant dcider en un temps ni si une infrence
est logiquement valide ou non en logique des prdicats standard.
C
e

d
o
c
u
m
e
n
t

e
s
t

l
a

p
r
o
p
r
i


e
x
c
l
u
s
i
v
e

d
e

O
l
i
v
i
e
r

B
E
R
N
H
A
R
D

(
o
l
i
v
i
e
r
.
s
i
m
p
l
e
l
i
f
e
@
g
m
a
i
l
.
c
o
m
)

-

1
2

m
a
i

2
0
1
4


1
4
:
2
2
Chapitre 5 La programmation logique inductive 171
Ce tableau illustre une fois de plus le compromis existant entre lexpressivit dun langage et
les raisonnements qui peuvent tre raliss. Il est par ailleurs important de noter que lutilisation
dun langage causal sans symbole de fonction conduit une structure de treillis. Cest pourquoi
la plupart des travaux en PLI se placent dans ce cadre.
Avant daborder les moyens eectifs dexploration de lespace des hypothses, il est ncessaire
de rappeller plus formellement quelques concepts de base en logique.
2. La logique des prdicats et les programmes logiques :
terminologie
Ce paragraphe dnit de manire plus rigoureuse ce quest une formule de la logique des
prdicats, autrement dit quels sont les concepts que nous cherchons apprendre. Ces concepts
sont construits partir de symboles primitifs (les variables, les connecteurs, les quanticateurs,
les prdicats, les fonctions et les parenthses), en respectant une syntaxe stricte. Cette syntaxe
permet, par lapplication de certaines rgles, de raliser des dmonstrations dans ce systme
formel, cest--dire de dduire des thormes partir daxiomes. Finalement, une smantique
doit tre propose pour permettre une interprtation hors de ce systme formel qui na pas de
signication en soi [NS93, GN88, Tau94].
2.1 La syntaxe de la logique des prdicats
Les formules logiques sont crites dans un langage construit partir des symboles primitifs
suivants :
Variable X, Y . . . Une variable prend ses valeurs sur un domaine. Des exemples de domaines
sont : lensemble des nombres entiers, lensemble des clients dune compagnie dassurances.
Constante a, b, . . ., jerome, laure, . . ., 1, 2, . . ., VRAI , FAUX , . . . Un ensemble de constantes
forme le domaine dune variable. Une instanciation dune variable est une constante de son
domaine.
Connecteur , , , ,
Quanticateur ,
Prdicat P, Q, . . ., sont maries, . . .
Un prdicat possde une arit a (le nombre darguments sur lequel il porte) qui doit valoir au
moins 1. On note, si besoin est, le prdicat de manire plus complte par : P/a. Un prdicat
est une relation entre plusieurs domaines de variables, autrement dit une application de
lensemble de ces domaines dans V RAI, FAUX. Par exemple, pour le prdicat sont
maries/2 : sont maries(jerome, laure) = V RAI.
Fonction f, g, . . ., age ain e. . .
Une fonction dire dun prdicat par la nature de son rsultat, qui peut appartenir
nimporte quel domaine. Par exemple, pour la fonction ageain e/2 : ageaine(jerome, X)
a pour valeurs lage de lan(e) de jerome (leur mre nest pas ici prcise). Une fonction
darit 0 nest autre quune constante.
Parenthses (, ).
C
e

d
o
c
u
m
e
n
t

e
s
t

l
a

p
r
o
p
r
i


e
x
c
l
u
s
i
v
e

d
e

O
l
i
v
i
e
r

B
E
R
N
H
A
R
D

(
o
l
i
v
i
e
r
.
s
i
m
p
l
e
l
i
f
e
@
g
m
a
i
l
.
c
o
m
)

-

1
2

m
a
i

2
0
1
4


1
4
:
2
2
172 PARTIE 2 : Apprentissage par exploration
2.1.1 Le langage de la logique des prdicats
Terme Un terme est dni rcursivement comme
soit une constante ;
soit une variable ;
soit une fonction applique des termes, cest--dire une expression de la forme : f(t
1
, . . . , t
m
)
o f est une fonction darit m et les t
i
sont des termes.
Un exemple de terme : sont maries(pere(laure), mauricette).
Littral Un littral est un prdicat appliqu des termes, ventuellement prcd du symbole .
Cest donc une expression de la forme : p(t
1
, . . . , t
m
) ou p(t
1
, . . . , t
m
), o p est un symbole
de prdicat et les t
i
sont des termes.
Un exemple de littral : plus grand que(age(pere(X)), age(mauricette)).
Atome Un littral positif (cest--dire non prcd du symbole ) est appel un atome. Un
littral qui ne contient pas de variable est dit clos ou compltement instanci. Par exemple :
age(pere(jerome)) est un atome clos.
Formule Une formule est dnie rcursivement :
Un littral est une formule.
Si et sont des formules alors (), (), ( ), ( ) et () sont des
formules.
Si v est une variable et est une formule, alors ((v)) et ((v)) sont des formules.
Sous-formule Une sous-formule est une suite de symboles dune formule, mais qui est elle-mme
une formule.
Variable libre et lie Une variable X est dite lie dans une formule sil existe dans une
sous-formule commenant par (X) ou par (X). Sinon, X est dite libre.
2.1.2 Le langage des clauses et des programmes logiques
Clause Une clause est une formule de type particulier : cest une disjonction nie de littraux
dont toutes les variables sont quanties universellement, cest--dire commandes par .
On simplie en gnral lcriture dune clause en supprimant les quanticateurs : toute
variable doit donc tre interprte comme tant universellement quantie.
Clause de Horn Une clause de Horn est une clause qui a soit zro soit un seul littral positif.
Clause dnie Une clause dnie est une clause de Horn qui a exactement un littral positif.
Une clause dnie scrit donc, quand on a supprim les quanticateurs universels :
A B
1
. . . B
m
On transforme cette notation en :
B
1
. . . B
m
A
puis, en introduisant un nouveau connecteur et en changeant la notation de la conjonction :
A B
1
, . . . , B
m
Le connecteur signie limplication du membre de gauche par le membre droit. Cette
notation est employe dans certaines versions du langage Prolog
8
. Dans la suite de ce
chapitre, les clauses seront notes de cette manire.
8
La notation que nous employons est intermdiaire entre la notation logique et la notation la plus classique en
Prolog, qui a t utilise plus haut. Selon cette dernire, une clause scrit : A :- B
1
, . . . , B
m
.
C
e

d
o
c
u
m
e
n
t

e
s
t

l
a

p
r
o
p
r
i


e
x
c
l
u
s
i
v
e

d
e

O
l
i
v
i
e
r

B
E
R
N
H
A
R
D

(
o
l
i
v
i
e
r
.
s
i
m
p
l
e
l
i
f
e
@
g
m
a
i
l
.
c
o
m
)

-

1
2

m
a
i

2
0
1
4


1
4
:
2
2
Chapitre 5 La programmation logique inductive 173
Tte et corps de clause dnie A, le seul littral positif dune clause dnie est appel tte de
la clause et la conjonction B
1
, . . . , B
m
est le corps de la clause.
Une clause unitaire est une clause dnie qui nest compose que de son unique littral
positif A; elle est donc note A
Clause but Une clause but est une clause de Horn qui na aucun littral positif ; elle est donc
note : B
1
, . . . , B
m
Programme logique dni Un programme logique dni, ou pour simplier un programme lo-
gique, est un ensemble de clauses dnies.
Exemple
enfant(X, Y ) fille(X, Y )
enfant(X, Y ) fils(X, Y )
fils(laurent, gaston)
fils(julien, laurent)
fille(laure, gaston)
fils(jerome, laure)
grand parent(gaston, julien)
grand parent(gaston, jerome)
grand parent(gaston, julien)
grand parent(gaston, jerome)
grand parent(X, Y ) enfant(Z, X), enfant(Y, Z)
Programme Prolog Un programme Prolog est un programme logique dni. Une requte est
une clause but.
Exemple
enfant(Z, T) % une clause but
enfant(X, Y ) fille(X, Y ) % une clause
enfant(X, Y ) fils(X, Y )
fils(laurent, gaston) % un fait
fils(julien, laurent)
fille(laure, gaston)
fils(jerome, laure)
2.2 Systme de preuve pour les langages de clauses
tant donn un programme logique T, le but est de mener des raisonnements partir de ce
programme an de savoir, par exemple, quels faits sont VRAI tant donn T.
En pratique, la preuve dans un programme Prolog se fait en utilisant la rgle dinfrence
logique dite de modus ponens, qui snonce informellement : Si () et ( implique ) sont VRAI
, alors () est VRAI , et se note classiquement :
( )

Lalgorithme de rsolution, formalis par Robinson [Rob65], est employ pour cette dmonstra-
tion. Nous allons le prsenter aprs avoir introduit les notions de substitution et dunication.
C
e

d
o
c
u
m
e
n
t

e
s
t

l
a

p
r
o
p
r
i


e
x
c
l
u
s
i
v
e

d
e

O
l
i
v
i
e
r

B
E
R
N
H
A
R
D

(
o
l
i
v
i
e
r
.
s
i
m
p
l
e
l
i
f
e
@
g
m
a
i
l
.
c
o
m
)

-

1
2

m
a
i

2
0
1
4


1
4
:
2
2
174 PARTIE 2 : Apprentissage par exploration
2.2.1 La substitution
Une substitution est une liste nie de paires X
i
/t
i
, o X
i
est une variable et t
i
un terme. Si
est la substitution X
1
/t
1
, . . . X
i
/t
i
, . . . X
n
/t
n
, lensemble des variables X
1
, . . . X
n
est not
dom().
Une substitution sapplique une formule F en remplaant chaque occurrence des variables
de dom() par le terme correspondant, le rsultat tant not F.
2.2.2 Lunication
Si (s
i
, t
i
) est une paire de termes, un unicateur est une substitution telle que pour tout i :
s
i
= t
i
.
Si un tel unicateur existe, on dit que les termes (s
i
, t
i
) peuvent sunier.
Lunicateur de deux littraux p(s
1
, . . . s
m
) et p(t
1
, . . . t
m
) est un unicateur de lensemble des
paires de termes (s
i
, t
i
).
2.2.3 Lunicateur le plus gnral
Lunicateur le plus gnral (upg) est une substitution telle que pour tout unicateur , il
existe une substitution telle que = .
Il est dmontr que lupg de deux clauses est unique un renommage de variables prs.
2.2.4 La rsolution
La rsolution dun programme logique consiste en une suite dtapes, chacune construisant
une nouvelle clause partir de deux. Dans le cas dun programme Prolog, dont les clauses sont
dune forme particulire (clauses dnies et requtes ne contenant que des littraux), on peut
appliquer une mthode adapte : la SLD-rsolution.
Une tape de SLD-rsolution
9
est dnie comme suit. Soit deux clauses Prolog :
C
1
: H
1
A , a
C
2
: H
2
b
o H
1
, a et b sont des conjonctions (ventuellement vides) datomes. A est un littral quelconque
du corps de C
1
, et a est le reste du corps de C
1
.
On dit que C
1
peut tre rsolue avec C
2
si H
2
et A sunient avec un upg (soit, A = H
2
).
Le rsultat de ltape de rsolution est la clause suivante, appele rsolvante :
Res(C
1
, C
2
) : H
1
b , a
Par cette dnition, on impose donc que le littral rsolu sunie avec la tte de C
2
et avec un
littral du corps de C
1
.
Sur la gure 5.2, on a : C
1
= fille(X, Y ) parent(Y, X) et C
2
= parent(claire, marie).
La clause C
1
peut se rcrire sous la forme C
1
= fille(X, Y ) parent(Y, X). On peut alors
appliquer la rgle de rsolution en choisissant :
L
1
= parent(Y, X)
L
2
= parent(claire, marie)
= Y/claire, X/marie
La clause rsolvante C est alors lunion de :
(C
1
L
1
) = fille(marie, claire)
(C
2
L
2
) =
9
SLD pour : rsolution linaire avec fonction de slection pour clauses dnies.
C
e

d
o
c
u
m
e
n
t

e
s
t

l
a

p
r
o
p
r
i


e
x
c
l
u
s
i
v
e

d
e

O
l
i
v
i
e
r

B
E
R
N
H
A
R
D

(
o
l
i
v
i
e
r
.
s
i
m
p
l
e
l
i
f
e
@
g
m
a
i
l
.
c
o
m
)

-

1
2

m
a
i

2
0
1
4


1
4
:
2
2
Chapitre 5 La programmation logique inductive 175
Fig. 5.2: Une tape de la rsolution.
2.2.5 Rsolution et interprtation dun programme Prolog
Prolog est un langage conu pour fournir une partie utile et ecace de la technique de d-
monstration par rfutation. Prcisment, Prolog est un systme bas sur un dmonstrateur de
thorme utilisant une forme particulire de rsolution : la rsolution linaire avec fonction de
slection pour clauses dnies (rsolution SLD). Cette stratgie restreint le choix des clauses
chaque tape de rsolution, ainsi que le choix du littral qui est utilis. Cela correspond une
recherche en profondeur cherchant dabord satisfaire chaque sous-but avant de passer au sui-
vant. Si cette stratgie de recherche est systmatique et (relativement) ecace, elle ne garantit
malheureusement pas la terminaison des dmonstrations. Prolog est en ce sens un dmonstrateur
sans garantie de compltude : des thormes vrais peuvent ne pas tre dmontrs parce que le
dmonstrateur tombe dans une branche innie.
Dans le formalisme de Prolog, la connaissance, ou thorie, est transcrite sous forme de faits
et de rgles considrs comme des axiomes. Les requtes sont exprimes comme des thormes
dont on demande au dmonstrateur de prouver leur validit dans la thorie.
3. La structuration de lespace des hypothses en logique des pr-
dicats
Muni de la relation de couverture et dune des relations de subsomption dnies dans la
section 1.2, il est possible denvisager linduction de programmes logiques comme une exploration
de lespace des hypothses, guide par les relations de subsomption. Cest ainsi par exemple que
pour gnraliser deux programmes, on cherchera leur plus petite gnralisation suivant la relation
de subsomption considre, en faisant lhypothse quen gnralisant minimalement on limite les
risques de surgnralisation. Le raisonnement est le mme pour la recherche de spcialisations.
Nous allons maintenant examiner les moyens eectifs de calculer des plus petites gnralisations
et des spcialisations maximales en fonction des relations de subsomption utilises.
3.1 Le calcul de la lgg pour la -subsomption
Dnition 5.1 (-subsomption)
On dit quune clause c
1
-subsume une clause c
2
si et seulement si il existe une substitution
telle que c
1
c
2
. c
1
est alors une gnralisation de c
2
par -subsomption.
C
e

d
o
c
u
m
e
n
t

e
s
t

l
a

p
r
o
p
r
i


e
x
c
l
u
s
i
v
e

d
e

O
l
i
v
i
e
r

B
E
R
N
H
A
R
D

(
o
l
i
v
i
e
r
.
s
i
m
p
l
e
l
i
f
e
@
g
m
a
i
l
.
c
o
m
)

-

1
2

m
a
i

2
0
1
4


1
4
:
2
2
176 PARTIE 2 : Apprentissage par exploration
Par exemple, la clause :
pere(X, Y ) parent(X, Y ), etalon(X)
-subsume la clause :
pere(neral, aziza) parent(neral, aziza), etalon(neral), jument(aziza)
avec = (X = neral), (Y = aziza)
Plotkin a introduit la notion de moindre gnralis ou encore de plus petit gnralis [Plo70], un
oprateur de gnralisation qui permet de gnraliser deux clauses. Le calcul de la gnralisation
la moins gnrale de deux clauses est dni par les rgles suivantes :
La gnralisation la moins gnrale de deux termes t
1
et t
2
, note lgg(t
1
, t
2
) (least general
generalization), est une variable si :
au moins un des deux termes est une variable ;
un des deux termes est une constante, et t
1
,= t
2
;
t
1
et t
2
sont deux termes fonctionnels construits sur des symboles de fonction dirents.
Si t
1
= f(c
1
, . . . , c
n
) et t
2
= f(d
1
, . . . , d
n
), alors
lgg(t
1
, t
2
) = f(lgg(c
1
, d
1
), . . . , lgg(c
n
, d
n
))
Pour appliquer cette rgle, il faut prendre soin de vrier que si
1
et
2
sont les deux
substitutions telles que lgg(t
1
, t
2
)
i
= t
i
(i 1, 2), alors il ne doit pas exister deux
variables distinctes X et Y telles que X
1
= Y
1
et X
2
= Y
2
.
Par exemple, la gnralisation la moins gnrale de f(a, b, a) et de f(b, a, b) est f(X, Y, X)
et non f(X, Y, Z).
La lgg de deux littraux construits sur le mme symbole de prdicat est donne par :
lgg(p(t
1
, . . . , t
n
), p(s
1
, . . . , s
n
)) = p(lgg(t
1
, s
1
), . . . , lgg(t
n
, s
n
))
Enn, la lgg de deux clauses l
0
l
1
, . . . , l
n
et m
0
m
1
, . . . , m
n
est une clause qui a
pour tte lgg(l
0
, m
0
), et pour corps lensemble des lgg(l
i
, m
i
) pour tout couple (l
i
, m
i
) de
littraux de mme signe et de mme prdicat.
Exemple La lgg
Pour illustrer la lgg, considrons les deux scnes constitues dobjets gomtriques, reprsen-
tes sur la gure 5.3 [MB96].
Fig. 5.3: La gnralisation la moins gnrale.
C
e

d
o
c
u
m
e
n
t

e
s
t

l
a

p
r
o
p
r
i


e
x
c
l
u
s
i
v
e

d
e

O
l
i
v
i
e
r

B
E
R
N
H
A
R
D

(
o
l
i
v
i
e
r
.
s
i
m
p
l
e
l
i
f
e
@
g
m
a
i
l
.
c
o
m
)

-

1
2

m
a
i

2
0
1
4


1
4
:
2
2
Chapitre 5 La programmation logique inductive 177
La premire scne reprsente trois objets a, b, et c. Lobjet a est un cercle, b est un carr et
c est un triangle. Les objets sont placs de telle faon que a est au-dessus de b, et que b est
situ gauche de c. La deuxime scne reprsente trois objets d, e, et f dcrits de manire
similaire. Les deux scnes S
1
et S
2
sont dcrites par les deux clauses suivantes qui dcrivent
le placement de trois gures gomtriques :
scene(s1) scene(s2)
sur(s1, a, b), sur(s2, f, e),
a_gauche(s1, b, c), a_gauche(s2, d, e),
cercle(a), cercle(f),
carre(b), carre(d),
triangle(c). triangle(e).
La lgg des clauses reprsentant les deux scnes de la gure 5.3 est la clause suivante :
scene(S)
sur(S, A, B), a_gauche(S, C, D),
cercle(A), carre(C), triangle(D).
Cette clause gnralise les deux clauses prcdentes et traduit le fait que dans les deux scnes,
lobjet circulaire se trouve au-dessus dun autre objet, et que lobjet carr est gauche de
lobjet triangulaire.
3.2 Le calcul de rlgg pour la -subsomption relative
On dnit la plus petite gnralisation relative (rlgg), (relative least general generalization) de
deux clauses en utilisant la -subsomption relative de manire tout fait analogue.
Dnition 5.2 (-subsomption relative)
Soit P un programme logique. Une clause c
1
-subsume une clause c
2
relativement P si et
seulement si il existe une substitution telle que P [= c
1
c
2
.
Dnition 5.3 (rlgg de deux exemples)
Soient deux exemples e
1
et e
2
qui sont des atomes lis. Soit une thorie du domaine T = a
1

. . . a
n
o les a
i
sont galement des atomes lis. La rlgg de e
1
et e
2
est donne par :
rlgg(e
1
, e
2
) = lgg(e
1
T, e
2
T)
avec :
e
i
T = T e
i
= (a
1
. . . a
n
) e
i
= a
1
. . . a
n
e
i
Exemple Le tri rapide
Nous illustrons le calcul de la rlgg de deux clauses en considrant lexemple du tri rapide (quick
sort) [MF90]. La thorie du domaine, qui traduit la connaissance initiale sur le problme est
C
e

d
o
c
u
m
e
n
t

e
s
t

l
a

p
r
o
p
r
i


e
x
c
l
u
s
i
v
e

d
e

O
l
i
v
i
e
r

B
E
R
N
H
A
R
D

(
o
l
i
v
i
e
r
.
s
i
m
p
l
e
l
i
f
e
@
g
m
a
i
l
.
c
o
m
)

-

1
2

m
a
i

2
0
1
4


1
4
:
2
2
178 PARTIE 2 : Apprentissage par exploration
constitue dinstances de littraux construits sur les prdicats partition/4 et append/3 :
partition(1, [], [], [])
partition(2, [4, 3, 1, 0], [1, 0], [4, 3])
. . .
append([], [1], [1])
append([0, 1], [2, 3, 4], [0, 1, 2, 3, 4])
. . .
On dispose dun certain nombre dexemples de tris raliss laide du prdicat qsort/2 :
qsort([], [])
qsort([1, 0], [0, 1])
qsort([4, 3], [3, 4])
. . .
On dispose aussi de deux exemples positifs e
1
et e
2
:
e
1
= qsort([1], [1])
e
2
= qsort([2, 4, 3, 1, 0], [0, 1, 2, 3, 4])
La rlgg de e
1
et e
2
est donne par la dnition 5.3. :
rlgg(e
1
, e
2
) = lgg(e
1
T, e
2
T)
o T est la conjonction de tous les atomes lis de la thorie du domaine et des exemples.
Do :
e
1
T = qsort([1], [1])
append([], [1], [1]), append([0, 1], [2, 3, 4], [0, 1, 2, 3, 4]), . . . ,
partition(1, [], [], []), partition(2, [4, 3, 1, 0], [1, 0], [4, 3]), . . . ,
qsort([], []), qsort([1, 0], [0, 1]), qsort([4, 3], [3, 4])
. . .
et e
2
T = qsort([2, 4, 3, 1, 0], [0, 1, 2, 3, 4])
append([], [1], [1]), append([0, 1], [2, 3, 4], [0, 1, 2, 3, 4]), . . . ,
partition(1, [], [], []), partition(2, [4, 3, 1, 0], [1, 0], [4, 3]), . . . ,
qsort([], [])
qsort([1, 0], [0, 1]), qsort([4, 3], [3, 4])
. . .
La rlgg des atomes e
1
et e
2
est donc dnie par :
rlgg(e
1
, e
2
) = qsort([A[B], [C[D])
append(E, [A[F], [C[D]), append([], [1], [1]),
append(G, [H[J], [J[K]), append([0, 1], [2, 3, 4], [0, 1, 2, 3, 4]),
partition(A, B, L, M), partition(1, [], [], []),
partition(H, N, O, P), partition(2, [4, 3, 1, 0], [1, 0], [4, 3]),
qsort(L, E), qsort([], []),
qsort(O, G), qsort([1, 0], [0, 1]),
qsort(M, F), qsort(P, I), qsort([4, 3], [3, 4]),
. . .
C
e

d
o
c
u
m
e
n
t

e
s
t

l
a

p
r
o
p
r
i


e
x
c
l
u
s
i
v
e

d
e

O
l
i
v
i
e
r

B
E
R
N
H
A
R
D

(
o
l
i
v
i
e
r
.
s
i
m
p
l
e
l
i
f
e
@
g
m
a
i
l
.
c
o
m
)

-

1
2

m
a
i

2
0
1
4


1
4
:
2
2
Chapitre 5 La programmation logique inductive 179
La construction de la rlgg pose un certain nombre de problmes. En eet, comme nous lavons
dj voqu, les atomes de la thorie du domaine T utiliss dans le calcul de la rlgg doivent tre
des atomes lis. Cela impose une dnition en extension de la thorie du domaine, ce qui nest
pas concevable pour la majorit des problmes rsoudre. Pour rsoudre ce problme, [Bun88]
suggre de calculer cette dnition en extension partir du plus petit modle de Herbrand de la
connaissance initiale exprime en intension. Cette mthode nest pas entirement satisfaisante,
puisquelle risque domettre un certain nombre dinstances de la thorie du domaine et fausser
le rsultat de lalgorithme dapprentissage. Plotkin, quant lui, propose une mthode pour
supprimer les littraux logiquement redondants [Plo71a] [Plo71b]. Malheureusement, la dtection
des littraux redondants est coteuse puisquelle ncessite la mise en place de techniques de
preuve de thorme. De plus, les clauses dbarasses de leurs littraux redondants peuvent encore
contenir un grand nombre de littraux.
3.3 Le calcul de lgg pour la rsolution inverse
Plutt que de dnir la subsomption par rfrence la smantique, Muggleton a propos de
la dnir partir de la technique de preuve, qui en logique des prdicats, est le principe de
rsolution de Robinson utilis dans Prolog. Dans ce cadre, on dira quune clause subsume une
autre clause si elle permet la dduction de celle-ci par SLD-rsolution. Plus formellement :
Dnition 5.1 (SLD-subsomption)
Soit T un programme logique ; une clause C est plus gnrale quune clause D au sens de la
SLD-subsomption relativement T ssi C, T
SLD
D.
En dehors du fait quelle prend en compte la thorie du domaine sous la forme du programme T,
lun des intrts de cette dnition est quelle induit, comme la -subsomption, des oprations
syntaxiques sur les programmes qui sont les fondements de la technique dapprentissage par
inversion de la rsolution. Par ailleurs, la justesse de la SLD-rsolution garantit que ce qui
drive dune thorie par SLD-rsolution est une consquence logique de cette thorie. En bref, si
C, T
SLD
D, alors C, T [= D, ce qui fait de la SLD-subsomption un cas particulier constructif
de limplication relative une thorie.
On peut alors driver analytiquement linversion de la rsolution partir de la rgle de rso-
lution exprime par lquation 5.1. Tout dabord, peut toujours scrire sous la forme dune
composition de substitutions
1
et
2
, avec
i
contenant les variables de C
i
. Lquation scrit
donc :
C = (C
1
L
1
)
1
(C
2
L
2
)
2
(5.1)
On restreint linversion de rsolution linfrence de clauses C
2
qui ne contiennent aucun
littral en commun avec C
1
.
C (C
1
L
1
)
1
= (C
2
L
2
)
2
Or L
1

1
= L
2

2
donc L
2
= L
1

1
2
, on obtient ainsi :
C
2
= (C (C
1
L
1
)
1
)
1
2
L
1

1
2
(5.2)
On note le non-dterminisme de cet oprateur, notamment concernant le choix de la clause
C
1
, et des substitutions
1
et
2
.
C
e

d
o
c
u
m
e
n
t

e
s
t

l
a

p
r
o
p
r
i


e
x
c
l
u
s
i
v
e

d
e

O
l
i
v
i
e
r

B
E
R
N
H
A
R
D

(
o
l
i
v
i
e
r
.
s
i
m
p
l
e
l
i
f
e
@
g
m
a
i
l
.
c
o
m
)

-

1
2

m
a
i

2
0
1
4


1
4
:
2
2
180 PARTIE 2 : Apprentissage par exploration
Dans le cadre de la PLI, S. Muggleton et W. Buntine ont donc eu lide dinverser la rsolution
classique utilise en programmation logique. Dans [Mug87], S. Muggleton introduit quatre rgles
de rsolution inverse. La notation
A
B
sinterprte comme : on peut dduire A de B.
Absorbtion (oprateur V)
q A p A, B
q A p q, B
Identication (oprateur V)
p A, B p A, q
q B p A, q
Intra construction (oprateur W)
p A, B p A, C
q B p A, q q C
Inter construction (oprateur W)
p A, B q A, C
p r, B r A q r, C
Dans ces rgles, les lettres minuscules reprsentent des atomes et les lettres majuscules des
conjonctions datomes. Les rgles dabsorbtion et didentication inversent une tape de rsolu-
tion. La gure 5.4 montre comment loprateur V inverse une tape de la rsolution.
Fig. 5.4: Loprateur V dabsorbtion.
La gure 5.5 illustre par un exemple le comportement de loprateur V en montrant plusieurs
tapes de rsolution inverse. La thorie du domaine est ici constitue des clauses b
1
et b
2
et on
dispose dune observation e
1
. Loprateur V permet, partir de lexemple e
1
et de la clause b
2
,
dinduire la clause c
1
. La clause c
1
permet ensuite, avec la clause b
1
, dinduire la clause c
2
.
Les oprateurs dintra construction et dinter construction, appels aussi oprateurs W (-
gure 5.6) rsultent de la combinaison de deux oprateurs V qui reprsentent chacun une tape
inverse de rsolution.
Ces rgles dinfrence prsentent la particularit dintroduire un nouveau prdicat qui nappa-
raissait pas dans les prconditions des rgles. Par exemple, loprateur W de la gure 5.6 introduit
le nouveau prdicat q. On parle alors dinvention de prdicat, utilise par exemple dans le systme
Cigol [MB88b]. Linvention de prdicat est bien illustre par lexemple de la gure 5.7.
En eet, dans cet exemple, on dispose des deux clauses :
min(X, [s(X)|Z]) min(X, Z)
min(X, [s(s(X))|Z]) min(X, Z)
C
e

d
o
c
u
m
e
n
t

e
s
t

l
a

p
r
o
p
r
i


e
x
c
l
u
s
i
v
e

d
e

O
l
i
v
i
e
r

B
E
R
N
H
A
R
D

(
o
l
i
v
i
e
r
.
s
i
m
p
l
e
l
i
f
e
@
g
m
a
i
l
.
c
o
m
)

-

1
2

m
a
i

2
0
1
4


1
4
:
2
2
Chapitre 5 La programmation logique inductive 181
Fig. 5.5: La rsolution inverse.
Fig. 5.6: Loprateur W dintra-construction.
Fig. 5.7: Lintra construction.
et lapplication de loprateur W permet dinduire les trois clauses :
inf(X, s(X))
min(X, [Y |Z]) min(X, Z), inf(X, Y )
inf(X, s(s(X)))
dans lesquelles on constate que le prdicat inf/2 a t invent.
Linversion de la rsolution est une opration non dterministe. Typiquement, chaque tape
C
e

d
o
c
u
m
e
n
t

e
s
t

l
a

p
r
o
p
r
i


e
x
c
l
u
s
i
v
e

d
e

O
l
i
v
i
e
r

B
E
R
N
H
A
R
D

(
o
l
i
v
i
e
r
.
s
i
m
p
l
e
l
i
f
e
@
g
m
a
i
l
.
c
o
m
)

-

1
2

m
a
i

2
0
1
4


1
4
:
2
2
182 PARTIE 2 : Apprentissage par exploration
de linversion de la rsolution, plusieurs gnralisations dune clause peuvent tre ralises, en
fonction du choix de la clause avec laquelle elle est rsolue, et de la substitution inverse employe.
Pour surmonter ce problme de non-dterminisme, Muggleton a propos, dans un cadre uniant
la plus petite gnralisation relative (rlgg) et la rsolution inverse, que ce soit linversion de
rsolution la plus spcique qui soit choisie dans le processus de gnralisation, en utilisant la
substitution inverse la plus spcique chaque pas de linversion de rsolution.
4. Lexploration de lespace des hypothses
La notion de couverture dun exemple par une hypothse, la relation de subsomption entre
hypothses et les oprateurs permettant de construire les plus petites gnralisations (ou spcia-
lisations) autorisent envisager une approche de lapprentissage par la dtermination de lespace
des versions, comme cela a t montr dans la chapitre 4. Cependant, en raison de la taille de les-
pace des versions en programmation logique inductive, les programmes dinduction ne cherchent
pas construire lespace des versions, mme laide des bornes que sont le S-set et le G-set. Ils
cherchent seulement trouver une solution dans lespace des versions. Pour ce faire, ils par-
courent lespace des hypothses en suivant les directions de gnralisation et de spcialisation, en
essayant dlaguer au maximum lespace des versions et en se guidant par des biais heuristiques
tentant dacclrer la recherche.
Les programmes de PLI simposent en gnral de respecter certaines contraintes connues sous
le nom de smantique normale [MD94]. Elles correspondent une reformulation des conditions
de cohrence (compltude et correction) dune hypothse avec les exemples positifs et ngatifs.
tant donns une thorie du domaine T, cest--dire un ensemble de clauses qui retent la
connaissance a priori sur le domaine du problme, un ensemble dexemples E, (avec lensemble
E = E
+
E

constitu dexemples positifs et ngatifs), la programmation logique inductive


cherche induire une hypothse H, compose dun ensemble de clauses, telle que les quatre
conditions suivantes soient respectes :
Dnition 5.2 (Smantique normale)
satisabilit a priori : T E

,[= 2
satisabilit a posteriori : T H E

,[= 2
ncessit a priori : T ,[= E
+
condition a posteriori (compltude) : T H [= E
+
La condition de satisabilit a priori permet de sassurer que les exemples ngatifs ne peuvent
pas tre dduits de la connaissance initiale.
La condition de consistance permet de vrier qu partir de lhypothse induite et de la thorie
du domaine, on ne peut pas prouver dexemple ngatif.
Il est galement ncessaire que les exemples positifs ne puissent pas tre dduits de la connais-
sance T (ncessit a priori).
Lhypothse induite doit quant elle permettre, avec la connaissance initiale, de prouver les
exemples positifs (condition a posteriori).
En fait, dans la plupart des systmes de PLI, la thorie (ou connaissance initiale) T du domaine
C
e

d
o
c
u
m
e
n
t

e
s
t

l
a

p
r
o
p
r
i


e
x
c
l
u
s
i
v
e

d
e

O
l
i
v
i
e
r

B
E
R
N
H
A
R
D

(
o
l
i
v
i
e
r
.
s
i
m
p
l
e
l
i
f
e
@
g
m
a
i
l
.
c
o
m
)

-

1
2

m
a
i

2
0
1
4


1
4
:
2
2
Chapitre 5 La programmation logique inductive 183
et lhypothse H induire sont exprimes sous forme de clauses dnies. Dans ce cas, on parle
de smantique dnie
10
. Seules les quatre conditions suivantes doivent alors tre remplies :
Dnition 5.3 (Smantique dnie)
e E

, e est faux dans /(T)


e E

, e est faux dans /(T H)


e E
+
, tel que e est faux dans /(T)
e E
+
, e est vrai dans /(T H)
Pour simplier et pour couvrir les cas pratiques, la majorit des systmes de programmation
logique inductive est base sur le cas particulier de la smantique dnie, dans lequel tous les
exemples sont des faits lis.
4.1 Le squelette des algorithmes de PLI
Lalgorithme gnrique de la PLI (algorithme 2) utilise deux fonctions : la fonction eacer
inuence la stratgie de recherche qui peut alors tre eectue soit en largeur dabord, soit
en profondeur dabord, ou selon une autre stratgie ; la fonction choisir dtermine les rgles
dinfrence appliquer lhypothse H. Ces rgles dinfrence peuvent tre soit inductives, soit
dductives.
Algorithme 2 : Algorithme gnrique de PLI
dbut
Initialiser H
tant que la condition darrt de H nest pas remplie faire
eacer un lment h de H
choisir des rgles dinfrence r
1
, . . . , r
k
appliquer h
Appliquer les rgles r
1
, . . . , r
k
h pour obtenir h
1
, . . . , h
n
Ajouter h
1
, . . . , h
n
H
laguer H
n tant que
n
Dnition 5.4 (Rgle dinfrence dductive r)
Elle fait correspondre une conjonction de clauses S une conjonction de clauses G telle que
G [= S. Dans ce cas, r est une rgle de spcialisation.
Dnition 5.5 (Rgle dinfrence inductive r)
Elle fait correspondre une conjonction de clauses G une conjonction de clauses S telle que
G [= S. Dans ce cas, r est une rgle de gnralisation.
10
Si une thorie T est constitue de clauses dnies, elle possde une fermeture syntaxique (on ne peut rien
dduire de plus) appele le plus petit modle de Herbrand dans lequel toute formule logique est soit vraie, soit
fausse.
C
e

d
o
c
u
m
e
n
t

e
s
t

l
a

p
r
o
p
r
i


e
x
c
l
u
s
i
v
e

d
e

O
l
i
v
i
e
r

B
E
R
N
H
A
R
D

(
o
l
i
v
i
e
r
.
s
i
m
p
l
e
l
i
f
e
@
g
m
a
i
l
.
c
o
m
)

-

1
2

m
a
i

2
0
1
4


1
4
:
2
2
184 PARTIE 2 : Apprentissage par exploration
4.1.1 Stratgies de recherche
La stratgie de recherche est un choix fondamental pour le concepteur dun systme de PLI :
Les systmes Cigol [MB88b], Clint [De 92], et Golem [MF90] sont reprsentatifs de
la classe des systmes ascendants. Ils considrent les exemples et la thorie du domaine
et gnralisent itrativement lhypothse recherche en appliquant des rgles dinfrence
inductives.
Les systmes Foil [Qui90], [QC95] Mobal [KW92], Progol [Mug95], et Claudien [DB93],
[DVD96], [DD97] sont quant eux reprsentatifs de la classe des systmes descendants. Ils
considrent dabord lhypothse la plus gnrale quils cherchent spcialiser itrativement
en appliquant des rgles dinfrence dductives.
4.1.2 Llagage de lespace de recherche
La fonction laguer dtermine quelles hypothses doivent tre enleves de lensemble H.
La gnralisation et la spcialisation sont la base de deux cas dlagage de lensemble des
hypothses. Cet lagage est le mme que celui pratiqu dans la construction de lespace des
versions par lalgorithme dlimination des candidats.
Si B H nimplique pas logiquement un exemple positif e
+
, cest--dire B H ,[= e
+
,
alors aucune spcialisation de H ne pourra impliquer e
+
, et toutes les spcialisations de H
peuvent donc tre lagues de lespace de recherche.
Si un exemple ngatif e

est couvert, cest--dire B H e

[= 2, alors toutes les gnra-


lisations de H peuvent tre lagues puisquelles sont galement inconsistantes avec B E.
Lexemple de la gure 5.8 illustre le premier cas.
Supposons que la base de connaissances contienne les faits :
pere(gaston, francois)
pere(gaston, laurent)
pere(laurent, julien)
et que lensemble des exemples positifs contienne lexemple :
oncle(francois, julien)
on peut laguer toutes les clauses plus spciques que la clause oncle(A, B) pere(A, B) (zone
hachure de la gure 5.8).
Mais lespace de recherche nest pas lagu assez ecacement par cette proprit, qui rappelons-
le, dcoule directement de la relation de subsomption entre hypothses. Il faut donc dnir des
biais supplmentaires limitant davantage lespace de recherche.
4.2 Les biais de recherche dans lespace dhypothses
Lespace de recherche peut tre trs vaste, voire inni. Limplantation eective dun systme
de PLI ncessite donc lutilisation de biais dclaratifs. Les biais imposent des contraintes ou des
restrictions sur les hypothses que lalgorithme peut considrer et dnissent donc lespace de
recherche. Le rle du biais est double :
rduire la taille de lespace de recherche pour diminuer le temps de rponse du systme ;
garantir une certaine qualit de lapprentissage en interdisant au systme de considrer
certaines hypothses inutiles.
On distingue deux classes de biais dclaratifs : les biais syntaxiques, aussi appels biais de
langage, et les biais smantiques.
C
e

d
o
c
u
m
e
n
t

e
s
t

l
a

p
r
o
p
r
i


e
x
c
l
u
s
i
v
e

d
e

O
l
i
v
i
e
r

B
E
R
N
H
A
R
D

(
o
l
i
v
i
e
r
.
s
i
m
p
l
e
l
i
f
e
@
g
m
a
i
l
.
c
o
m
)

-

1
2

m
a
i

2
0
1
4


1
4
:
2
2
Chapitre 5 La programmation logique inductive 185
Fig. 5.8: Llagage de lespace de recherche par la relation de subsomption.
4.2.1 Les biais syntaxiques
Un biais syntaxique permet de dnir lensemble des hypothses envisageables en spciant
explicitement leur syntaxe. Le nombre des hypothses considrer peut en particulier tre rduit
par les mthodes suivantes :
limiter le nombre de littraux des clauses induites ;
limiter le nombre de variables apparaissant dans une clause ;
limiter la profondeur de la rcursion dans les termes ;
nautoriser que les clauses range-restricted, cest--dire dont lensemble des variables de la
tte est inclus dans lensemble des variables du corps.
4.2.2 Les biais smantiques
Si les biais syntaxiques restreignent lespace de recherche en imposant la syntaxe des hypo-
thses, les biais smantiques imposent des restrictions sur le sens des hypothses. La dnition
de types et de modes est utilise depuis de nombreuses annes en programmation logique an
C
e

d
o
c
u
m
e
n
t

e
s
t

l
a

p
r
o
p
r
i


e
x
c
l
u
s
i
v
e

d
e

O
l
i
v
i
e
r

B
E
R
N
H
A
R
D

(
o
l
i
v
i
e
r
.
s
i
m
p
l
e
l
i
f
e
@
g
m
a
i
l
.
c
o
m
)

-

1
2

m
a
i

2
0
1
4


1
4
:
2
2
186 PARTIE 2 : Apprentissage par exploration
de permettre une meilleure analyse statique des programmes et ainsi daugmenter leur ecacit.
Depuis leur introduction dans le systme MIS [Sha83], il est devenu courant dutiliser galement
les modes et les types en PLI. Ils constituent alors une faon de dnir des biais smantiques.
En eet, si un littral contient une variable L de type t, toutes les autres occurences de cette
variable L dans la mme clause devront galement tre de type t. Ceci permet dlaguer de les-
pace de recherche des clauses incorrectement types. De mme, la dclaration de modes permet
de restreindre la taille de lespace de recherche. Par exemple, lutilisation du prdicat concat/3
associe la dclaration de mode suivante :
concat(+L1, +L2, L3)
o + signie argument en entre (devant tre instancis), et argument en sortie, permet de
rejeter de lespace de recherche toutes les clauses utilisant le prdicat concat sur des variables ne
respectant pas ce mode, comme par exemple :
concat(L1, L2, [a, b, c])
Voici quelques faons dutiliser les modes sur les variables des prdicats :
Toutes les variables en entre dans la tte de la clause doivent se retrouver dans le corps de
clause.
Les variables en sortie dans la tte doivent tre prsentes dans le corps.
On peut aussi forcer toutes les variables en sortie dans le corps soit servir de rsultat
intermdiaire (et donc dtre en entre dans un autre prdicat), soit servir dnir la
sortie du prdicat de la tte (et donc dapparatre en sortie dans la tte).
Il est galement envisageable dinterdire quune mme variable apparaisse plusieurs fois en
sortie de dirents prdicats dans le corps de la clause.
Le systme Progol [Mug95, Rob97] permet par exemple de dclarer des modes sur les va-
riables des littraux an de restreindre le nombre potentiel de clauses dans lespace de recherche.
De plus, le systme distingue les prdicats pouvant apparatre en tte de clause de ceux admis
dans le corps. Les littraux qui peuvent apparatre en tte sont dclars avec la directive modeh.
Les littraux autoriss dans les corps de clauses sont eux dclars grce la directive modeb. Par
exemple, la dclaration
modeh(1, plus(+int, +int, int))
spcie que la tte des clauses de lespace de recherche sera constitue du prdicat plus/3 avec
trois arguments de type entier, les deux premiers arguments tant en mode entre et le dernier
en mode sortie.
5. Deux exemples de systmes de PLI
5.1 Un systme empirique descendant : Foil
Le systme Foil
11
[Qui90] a t dvelopp par J.R. Quinlan et a ensuite inspir dautres
systmes parmi lesquels Focl [PK92], Foidl [MC95], MFoil [Dze93], ICN et MULT_ICN
[MV95]. Foil cherche induire un programme logique qui couvre tous les exemples positifs
11
Le systme Foil est accessible par ftp ladresse ftp.cs.su.oz.au/pub/foil6.sh
C
e

d
o
c
u
m
e
n
t

e
s
t

l
a

p
r
o
p
r
i


e
x
c
l
u
s
i
v
e

d
e

O
l
i
v
i
e
r

B
E
R
N
H
A
R
D

(
o
l
i
v
i
e
r
.
s
i
m
p
l
e
l
i
f
e
@
g
m
a
i
l
.
c
o
m
)

-

1
2

m
a
i

2
0
1
4


1
4
:
2
2
Chapitre 5 La programmation logique inductive 187
du concept apprendre, et aucun exemple ngatif. Chaque clause apprise est construite par
spcialisation successive de la clause la plus gnrale par ajout dun nouveau littral. Le littral
ajout est choisi en calculant un gain dinformation de faon similaire la construction dun arbre
de dcision (voir le chapitre 13). Lutilisation de Foil impose une reprsentation en extension
de la thorie du domaine. Foil permet de dnir des biais syntaxiques (limitation du nombre de
variables apparaissant dans chaque clause, taux minimal de couverture des clauses, etc.). Il est
galement possible de prciser les modes des arguments des prdicats.
Lalgorithme
Algorithme 3 : Foil
dbut
P
Pos exemples positifs
tant que Pos est non vide faire
Neg exemples ngatifs
C = q(X
1
, . . . , X
n
)
tant que Neg est non vide faire
Ajouter le littral de meilleur gain au corps de C
Retirer de Neg les exemples ngatifs non couverts par C
n tant que
Ajouter la clause apprise C P
Retirer de Pos les exemples couverts par C
n tant que
Retourner le programme appris P
n
Lalgorithme 3 est la base du systme Foil. La boucle la plus externe permet de construire
des clauses tant que tous les exemples ne sont pas couverts. La boucle interne construit une
clause en ajoutant un un des littraux qui ont le gain le plus lev. Pour la construction de
chaque clause ltape i, Foil gre deux ensembles de tuples T
+
i
et T

i
. Chaque lment de ces
ensembles est une instance lie de la clause en construction correspondant un exemple couvert.
Les tuples de T
+
i
correspondent des exemples positifs, et ceux de T

i
des exemples ngatifs.
chaque tape, les ensembles T
+
i
et T

i
sont calculs partir des ensembles T
+
i1
et T

i1
de ltape
prcdente. La fonction de gain utilise pour le choix du littral L ajouter lors du passage
une nouvelle tape est calcule partir du nombre dlments des dirents ensembles de tuples :
gain(L) = n
+
i
_
log
2
|T
+
i
|
|T
+
i
| +|T

i
|
log
2
|T
+
i+1
|
|T
+
i+1
| +|T

i+1
|
_
o n
+
i
est le nombre dexemples positifs couverts par la clause en construction, et les T
i+1
sont
les ensembles de tuples considrs lorsquon a ajout le littral L.
Lun des problmes majeurs de Foil intervient lors de la construction dune clause. En eet,
chaque ajout dun littral dans la clause, il se peut que le nombre de littraux candidats soit trs
grand. Or pour chacun dentre eux, Foil doit calculer les ensembles de tuples positifs et ngatifs
pour tre en mesure dvaluer le gain. Ceci peut tre prjudiciable lecacit du systme.
Du fait de sa mthode dapprentissage, Foil permet de traiter des donnes bruites. En eet,
il peut considrer quune certaine partie des exemples est bruite, et arrter la construction de
C
e

d
o
c
u
m
e
n
t

e
s
t

l
a

p
r
o
p
r
i


e
x
c
l
u
s
i
v
e

d
e

O
l
i
v
i
e
r

B
E
R
N
H
A
R
D

(
o
l
i
v
i
e
r
.
s
i
m
p
l
e
l
i
f
e
@
g
m
a
i
l
.
c
o
m
)

-

1
2

m
a
i

2
0
1
4


1
4
:
2
2
188 PARTIE 2 : Apprentissage par exploration
la clause lorsquun certain pourcentage dexemples est couvert.
Exemple Une illustration du fonctionnement
Nous illustrons lutilisation du systme Foil par lapprentissage dune dnition du concept
oncle. On dispose de la connaissance suivante sur les liens de parent au sein dune famille.
/* valeurs possibles pour les arguments des predicats */
P: alfred,michel,remi,franck,charles,paul.
oncle(P,P)
/* exemples positifs pour le predicat oncle */
remi,paul remi,franck michel,charles
;
/* exemples negatifs pour le predicat oncle */
alfred,alfred alfred,michel alfred,remi
alfred,franck alfred,charles alfred,paul
michel,alfred michel,michel michel,remi
michel,franck michel,paul remi,alfred
remi,michel remi,charles remi,remi
franck,paul franck,alfred franck,michel
franck,remi franck,franck franck,charles
charles,paul charles,alfred charles,michel
charles,remi charles,franck charles,charles
paul,paul paul,alfred paul,michel
paul,remi paul,franck paul,charles
.
*pere(P,P)
/* exemples positifs pour le predicat pere */
michel,paul alfred,michel alfred,remi
michel,franck remi,charles
;
/* exemples negatifs pour le predicat pere */
alfred,alfred alfred,franck alfred,charles
alfred,paul michel,alfred michel,michel
michel,remi michel,charles remi,alfred
remi,michel remi,remi remi,franck
remi,paul franck,alfred franck,michel
franck,remi franck,franck franck,charles
franck,paul charles,alfred charles,michel
charles,remi charles,franck charles,charles
charles,paul paul,alfred paul,michel
paul,remi paul,franck paul,charles
paul,paul
Foil apprend le prdicat oncle/2 dni par la clause :
oncle(A,B) :- pere(C,A), pere(D,B), pere(C,D), A<>D.
C
e

d
o
c
u
m
e
n
t

e
s
t

l
a

p
r
o
p
r
i


e
x
c
l
u
s
i
v
e

d
e

O
l
i
v
i
e
r

B
E
R
N
H
A
R
D

(
o
l
i
v
i
e
r
.
s
i
m
p
l
e
l
i
f
e
@
g
m
a
i
l
.
c
o
m
)

-

1
2

m
a
i

2
0
1
4


1
4
:
2
2
Chapitre 5 La programmation logique inductive 189
5.2 Un systme empirique ascendant : Progol
Progol
12
est un systme de PLI bas sur limplication inverse invente par Muggleton,
[Mug95], son concepteur. Progol opre par gnralisation ascendante en partant de chaque
clause la plus spcique couvrant chaque exemple considr. La clause nale est calcule grce
un algorithme A

intgrant une mesure de compression que Progol cherche maximiser.


Progol implmente une procdure en quatre tapes. Slection dun exemple gnraliser ;
construction de la clause la plus spcique impliquant lexemple ; recherche dune clause
gnralisant la clause de dpart ; limination des exemples redondants aprs gnralisation (voir
lalgorithme 4). Cet algorithme nest pas complet, il ne dcouvre pas toutes les gnralisations
possibles.
Des dclarations de modes et de types permettent de dnir des biais smantiques. Il est
ncessaire de spcier le littral employer en tte de clause (en utilisant la directive modeh), et
les littraux quil est possible dutiliser dans le corps des clauses (en utilisant la directive modeb).
Progol permet de dnir la thorie du domaine en intension sous la forme de clauses Prolog.
Ceci est un apport signicatif par rapport Foil avec lequel il tait ncessaire de dnir la
connaissance initiale en extension. Les exemples positifs sont exprims par des clauses dnies,
et les exemples ngatifs sont des ngations de faits instancis. [Rob97] expose les dirents
paramtres du systme.
Algorithme 4 : Progol
dbut
tant que il reste des exemples positifs faire
pour chaque exemple positif e faire
Construire la clause c
1
la plus spcique qui implique lexemple e
Trouver une clause c
2
plus gnrale que c
1
(au sens de la -subsomption) telle
que la mesure de compression soit maximale
Retirer tous les exemples couverts par la clause c
2
n
n tant que
n
Exemple Une illustration du fonctionnement
Considrons par exemple, lapprentissage du tri rapide par Progol. Etant donn le pro-
gramme suivant :
% Declaration des modes pour le litteral en tete de clause
:- modeh(1,qsort([+int|+ilist],-ilist))?
% Declaration des modes pour les litteraux en corps de clause
:- modeb(1,qsort(+ilist,-ilist))?
:- modeb(1,part(+int,+ilist,-ilist,-ilist))?
:- modeb(1,append(+ilist,[+int|+ilist],-ilist))?
% Types
ilist([]).
ilist([Head|Tail]) :- int(Head), ilist(Tail).
12
Une version du systme Progol est accessible par ftp ladresse suivante :
http ://www.comlab.ox.ac.uk/activities/machinelearning/PProgol/ppman.html
C
e

d
o
c
u
m
e
n
t

e
s
t

l
a

p
r
o
p
r
i


e
x
c
l
u
s
i
v
e

d
e

O
l
i
v
i
e
r

B
E
R
N
H
A
R
D

(
o
l
i
v
i
e
r
.
s
i
m
p
l
e
l
i
f
e
@
g
m
a
i
l
.
c
o
m
)

-

1
2

m
a
i

2
0
1
4


1
4
:
2
2
190 PARTIE 2 : Apprentissage par exploration
% Theorie du domaine definie en intension
part(X,[],[],[]).
part(X,[X|Tail],List1,List2) :- part(X,Tail,List1,List2).
part(X,[Head|Tail],[Head|Tail1],List2) :-
Head < X, part(X,Tail,Tail1,List2).
part(X,[Head|Tail],List1,[Head|Tail2]) :-
Head > X, part(X,Tail,List1,Tail2).
append([],List,List).
append([Head|Tail],List1,[Head|List2]) :- append(Tail,List1,List2).
Exemples positifs Exemples ngatifs
qsort([],[]). :- qsort([0,2,1],[0,2,1]).
qsort([3,2,1],[1,2,3]). :- qsort([0,2,1],[0,1]).
qsort([X],[X]). :- qsort([1,0,2],[2,0,1]).
qsort([X,Y],[X,Y]) :- X < Y. :- qsort([1,0,2],[2,1,0]).
qsort([Y,X],[X,Y]) :- X < Y. :- qsort([1,2,0],[1,0,2]).
qsort([X,Y,Z],[X,Y,Z]) :- X<Y, Y<Z. :- qsort([0,2,1],[2,1,0]).
qsort([X,Z,Y],[X,Y,Z]) :- X<Y, Y<Z. :- qsort([2,1,0],[2,1,0]).
qsort([X,Z,Y],[X,Y,Z]) :- X<Y, Y<Z. :- qsort([2,0,1],[2,1,0]).
qsort([Y,X,Z],[X,Y,Z]) :- X<Y, Y<Z. :- qsort([2,1],[1]).
qsort([Y,Z,X],[X,Y,Z]) :- X<Y, Y<Z. :- qsort([1],[2]).
qsort([Z,X,Y],[X,Y,Z]) :- X<Y, Y<Z. :- qsort([0,1,2],[1,0,2]).
:- qsort([0,1],[1,0,1]).
Le systme Progol induit une dnition du prdicat qsort/2 sous la forme des clauses
suivantes :
qsort([],[]).
qsort([A|B],C) :- qsort(B,D), part(A,D,E,F), append(E,[A|F],C).
Sur cet exemple, la stratgie de parcours de lespace de recherche par Progol est bien mise
en vidence. La clause la plus spcique est dabord calcule, puis Progol part de la clause
la plus gnrale et la spcialise en ajoutant des littraux. Pour chaque clause examine,
Progol compte le nombre dexemples positifs et ngatifs couverts et eectue une mesure
de compression qui lui permet de selectionner la clause retenir.
6. La probabilisation de la PLI
Ce chapitre est centr sur les reprsentations logiques et sur lapprentissage dhypothses expri-
mes en logique partir dexemples. Lune des limites de la logique classique est son incapacit
reprsenter lincertitude et permettre le raisonnement incertain. Le calcul des probabilits ore
de son ct un cadre rigoureux pour le raisonnement incertain, mais il est limit aux concepts
propositionnels. Depuis plusieurs annes, il existe donc des eorts de recherche pour essayer de
marier au mieux les possibilits des deux approches, et dpasser leurs limites.
Lune des premires questions est de dnir la notion de couverture dun exemple par une
hypothse. Dans le cadre de la logique, nous avons vu que cette notion dpend dune procdure
de preuve qui renvoie un boolen vrai ou faux. Dans le cadre du calcul probabiliste, la notion
C
e

d
o
c
u
m
e
n
t

e
s
t

l
a

p
r
o
p
r
i


e
x
c
l
u
s
i
v
e

d
e

O
l
i
v
i
e
r

B
E
R
N
H
A
R
D

(
o
l
i
v
i
e
r
.
s
i
m
p
l
e
l
i
f
e
@
g
m
a
i
l
.
c
o
m
)

-

1
2

m
a
i

2
0
1
4


1
4
:
2
2
Chapitre 5 La programmation logique inductive 191
de couverture devient probabiliste, renvoyant une valeur de probabilit. On peut harmoniser les
deux notions en posant que les valeurs vrai et faux correspondent respectivement des valeurs
de probabilit 1 et 0.
Dans le cadre probabiliste, les hypothses peuvent prendre plusieurs formes selon la reprsen-
tation utilise : rseau baysien (voir chapitre 11), modle de Markov (chapitre 12), grammaire
probabiliste (chapitre 7), etc.
Une fois le cadre x, il est possible de calculer, selon le formalisme choisi, la probabilit quun
vnement, un exemple, soit issu de lhypothse considre. Comme nous lavons vu au chapitre
2, lapprentissage dans ces modles consiste fondamentalement identier lhypothse la plus
probable en tenant compte la fois de la distribution de probabilit a priori sur lespace des
hypothses et de la vraisemblance des donnes selon chaque hypothse.
An de construire une logique du premier ordre probabilise, il faut :
savoir annoter les clauses avec une valeur de probabilit ;
rendre la notion de couverture probabiliste.
Plusieurs choix sont possibles pour cela, ce qui entrane une certaine varit de cadres logiques
probabilistes. Les approches proposes peuvent essentiellement sorganiser autour de deux points
de vue :
Une distribution de probabilit est dnie sur les mondes possibles ou interprtations. Cest
le cas des programmes logiques baysiens et des rseaux de Markov logiques.
Une distribution de probabilit est dnie sur les preuves. Cest le cas des programmes
logiques stochastiques, de Prism et de ICL.
Comme dans les approches probabilistes non logiques, lapprentissage se dcompose en lap-
prentissage de la structure, ce qui correspond aux clauses, et en lapprentissage des paramtres.
Le lecteur trouvera des descriptions dtailles de ces approches dans [RFKT08, Rae08, GT07].
7. Les domaines dapplication de la PLI
Dcoupe en lments nis
Le dcoupage en lments nis (voir gure 5.9) est une technique trs utilise par les ing-
nieurs qui cherchent analyser des contraintes sur des structures physiques [DM92]. En eet, les
contraintes qui sexercent sur la structure peuvent tre exprimes par des quations direntielles,
mais il nest gnralement pas possible de rsoudre de telles quations laide dun ordinateur
en un temps acceptable. Pour rsoudre ce problme, les ingnieurs dcoupent la structure en un
nombre ni dlments, et utilisent des approximations linaires pour calculer les contraintes sur
chaque partie lmentaire de la structure.
Dans la pratique, il nexiste pas de mthode gnrale permettant de raliser un maillage ac-
ceptable pour une pice. GOLEM a t utilis dans ce contexte en vue dinduire un modle de
la mthode utilise par les experts pour dcouper les structures. Il faut noter que les experts ne
sont pas capables de modliser leur mthode de dcoupage et que GOLEM est ici utilis pour
extraire cette expertise.
La densit du maillage dpend des proprits gomtriques de lobjet, des forces et des contraintes
qui agissent dessus, et des relations entre ses dirents composants. Pour traiter ce problme avec
la PLI, une structure est reprsente par un ensemble dartes, des proprits sur les artes, et
des relations entre les artes. Chaque objet est ainsi dcrit en spciant :
C
e

d
o
c
u
m
e
n
t

e
s
t

l
a

p
r
o
p
r
i


e
x
c
l
u
s
i
v
e

d
e

O
l
i
v
i
e
r

B
E
R
N
H
A
R
D

(
o
l
i
v
i
e
r
.
s
i
m
p
l
e
l
i
f
e
@
g
m
a
i
l
.
c
o
m
)

-

1
2

m
a
i

2
0
1
4


1
4
:
2
2
192 PARTIE 2 : Apprentissage par exploration
Fig. 5.9: Une pice dcoupe en parties lmentaires.
Le type de ses artes : longue importante, importante, courte importante, pas importante,
circuit, demi-circuit. . .
Les direntes conditions existants aux zones communes plusieurs artes : libre, xe sur
un ct, xe sur deux cts, compltement xe.
Ls contraintes de charge qui sexercent sur chaque arte : pas de charge, charge sur un
ct, charge sur les deux cts, charge de manire continue.
La reprsentation gomtrique de lobjet. Les auteurs sattachent la notion dartes voi-
sines, dartes opposes et dartes identiques. On spcie que les artes sont opposes si
elles jouent un rle symtrique dans la pice. Certaines artes sont non seulement opposes,
mais elles ont de plus la mme forme et la mme longueur. On prcise alors quelles sont
identiques.
Pour chaque arte a
i
dune structure s, on dispose dun fait mesh(a
i
, n) qui signie que cette
arte est dcoupe en n lments nis.
Le prdicat apprendre est donc mesh(Arete, N), o Arete est une arte et N est le nombre
de segments qui constitueront cette arte. Avec des descriptions de trois objets, GOLEM induit
cinquante-six rgles direntes. Ces rgles ne sont pas toutes pertinentes, mais GOLEM induit
des rgles de la forme :
mesh(A, 1) :-
not_important(A),
not_loaded(A).
qui signie quune arte A est dcoupe en un lment si elle nest pas importante et na pas de
contrainte.
C
e

d
o
c
u
m
e
n
t

e
s
t

l
a

p
r
o
p
r
i


e
x
c
l
u
s
i
v
e

d
e

O
l
i
v
i
e
r

B
E
R
N
H
A
R
D

(
o
l
i
v
i
e
r
.
s
i
m
p
l
e
l
i
f
e
@
g
m
a
i
l
.
c
o
m
)

-

1
2

m
a
i

2
0
1
4


1
4
:
2
2
Chapitre 5 La programmation logique inductive 193
Une autre rgle induite est :
mesh(A, B) :-
cont_loaded(A),
same(A,C),
cont_loaded(C),
mesh(C, B).
qui met en vidence que si deux artes sont identiques et quelles sont contraintes de manire
continue, leur dcoupage se fait galement en un nombre identique dlments.
Il est intressant de noter que selon les experts du domaine, les rgles fournies par le systme
mettent en vidence des dpendances qui leur taient jusqualors inconnues [BM95b].
Une liste dapplications
LILP est utilise dans de nombreux domaines pour lapprentissage de concepts relationnels
(voir par exemple la page http ://www.doc.ic.ac.uk/ shm/applications.html). En voici une liste
partielle :
Sciences de la vie : structure 3-D des protines, dcouverte de neuropeptides, analyse de tests
de laboratoire, diagnostic prcoce de rhumatisme, mutagnse.
Environnement : dveloppement des algues, donnes de qualit de leau.
Langage naturel : rgles daccord des verbes au pass en anglais, apprentissage danalyseurs
syntaxiques, dnition des groupes nominaux, catgorisation de texte, analyse de groupes
syntaxiques, prdiction des csures, etc.
Autres domaines : bases de donnes gographiques, mtallurgie, analyse des accidents de la
circulation, marketing et commerce.
Pour ne prendre que lexemple du langage naturel, les techniques dapprentissage semblent donc
tre tout fait adaptes pour infrer un analyseur morphologique, syntaxique ou smantique dun
langage. De plus, Prolog est un langage considr comme bien adapt au traitement du langage
naturel, ce qui fait galement de la programmation logique inductive une mthode approprie
pour cette tche.
Les premiers travaux dans le domaine ont t raliss par J. Zelle et R. Mooney [ZM93] [Zel95]
[Moo96]. Ils se poursuivent en particulier dans les domaines cits ci-dessus.
8. Les chantiers de la PLI
8.1 Une transition de phase rdhibitoire ?
Lattrait majeur de la PLI est le recours un langage des hypothses expressif (plus que la
plupart des autres langages de gnralisation) et commode, puisquil permet la reprsentation
aussi bien des exemples que des hypothses ou que de la thorie du domaine. La logique des
prdicats est de plus un domaine bien connu grce aux travaux des logiciens. Comme nous
lavons expos, utiliser la PLI ncessite cependant de choisir avec soin les relations dordre et les
oprateurs dexploration. Imposer des limites pour obtenir des ordres bien fonds et des systmes
dinduction contrls introduit des dicults, certes prendre au srieux, mais semble-t-il non
rdhibitoires. Cependant, des travaux rcents mettent en cause la possiblit mme de linduction
C
e

d
o
c
u
m
e
n
t

e
s
t

l
a

p
r
o
p
r
i


e
x
c
l
u
s
i
v
e

d
e

O
l
i
v
i
e
r

B
E
R
N
H
A
R
D

(
o
l
i
v
i
e
r
.
s
i
m
p
l
e
l
i
f
e
@
g
m
a
i
l
.
c
o
m
)

-

1
2

m
a
i

2
0
1
4


1
4
:
2
2
194 PARTIE 2 : Apprentissage par exploration
supervise lorsque le langage dhypothses est trop expressif. Nous allons examiner ce nouveau
problme.
Ces travaux sont fonds sur des considrations compltement indpendantes de celles que nous
avons dveloppes dans le chapitre 2 qui drivent de lanalyse statistique de lapprentissage.
lorigine, il sagissait de dexaminer la complexit moyenne de la rsolution de problmes de
satisfaction de contraintes, plutt que dexaminer leur complexit dans le pire cas. Ainsi, le
problme 3-SAT (problme de satisabilit) consistant chercher une conjonction de clauses de
3 termes (e.g. (x
1
x
5
x
11
) (x3x
5
x
8
)) vraie pour lassignation des variables des valeurs
de vrit, est connu pour tre NP-complet. Cependant, lexamen plus n de la dicult des
problmes montre une transition brutale, en fonction de certains paramtres, entre une rgion
o il est quasiment toujours possible de trouver un telle 3-DNF et une rgion o cest quasiment
toujours impossible, avec une rgion intermdiaire extrmement troite correspondant un pic de
complexit de lalgorithme de recherche. Il se trouve quil est possible dtablir une relation entre
ces problmes de satisabilit et le problme de la recherche dhypothses de risque empirique
nul, cest--dire couvrant tous les exemples positifs et aucun exemple ngatif.
En eet, lapprentissage supervis implique une exploration de lespace des hypothses gui-
de par la valeur du risque empirique (ventuellement rgularis). La plupart des stratgies de
contrle de cette exploration utilisent une technique de gradient an de modier la ou les hypo-
thse(s) courante(s) dans la direction du gradient le plus favorable. En n de compte, il faut donc
dterminer si chaque exemple (positif ou ngatif) est couvert par chaque hypothse candidate
examine. Cela ressemble un problme de satisabilit.
En particulier, il est intressant dtudier le taux de couverture des hypothses, cest--dire la
proportion dexemples tirs au hasard quelles couvrent. Ainsi, si le taux est de 100 % (ou 1), cest
que lhypothse couvre tous les exemples. Idalement, ce taux de couverture peut prendre toutes
les valeurs entre 0 et 1, de manire graduelle. Cela permet denvisager une exploration guide
par le gradient du risque empirique si ce taux de couverture prsente une certaine rgularit
dans lespace des hypothses (i.e. deux hypothses proches au sens des oprateurs permettant de
passer de lune lautre ont des taux de couverture proches).
Cest ce paysage du taux de couverture en fonction des hypothses quont tudi Giordana et
Saitta [GS00] dans le cas despaces dhypothses composs de clauses de Horn. Par exemple, en
faisant varier le nombre de variables, le nombre de littraux et le nombre datomes clos (et en
rptant ces expriences un grand nombre de fois), ils ont obtenus des courbes telles que celle
de la gure 5.10 qui rappellent des phnomnes de transition de phase en physique. De manire
surprenante, le taux de couverture mesur sur les hypothses y passe brutalement de 0 1 sans
presque de transition lorsque lon va progressivement vers des hypothses plus gnrales. Ces
courbes sont potentiellement de grande porte. Pourquoi ?
Concrtement, imaginons un algorithme dapprentissage ascendant, oprant par gnralisation
progressive et prudente. Lorsquune hypothse courante ne couvre pas tous les exemples positifs
connus, le systme tente de la gnraliser un peu an den couvrir davantage, tout en essayant de
ne pas couvrir les exemples ngatifs. Le nombre de gnralisations possibles est en gnral trs
grand et le systme se guide en choisissant celles qui conduisent des hypothses de meilleur
risque empirique. Or que se passe-t-il selon les courbes de taux de couverture observes ? Lorsque
lon prend une hypothse trop spcique, elle ne couvre pratiquement aucun exemple, positif ou
ngatif, son taux de couverture est nul. Le problme, cest que quand on la gnralise, son taux
de couverture reste nul. Le risque empirique reste donc constant et il est impossible de se guider
dans lespace de recherche. Ce nest que lorsque les hypothses considres ont t susamment
gnralises quelles se trouvent dans la rgion de la transition de phase (la falaise ) que leur
taux de couverture varie et que lon peut enn comparer les hypothses entre elles. Avant, il est
C
e

d
o
c
u
m
e
n
t

e
s
t

l
a

p
r
o
p
r
i


e
x
c
l
u
s
i
v
e

d
e

O
l
i
v
i
e
r

B
E
R
N
H
A
R
D

(
o
l
i
v
i
e
r
.
s
i
m
p
l
e
l
i
f
e
@
g
m
a
i
l
.
c
o
m
)

-

1
2

m
a
i

2
0
1
4


1
4
:
2
2
Chapitre 5 La programmation logique inductive 195
Fig. 5.10: Une courbe tridimensionnelle de la probabilit de couverture dun exemple tir ala-
toirement par une hypothse h en fonction de m, le nombre de littraux dans h et de
L, le nombre datomes clos (ou constantes). m et N correspondent respectivement au
nombre de variables (10 dans cette exprience) et au nombre de tuples dans les rela-
tions (100 ici). Les hypothses les plus gnrales se situent gauche sur cette gure,
correspondant des hypothses peu contraintes (m et L petits).
impossible au systme de se guider. La recherche devient donc alatoire. Le mme phnomne se
produit pour un systme descendant qui spcialise progressivement des hypothses intialement
trop gnrales.
Linduction supervise par gnralisation ou spcialisation progressive semble donc selon cette
analyse trs dicile, sauf pour des problmes jouets . Cest dailleurs ce que semblent conrmer
empiriquement des expriences complmentaires de Giordana et Saitta (voir [GSC10]). Il y a l
un problme fondamental qui relve encore de la recherche thorique et exprimentale. Il touche
en tout cas les systmes utilisant la logique des prdicats comme langage de description des
hypothses. On ne sait pas encore dans quelle mesure il se produit sur dautres reprsentations
des connaissances, par exemple en infrence grammaticale (voir le chapitre suivant).
8.2 Quelques problmes ouverts en PLI
Lextension de la PLI repose en particulier sur la rsolution des problmes suivants :
la prise en compte de donnes numriques ;
lutilisation dautres logiques (conrmatoires, modales ...) ;
lapprentissage eectif de rgles rcursives ;
la prise en compte de lincertain.
Ces limitations motivent une activit de recherche continue dans ce domaine, dont rend compte
en particulier la confrence internationale annuelle ILP (Inductive Logic Programming).
C
e

d
o
c
u
m
e
n
t

e
s
t

l
a

p
r
o
p
r
i


e
x
c
l
u
s
i
v
e

d
e

O
l
i
v
i
e
r

B
E
R
N
H
A
R
D

(
o
l
i
v
i
e
r
.
s
i
m
p
l
e
l
i
f
e
@
g
m
a
i
l
.
c
o
m
)

-

1
2

m
a
i

2
0
1
4


1
4
:
2
2
196 PARTIE 2 : Apprentissage par exploration
Notes historiques et sources bibliographiques
Quoique les fondations de la logique remontent (facilement) Aristoste, cest seulement durant
le XIX
me
et le XX
me
sicles que des thoriciens tels que Boole et Frege lont formalise rigou-
reusement dans un cadre mathmatique. Au XX
me
sicle, une cole de philosophes connus sous
le nom de positivistes logiques a promu lide que la logique tait le socle ultime non seulement
des mathmatiques, mais de toute la science. Selon ce point de vue, toute armation math-
matique peut tre exprime dans le cadre de la logique des prdicats, et tous les raisonnements
scientiques valides sont bass sur des drivations logiques partir dun ensemble daxiomes. Le
positivisme logique trouva un support puissant dans les travaux de Gdel dans les annes 1930
qui ont montr quun ensemble rduit de rgles de drivation tait susant (complet) pour dri-
ver toutes les consquences de formules en logique des prdicats. Plus tard, Robinson, en 1965,
dmontra que linfrence dductive en logique des prdicats pouvait tre ralise laide dune
unique rgle dinfrence, la rsolution. Pour appliquer le principe de rsolution, il faut mettre les
formules logiques sous la forme de clauses logiques. La dcouverte de Robinson a t dune impor-
tance fondamentale pour lautomatisation de de la dduction. Colmerauer et Kowalski furent les
pionners au dbut des annes 1970 du dveloppement de Prolog, un langage de programmation
logique. Dans ce langage, toutes les formules logiques sont dcrites sous la forme de clauses de
Horn.
Cest Plotkin qui dans sa thse en 1971 [Plo71a] a pos les fondations de ce qui allait devenir le
champ de la programmation logique inductive. Plotkin ne se limitait pas la logique des clauses
de Horn, ce qui nest pas surprenant puisque la programmation logique et le langage Prolog
nexistaient pas encore. Ses principales contributions concernent lintroduction de la subsomp-
tion relative comme relation de gnralit entre clauses, et un algorithme de calcul du moindre
gnralis dun ensemble de clauses sans thorie du domaine, ce gnralis tant la borne inf-
rieure (unique en labsence de thorie du domaine) de lespace des gnralisations dun ensemble
de clauses. Plotkin a dmontr que malheureusement, il nexiste pas en gnral de moindre gn-
ralis ni de deux clauses en prsence dune thorie du domaine. Cela restreignait videmment la
porte de son algorithme et cest pourquoi Shapiro [Sha83] tudia une autre approche, portant
sur linduction descendante de clauses de Horn, du gnral au spcique, au lieu dascendante
comme pour Plotkin. De plus, Shapiro tudia le dbogage algorithmique de programmes Pro-
log par identication automatique de la clause dfectueuse. Ces systmes dinduction taient
cependant trs inecaces et limits de tout petits problmes.
Sammut et Banerji, (voir [Sam93]) ont dvelopp un systme appel Marvin qui ralise un
apprentissage incrmental au sens o le systme considre les exemples la suite des autres et
apprend, ce faisant, des concepts qui sont utiliss pour traiter les exemples suivants. La connais-
sance pralable ou thorie du domaine (background knowledge) saccrot donc au cours du temps.
Lapprentissage se fait par gnralisation progressive en utilisant une substitution qui remplace
les types de variables par leur sur-type dans le langage de description des concepts. Il sagit du
seul oprateur de gnralisation utilis. Le systme a t test sur un ensemble de problmes va-
ris. Plus tard, Muggleton et Buntine dmontrrent que loprateur de gnralisation de Banerji
tait un cas particulier de linversion dun pas dans la preuve par rsolution. Un ensemble de
contraintes plus gnrales a t fourni et les deux oprateurs en V ont t proposs. Lautre
paire doprateurs en W, galement bass sur linversion de la rsolution, est galement issue de
leurs travaux. Dautres travaux ont aussi port sur linvention de prdicats, mais pour le moment
ils sont rests conns la logique des propositions et non la logique des prdicats.
Quinlan, [Qui90], a propos le systme Foil qui induit des clauses de Horn de manire trs
C
e

d
o
c
u
m
e
n
t

e
s
t

l
a

p
r
o
p
r
i


e
x
c
l
u
s
i
v
e

d
e

O
l
i
v
i
e
r

B
E
R
N
H
A
R
D

(
o
l
i
v
i
e
r
.
s
i
m
p
l
e
l
i
f
e
@
g
m
a
i
l
.
c
o
m
)

-

1
2

m
a
i

2
0
1
4


1
4
:
2
2
Chapitre 5 La programmation logique inductive 197
ecace. La mthode utilise une heuristique de recherche descendante, par spcialisation progres-
sive, guide par un critre de gain dinformation (voir le chapitre 13). Lun des inconvnients de
la mthode est quelle est gloutonne et donc susceptible de tomber dans des optima locaux mau-
vais, voire derrer sans direction comme le montre le phnomne de transition de phase (voqu
dans la section 7).
Ce chapitre est en partie extrait des notes de cours de Marc Bernard, de luniversit de Saint-
Etienne [Ber00], qui nous a aimablement autoris les utiliser.
Rsum
La programmation logique inductive (PLI) est essentiellement tourne vers lap-
prentissage supervis de concepts ou de thories (exprims sous forme de pro-
grammes logiques). Lapprentissage y est guid par une relation de gnralit dans
lespace des hypothses en cherchant des hypothses cohrentes avec les exemples
dapprentissage.
Contrairement la plupart des techniques dapprentissage qui sont concernes par
des connaissances en logique attribut-valeur, la PLI soccupe de lapprentissage de
rgles exprimes en logique des prdicats. Cela implique des choix et des prcau-
tions pour la dnition dune relation de gnralit entre hypothses. Les relations
principalement tudies sont la -subsomption dont la traduction oprationnelle
est la SLD-subsomption qui dbouche sur des oprateurs de gnralisation par
inversion de la rsolution.
Face la complexit des espaces dexemples et dhypothses en logique des prdi-
cats, il est ncessaire dutiliser des biais pour contrler la recherche dans lespace
dhypothses.
Les systmes dapprentissage de concepts en PLI se divisent entre les systmes des-
cendants, oprant par spcialisations successives an de ne pas couvrir les exemples
ngatifs, et les systmes ascendants oprant par gnralisations successives partir
des exemples positifs.
Il reste beaucoup faire pour tendre le champ dapplication de ces systmes, en
particulier lorsque les donnes sont numriques et bruites. Par ailleurs, il faudra
aussi rsoudre le problme pos par le phnomne de transition de phase en logique
des prdicats.
C
e

d
o
c
u
m
e
n
t

e
s
t

l
a

p
r
o
p
r
i


e
x
c
l
u
s
i
v
e

d
e

O
l
i
v
i
e
r

B
E
R
N
H
A
R
D

(
o
l
i
v
i
e
r
.
s
i
m
p
l
e
l
i
f
e
@
g
m
a
i
l
.
c
o
m
)

-

1
2

m
a
i

2
0
1
4


1
4
:
2
2
C
e

d
o
c
u
m
e
n
t

e
s
t

l
a

p
r
o
p
r
i


e
x
c
l
u
s
i
v
e

d
e

O
l
i
v
i
e
r

B
E
R
N
H
A
R
D

(
o
l
i
v
i
e
r
.
s
i
m
p
l
e
l
i
f
e
@
g
m
a
i
l
.
c
o
m
)

-

1
2

m
a
i

2
0
1
4


1
4
:
2
2
Chapitre 6
Transfert de connaissances et
apprentissage par analogie
Lapprentissage implique une exploration de lespace des hypothses pour rendre compte
des donnes connues. En dehors mme des problmes soulevs dans les chapitres tho-
riques sur la lgitimit de tout critre inductif, cette exploration est gnralement in-
trinsquement trs coteuse et doit donc tre guide. Lorsquune relation de gnralit
peut tre dnie sur lespace des hypothses, la recherche dune ou plusieurs hypo-
thse(s) correcte(s) est considrablement aide. Cependant, mme lutilisation dune
relation de gnralit dans H peut tre insusante pour pouvoir rsoudre eective-
ment un problme dapprentissage. Lespace des hypothses est en eet gnralement
extrmement complexe et riche, et mme une recherche informe peut se rvler inef-
cace. On aimerait alors pouvoir dbarrasser le langage de description des hypothses
de tous les descripteurs et relations non pertinents pour la tche dapprentissage. On
aimerait galement pouvoir hirarchiser la recherche et ne prendre en compte que
graduellement les dtails de lunivers tudi. De mme, il serait pratique de pouvoir
bncier des explorations passes dans H propos de problmes analogues, voire de
pouvoir transcrire des explorations menes dans dautres espaces dhypothses relatifs
dautres environnements ou univers de connaissances. Finalement, une question
essentielle est celle de la construction dun nouveau domaine de connaissances. Est-il
possible denvisager de le raliser en saidant dautres domaines ? Est-il envisageable
de procder autrement ? Quels mcanismes pourraient tre mis en jeu ?
Ce chapitre tudie donc la modication et la construction des espaces dhypothses.
Les approches pour rsoudre ces problmes sont encore un stade exploratoire. Elles
sont trs inspires de ltude de la cognition humaine. Il est hors de doute que lim-
portance du sujet et ltat encore prliminaire de nos connaissances justieront de
nombreuses recherches lavenir. Cest cette conviction qui nous a fait crire ce bref
chapitre, mme si les travaux actuels sont rares, et les applications encore davantage.
Enn, nous donnons une description dun cas trs particulier de lapprentissage par
transfert de connaissances, lapprentissage par proportion analogique.
C
e

d
o
c
u
m
e
n
t

e
s
t

l
a

p
r
o
p
r
i


e
x
c
l
u
s
i
v
e

d
e

O
l
i
v
i
e
r

B
E
R
N
H
A
R
D

(
o
l
i
v
i
e
r
.
s
i
m
p
l
e
l
i
f
e
@
g
m
a
i
l
.
c
o
m
)

-

1
2

m
a
i

2
0
1
4


1
4
:
2
2
200 PARTIE 2 : Apprentissage par exploration
Sommaire
1 Lapprentissage en prsence de thorie . . . . . . . . . . . . . . . . . 200
2 Lapprentissage par examen de preuve (EBL) . . . . . . . . . . . . . 201
2.1 Le principe de lEBL . . . . . . . . . . . . . . . . . . . . . . . . . . . . 201
2.2 Une illustration de lapprentissage EBL . . . . . . . . . . . . . . . . . . 202
2.3 Discussion sur lapprentissage de concept partir dexplications . . . . . 205
2.4 Lapprentissage de connaissances de contrle partir dexplications . . . 206
2.5 Bilan sur lapprentissage partir dexplications . . . . . . . . . . . . . . 207
3 Abstraction et reformulation des connaissances . . . . . . . . . . . . 208
4 Changement de repre, raisonnement par analogie et RPC . . . . 210
4.1 Raisonnement par analogie . . . . . . . . . . . . . . . . . . . . . . . . . 210
4.2 Raisonnement partir de cas (RPC) . . . . . . . . . . . . . . . . . . . 211
5 Lapprentissage par proportion analogique . . . . . . . . . . . . . . . 213
5.1 Dnition et axiomes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 213
5.2 Une introduction lalgbre de la proportion analogique . . . . . . . . . 214
5.3 Utilisation de la proportion analogique en apprentissage . . . . . . . . . 215
5.3.1 Un exemple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 216
5.3.2 Dissemblance analogique et apprentissage . . . . . . . . . . . . 216
6 Bilan . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 217
1. Lapprentissage en prsence de thorie
Jusqu prsent, nous avons dcrit lapprentissage comme la recherche dune hypothse dans
H en bonne adquation, selon une mesure de risque, avec les donnes exprimentales dcrites
dans A. Lapprentissage peut cependant prendre dautres visages. Par exemple, un apprenti
joueur dchec humain sera susceptible dapprendre le concept de fourchette (une menace
portant simultanment sur plusieurs pices) partir de trs peu dexemples, parfois mme
partir dun seul. Comment est-il alors possible de gnraliser cette exprience trs limite toutes
les situations de fourchettes, ou, au moins, une grande partie dentre elles ? Lapprentissage
peut aussi porter non pas sur la dtermination dune bonne hypothse mais sur lecacit de
la recherche de bonnes hypothses. Il se peut aussi que lapprenant possde des descriptions de
concepts qui soient correctes, mais qui ne soient pas vraiment oprationnelles dans le monde
1
.
Le point commun ces types dapprentissages est lintervention dune connaissance importante
sur le domaine dapplication, connaissance que lon appelle thorie du domaine
2
. Cest cette
1
Un exemple, sans doute extrme, est celui dun systme de diagnostic de panne dordinateur capable de carac-
triser les pannes partir des quations de Shrdinger associes aux atomes de lappareil. Cette connaissance
mme correcte, ne serait cependant sans doute pas dune grande utilit pratique et la recherche dune descrip-
tion plus oprationnelle pourrait lgitimement tre considre comme un apprentissage part entire.
2
Cette thorie peut prendre laspect trs formel de programmes en logique du premier ordre, voir le chapitre 5,
C
e

d
o
c
u
m
e
n
t

e
s
t

l
a

p
r
o
p
r
i


e
x
c
l
u
s
i
v
e

d
e

O
l
i
v
i
e
r

B
E
R
N
H
A
R
D

(
o
l
i
v
i
e
r
.
s
i
m
p
l
e
l
i
f
e
@
g
m
a
i
l
.
c
o
m
)

-

1
2

m
a
i

2
0
1
4


1
4
:
2
2
Chapitre 6 Transfert de connaissances et apprentissage par analogie 201
connaissance qui permet de pouvoir tirer parti de trs peu dexemples, grce des raisonnements
enrichissant lexprience. Cest aussi cette connaissance qui peut ventuellement tre modie
dans lapprentissage.
2. Lapprentissage par examen de preuve (EBL)
En schmatisant, le problme tudi dans lapprentissage par examen de preuve (Explanation-
Based Learning : EBL) est de calculer la rponse associe une situation ou une forme x A.
Il se peut que la recherche de cette rponse soit impossible pour le systme, ou du moins quelle
soit trs coteuse. Lapprentissage consiste alors rendre la recherche plus facile la prochaine
fois, do parfois lemploi du terme de speed-up learning, et ceci non seulement pour la situation
x, mais aussi pour des situations semblables. Il faut bien sr dnir la notion de similarit. Dans
le cas de lEBL, elle est obtenue partir de lutilisation de la thorie du