Robotique Mobile - ENSTA ParisTech

David FILLIAT
Ecole Nationale Suprieure de Techniques Avances

Robotique Mobile
2
Cette cration est mise disposition selon le Contrat Paternit-Pas dUtilisation Commerciale-
Partage des Conditions Initiales lIdentique 2.0 France disponible en ligne :
http://creativecommons.org/licenses/by-nc-sa/2.0/fr/
ou par courrier postal Creative Commons, 171 Second Street, Suite 300, San Francisco,
California 94105, USA.
Ce document volue rgulirement. Si vous avez des remarques ou des suggestions pour
maider le faire progresser, ou simplement si il vous a t utile, nhsitez pas mcrire :
david.filliat@ensta.fr
Robotique Mobile - david.lliat@ensta.fr 4
TABLE DES MATIRES
Table des matires
1 Introduction 9
1.1 Robot Mobile . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.2 Objectifs du cours . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.3 Aperu historique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.4 Exemples dapplications . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
I Les bases de la navigation 15
2 Les diffrents types de navigation 19
2.1 Les stratgies de navigation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
2.2 Les architectures de contrle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
2.2.1 Contrleurs Hirarchiques . . . . . . . . . . . . . . . . . . . . . . . . . . 23
2.2.2 Contrleurs ractifs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
2.2.3 Contrleurs hybrides . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
2.2.4 Pour aller plus loin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
3 Les sources dinformation 27
3.1 Informations proprioceptives . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
3.2 Informations extroceptives . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
3.2.1 Variabilit perceptuelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
3.2.2 Perceptual aliasing . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
3.2.3 Utilisation directe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
3.2.4 Utilisation dun modle mtrique . . . . . . . . . . . . . . . . . . . . . . . 30
4 Matriels courants en robotique mobile 35
4.1 Les effecteurs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
4.1.1 Les plates-formes diffrentielles . . . . . . . . . . . . . . . . . . . . . . . 35
4.1.2 Les plates-formes omnidirectionnelles . . . . . . . . . . . . . . . . . . . . 37
4.1.3 Les plates-formes non holonomes . . . . . . . . . . . . . . . . . . . . . . 37
4.1.4 Les plates-formes pattes . . . . . . . . . . . . . . . . . . . . . . . . . . 38
4.2 Les capteurs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
4.2.1 Les capteurs proprioceptifs . . . . . . . . . . . . . . . . . . . . . . . . . . 38
4.2.2 Les tlmtres . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
5 Robotique Mobile - david.lliat@ensta.fr
TABLE DES MATIRES
4.2.3 Les camras . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
4.2.4 Autres capteurs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
4.3 Pour aller plus loin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
II Navigation ractive 51
5 Navigation vers un but 55
5.1 Vhicules de Braitenberg . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
5.2 Modle de Cartwright et Collet . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
5.3 Asservissement visuel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
6 vitement dobstacles 59
6.1 Mthode des champs de potentiel . . . . . . . . . . . . . . . . . . . . . . . . . . 59
6.2 Mthode Vector Field Histogram . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
6.3 Mthode de la fentre dynamique . . . . . . . . . . . . . . . . . . . . . . . . . . 62
7 Apprentissage par renforcement 65
7.1 Formalisation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
7.2 Programmation dynamique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
7.2.1 valuation dune politique . . . . . . . . . . . . . . . . . . . . . . . . . . 69
7.2.2 Amlioration dune politique . . . . . . . . . . . . . . . . . . . . . . . . . 70
7.2.3 Algorithmes dapprentissage . . . . . . . . . . . . . . . . . . . . . . . . . 70
7.3 Mthodes de Monte-Carlo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
7.3.1 valuation dun politique . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
7.3.2 Besoin dexploration . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72
7.3.3 Algorithmes dapprentissage . . . . . . . . . . . . . . . . . . . . . . . . . 72
7.4 Apprentissage par diffrences temporelles . . . . . . . . . . . . . . . . . . . . . 72
7.5 Traces dligibilit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74
7.6 Application pratique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
7.7 Exemple de mise en uvre . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76
III Navigation utilisant une carte 79
8 Localisation, Cartographie et Planication 83
8.1 Les trois problmes de la navigation par carte . . . . . . . . . . . . . . . . . . . . 83
8.2 Quelques hypothses de travail . . . . . . . . . . . . . . . . . . . . . . . . . . . 84
8.2.1 Estimation de la position et de la direction . . . . . . . . . . . . . . . . . . 84
8.2.2 Environnements statiques et dynamiques . . . . . . . . . . . . . . . . . . 85
TABLE DES MATIRES
9 Les reprsentations de lenvironnement 87
9.1 Cartes topologiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
9.1.1 Description . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
9.1.2 Avantages . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89
9.1.3 Inconvnients . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89
9.1.4 Implantation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90
9.2 Cartes mtriques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93
9.2.1 Description . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93
9.2.2 Avantages . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93
9.2.3 Inconvnients . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94
9.2.4 Implantation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94
9.3 Fusion de capteurs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97
10 Localisation 99
10.1 Diffrentes capacits de localisation . . . . . . . . . . . . . . . . . . . . . . . . . 99
10.2 Estimation de la position par les perceptions . . . . . . . . . . . . . . . . . . . . 101
10.2.1 Cartes topologiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101
10.2.2 Cartes mtriques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102
10.2.3 Corrlation de cartes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104
10.2.4 Limitations de lestimation de la position par les perceptions . . . . . . . . 106
10.3 Suivi dune hypothse unique . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106
10.3.1 Cartes topologiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106
10.3.2 Cartes mtriques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107
10.3.3 Le ltrage de Kalman pour la localisation . . . . . . . . . . . . . . . . . . . 108
10.3.4 Limitations du suivi de position . . . . . . . . . . . . . . . . . . . . . . . . 114
10.4 Suivi de plusieurs hypothses . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114
10.4.1 Suivi explicite de plusieurs hypothses . . . . . . . . . . . . . . . . . . . . 115
10.4.2 Le ltrage Baysien . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117
10.4.3 Filtrage Baysien dans le cas discret . . . . . . . . . . . . . . . . . . . . . 120
10.4.4 Filtrage particulaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121
10.5 Comparaison des mthodes de localisation . . . . . . . . . . . . . . . . . . . . . 127
11 Cartographie 129
11.1 Les problmes de la cartographie . . . . . . . . . . . . . . . . . . . . . . . . . . 129
11.1.1 Limitation des mthodes de localisation . . . . . . . . . . . . . . . . . . . 129
11.1.2 Cartographie incrmentale et retour en arrire . . . . . . . . . . . . . . . . 131
11.2 Cartographie incrmentale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131
11.2.1 Cartes Topologiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 132
11.2.2 Cartes mtriques : corrlation de scan . . . . . . . . . . . . . . . . . . . . 133
11.2.3 Cartes mtriques : grilles doccupation . . . . . . . . . . . . . . . . . . . . 133
11.2.4 Stratgies dexploration . . . . . . . . . . . . . . . . . . . . . . . . . . . . 137
11.3 Retour sur les modications passes . . . . . . . . . . . . . . . . . . . . . . . . 138
11.3.1 Simultaneous Localization And Mapping (SLAM) . . . . . . . . . . . . . . 138
TABLE DES MATIRES
11.3.2 Fast SLAM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 142
11.4 Comparaison des mthodes de cartographie . . . . . . . . . . . . . . . . . . . . 143
12 Planication 147
12.1 Espace des congurations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 147
12.2 Discrtisation de lespace de recherche . . . . . . . . . . . . . . . . . . . . . . . 147
12.3 Recherche de chemin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 148
12.3.1 Deux types de plan . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 148
12.3.2 Calcul de politique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 151
12.3.3 Calcul dun chemin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 152
12.4 Exemples de politiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 153
12.5 Choix de laction avec une position incertaine . . . . . . . . . . . . . . . . . . . . 153
Index 156
Bibliographie 157
CHAPITRE 1. INTRODUCTION
Chapitre 1
Introduction
1.1 Robot Mobile
Il existe diverses dnitions du terme robot, mais elles tournent en gnral autour de celle-ci :
Un robot est une machine quipe de capacits de perception, de dcision et daction qui lui
permettent dagir de manire autonome dans son environnement en fonction de la perception
quil en a.
Environnement
Architecture de controle
Perceptions
Actions
Dcisions
Modle interne
FIG. 1.1: Schma des interactions dun robot avec son environnement. Le modle interne de
lenvironnement est optionnel. Un robot peut fonctionner sans en utiliser.
Cette dnition sillustre par un schma classique des interactions dun robot avec son en-
vironnement (Figure 1.1). Les diffrentes notions que nous prsenterons dans se cours sont
essentiellement issues de cette vision de la robotique, donne par lIntelligence Articielle, qui
place au centre des proccupations lenchanement de ce cycle Perception/Dcision/Action . La
manire dont un robot gre ces diffrents lments est dnie par son architecture de contrle,
qui peut ventuellement faire appel un modle interne de lenvironnement pour lui permettra
alors de planier ses actions long terme.
1.2. OBJECTIFS DU COURS
1.2 Objectifs du cours
Lobjectif de ce cours est de fournir un aperu des problmes de la robotique mobile et des
solutions actuelles. Ce cours se veut proche de la recherche, en prsentant des mthodes appa-
rues dans les dernires annes, mais prsente galement toutes les notions de base ncessaires
leur comprhension, ainsi quun panorama de techniques classiques dont la porte va au del
de leur application en robotique mobile. La lecture des nombreuses rfrences des articles
scientiques nest videment pas utile pour la comprhension du cours, mais doit permettre dap-
profondir des points particuliers hors de la porte de ce cours.
La robotique mobile est un domaine dans lequel lexprience pratique est primordiale. Au
del des mthodes prsente dans ce texte, le projet pratique associ que devront raliser les
tudiants apportera galement son lot de connaissance irremplaables.
Lapproche de la robotique prsente dans ce cours est essentiellement celle issue de lin-
telligence articielle. Dautres disciplines, telles que lautomatique, sont toutefois impliques et
peuvent prsenter un clairage diffrent, mais ne changent pas fondamentalement les problmes
qui restent rsoudre.
1.3 Aperu historique
FIG. 1.2: La tortue de Grey Walter (nomme machina speculatrix et surnomme Elsie) et
une illustration de sa trajectoire pour rejoindre sa niche.
Le terme de robot apparat pour la premire fois dans une pice de Karel Capek en 1920 :
Rossums Universal Robots. Il vient du tchque robota ( servitude) et prsente une vision des
robots comme serviteurs dociles et efcaces pour raliser les taches pnibles mais qui dj vont
se rebeller contre leurs crateurs.
La Tortue construite par Grey Walter dans les anne 1950 (Figure 1.2), est lun des tout
premiers robots mobiles autonomes. Grey Walter nutilise que quelques composants analogiques,
dont des tubes vide, mais son robot est capable de se diriger vers une lumire qui marque un
but, de sarrter face des obstacles et de recharger ses batteries lorsquil arrive dans sa niche.
Toutes ces fonctions sont ralises dans un environnement entirement prpar, mais restent
des fonctions de base qui sont toujours sujets de recherche pour les rendre de plus en plus
gnriques.
FIG. 1.3: A gauche : Robot "Beast" de luniversit John Hopkins dans les annes 1960. A
droite : Le robot Shakey de Stanford en 1969 a t une plate-forme de dmonstration des
recherches en intelligence articielle.
Dans les annes 60, les recherches en lectronique vont conduire, avec lapparition du tran-
sistor, des robots plus complexes mais qui vont raliser des tches similaires. Ainsi le robot
"Beast" (Figure 1.3) de luniversit John Hopkins est capable de se dplacer au centre des cou-
loirs en utilisant des capteurs ultrason, de chercher des prises lectriques (noires sur des murs
blanc) en utilisant des photo-diodes et de sy recharger.
Les premier liens entre la recherche en intelligence articielle et la robotique apparaissent
Stanford en 1969 avec Shakey (Figure 1.3). Ce robot utilise des tlmtres ultrason et une
camra et sert de plate-forme pour la recherche en intelligence articielle, qui lpoque travaille
essentiellement sur des approches symboliques de la planication. La perception de lenviron-
nement, qui lpoque est considre comme un problme spar, voire secondaire, se rvle
particulirement complexe et conduit l aussi de fortes contraintes sur lenvironnement. Ces
dveloppements de poursuivent avec le Stanford Cart dans les annes 1980, avec notamment
les premires utilisations de la stro-vision pour la dtection dobstacles et la modlisation de
lenvironnement.
Une tape importante est signaler au dbut des annes 1990 avec lapparition de la robo-
tique ractive, reprsente notamment par Rodney Brooks. Cette nouvelle approche de la robo-
tique, qui met la perception au centre de la problmatique, a permis de passer de gros robots
trs lents de petits robots (Figure 1.5), beaucoup plus ractifs et adapts leur environnement.
1.4. EXEMPLES DAPPLICATIONS
FIG. 1.4: Le Stanford Cart date des annes 1980.
Ces robots nutilisent pas ou peu de modlisation du monde, problmatique qui sest avre tre
extrmement complexe.
Ces dveloppements ont continu depuis et larrive sur le march depuis les annes 1990
de plates-formes intgres a permis de trs nombreux laboratoires de travailler sur la robotique
mobile et conduit une explosion de la diversit des thmes de recherche. Ainsi, mme si les
problmes de dplacement dans lespace restent difciles et cruciaux, des laboratoires ont pu par
exemple travailler sur des approches multi-robot, la problmatique de lapprentissage ou sur les
problmes dinteractions entre les hommes et les robots.
1.4 Exemples dapplications
Aujourdhui, le march commercial de la robotique mobile est toujours relativement restreint,
mais il existe de nombreuses perspectives de dveloppement qui en feront probablement un
domaine important dans le futur. Les applications des robots peuvent se trouver dans de nom-
breuses activits "ennuyeuses, salissantes ou dangereuses" (3 Ds en anglais pour Dull, Dirty,
Dangerous), mais galement pour des applications ludiques ou de service, comme lassistance
aux personnes ges ou handicapes. Parmis les domaines concerns, citons :
La robotique de service (hpital, bureaux)
La robotique de loisir (aibo, robot compagnon)
La robotique industrielle ou agricole (entrepts, rcolte de productions agricoles, mines)
La robotique en environnement dangereux (spatial, industriel, militaire)
FIG. 1.5: Genghis, dvelopp par Rodney Brooks au MIT au dbut des annes 1990.
A cela, sajoute a lheure actuelle des nombreuses plates-formes conues essentiellement
pour les laboratoires de recherche. La gure 1.6 montre quelques exemples de robot rels.
1.4. EXEMPLES DAPPLICATIONS
FIG. 1.6: Exemples de robots utiliss dans diffrentes applications.
Premire partie
Les bases de la navigation
Dans cette partie, nous prsentons les diffrents types de navigation quun robot mobile peut
raliser, puis les informations que le robot pourra utiliser pour se dplacer. Enn, nous prsentons
les materiels courants utiliss en robotique.
CHAPITRE 2. LES DIFFRENTS TYPES DE NAVIGATION
Chapitre 2
Les diffrents types de navigation
2.1 Les stratgies de navigation
Les stratgies de navigation permettant un robot mobile de se dplacer pour rejoindre un
but sont extrmement diverses, de mme que les classications qui peuvent en tre faites. An
de situer ce type de navigation dans son contexte gnral, nous reprenons ici une classica-
tion tablie par Trullier et al. [103, 105], laquelle prsente lavantage de distinguer les stratgies
sans modles internes et les stratgies avec modle interne. Cette classication comporte cinq
catgories, de la plus simple la plus complexe :
Approche dun objet : cette capacit de base permet de se diriger vers un objet visible
depuis la position courante du robot. Elle est en gnral ralise par une remonte de
gradient base sur la perception de lobjet, comme dans lexemple clbre des vhicules
de Valentino Braitenberg [14] (voir section 5.1) qui utilisent deux capteurs de lumire pour
atteindre ou fuir une source lumineuse. Cette stratgie utilise des actions rexes, dans
lesquelles chaque perception est directement associe une action. Cest une stratgie
locale, cest--dire fonctionnelle uniquement dans la zone de lenvironnement pour laquelle
le but est visible.
Guidage : cette capacit permet datteindre un but qui nest pas un objet matriel direc-
tement visible, mais un point de lespace caractris par la conguration spatiale dun en-
semble dobjets remarquables, ou amers, qui lentourent ou qui en sont voisins. La strat-
gie de navigation, souvent une descente de gradient galement, consiste alors se diri-
ger dans la direction qui permet de reproduire cette conguration. Cette capacit semble
utilise par certains insectes, comme les abeilles [20], et a t utilise sur divers robots
[42, 65, 46] (voir section 5.2). Cette stratgie utilise galement des actions rexes et ra-
lise une navigation locale qui requiert que les amers caractrisant le but soient visibles.
Action associe un lieu : cette capacit est la premire capacit ralisant une navigation
globale, cest--dire qui permette de rejoindre un but depuis des positions pour lesquelles
ce but ou les amers qui caractrisent son emplacement sont invisibles. Elle requiert une
reprsentation interne de lenvironnement qui consiste dnir des lieux comme des zones
de lespace dans lesquelles les perceptions restent similaires, et associer une action
2.1. LES STRATGIES DE NAVIGATION
a
D
A
a
a a a
a
a
a
a a
a
Direction prendre pour atteindre le lieu A
Trajectoire suivie par lanimat
Obstacles
Lieux mmoriss
Zone inexplore
FIG. 2.1: Action associe un lieu. En chaque lieu, reprsent par un cercle, laction
accomplir pour rejoindre le but A est reprsente par une che indiquant la direction suivre
partir de ce lieu. Cette stratgie permet de rejoindre un but distant dans lenvironnement
mais repose sur des chemins gs. Dans cet exemple, le chemin joignant le lieu D au lieu
A et passant par la droite de lobstacle a t appris. Rejoindre le lieu A depuis le lieu D ne
pourra alors tre ralis que par ce chemin. Le raccourci empruntant le chemin de gauche,
par exemple, est inutilisable.
effectuer chacun de ces lieux (cf. gure 2.1). Lenchanement des actions associes
chacun des lieux reconnus dnit une route qui permet de rejoindre le but. Ces modles
permettent donc une autonomie plus importante mais sont limits un but x. Une route
qui permet de rejoindre un but ne pourra en effet pas tre utilise pour rejoindre un but
diffrent. Changer de but entranera lapprentissage dune nouvelle route, indpendante
des routes permettant de rejoindre les autres buts.
B
D
A
Possibilit de passer dun lieu un autre
Obstacles
Lieux mmoriss
Zone inexplore
FIG. 2.2: Navigation topologique. Cette stratgie permet de mmoriser un ensemble de
lieux et les possibilits de passer de lun lautre, indpendamment de tout but. Pour rejoindre
un but, il faut alors une tape de planication qui permet de rechercher, parmi tout les chemins
possibles, le chemin rejoignant le but. Dans notre exemple, le chemin le plus court entre D et
A peut alors tre calcul, mais uniquement parmi les lieux et les chemins dj connus. Cette
stratgie permet, par exemple, de contourner lobstacle par la gauche mais ne permet pas de
le traverser en ligne droite de D A.
Navigation topologique : cette capacit est une extension de la prcdente qui mmo-
rise dans le modle interne les relations spatiales entre les diffrents lieux. Ces relations
indiquent la possibilit de se dplacer dun lieu un autre, mais ne sont plus associes
un but particulier. Ainsi le modle interne est un graphe qui permet de calculer diffrents
chemins entre deux lieux arbitraires. Ce modle ne permet toutefois que la planication de
dplacements parmi les lieux connus et suivant les chemins connus (cf. gure 2.2).
B
D
A
dduite de leur position relative
x
y
Obstacles
Lieux mmoriss
Zone inexplore
FIG. 2.3: Navigation mtrique. Cette stratgie permet de calculer le chemin le plus court
entre deux lieux mmoriss, permettant mme de planier des raccourcis au sein de zones
inexplores de lenvironnement. Pour cela, la carte mmorise la position mtrique relative de
chacun des lieux visits par le robot. Ainsi il est possible de prvoir un dplacement entre
deux lieux, mme si la possibilit de ce dplacement nest pas enregistre dans la carte.
Dans cet exemple, cette stratgie permet de daller du lieu A au lieu D en traversant la zone
inexplore.
Navigation mtrique : cette capacit est une extension de la prcdente car elle permet
au robot de planier des chemins au sein de zones inexplores de son environnement.
Elle mmorise pour cela les positions mtriques relatives des diffrents lieux, en plus de
la possibilit de passer de lun lautre. Ces positions relatives permettent, par simple
composition de vecteurs, de calculer une trajectoire allant dun lieu un autre, mme si la
possibilit de ce dplacement na pas t mmorise sous forme dun lien (cf. gure 2.3).
Les modles des trois premires catgories utilisent des actions rexes pour guider le robot
et se diffrencient essentiellement par le type de perceptions utilises pour dclencher ces ac-
tions. Ils se regroupent sous le terme gnrique de navigation ractive dont nous parlerons dans
la partie II. Ils peuvent tre trs simple, ne ncessitent pas de modle global de lenvironnement
mais ont un domaine dapplication souvent restreint. Dans le monde vivant, ces stratgies sont
trs rpandues, notamment chez les insectes. Les comportements de ce type restent toutefois
essentiels dans les robots modernes car, du fait de leur simplicit, il sont gnralement excuts
trs rapidement et ils permettent de raliser des taches de bas-niveau, comme lvitement des
obstacles imprvus, essentielles la scurit dun robot.
Les modles des deux dernires catgories autorisent pour leur part une navigation globale
et permettent de rejoindre un but arbitraire au sein de lenvironnement. Ils sappuient pour cela
sur un modle interne du monde, une carte, qui supporte une planication. Ce modle interne
mmorise donc la structure spatiale de lenvironnement, indpendamment dun but prcis. Cha-
cune des positions mmorises dans ce modle interne peut alors tre utilise comme but par
le processus de planication dont le rle est de calculer une route vers ce but. Ce sont ces deux
stratgies qui sont regroupes sous le terme de navigation par carte, objet du chapitre III .
2.2. LES ARCHITECTURES DE CONTRLE
Une telle reprsentation interne est naturelle pour les tres humains, pour lesquels des pro-
cessus cognitifs de haut niveau sont utiliss pour crer et utiliser une carte. Ces processus de
haut niveau sont toutefois trs difcile copier pour un robot rel qui ne dispose que de systmes
rudimentaires de perception et de traitement des informations en comparaison avec un homme.
Par exemple, en environnement urbain, le processus de mise en correspondance de la carte avec
lenvironnement rel an de dterminer sa position fait souvent appel, pour lhomme, la lecture
du nom des rues inscrit sur les btiments, ce qui est relativement difcile automatiser, cause
de la diversit des congurations dans lesquelles peuvent ce trouver ces noms. On notera au
passage que lhomme a quasiment toujours recours des amnagements particuliers de len-
vironnement, par exemple celui qui consiste nommer les rues, pour faciliter les processus de
navigation. Le systme de navigation idal pour un robot mobile sera probablement celui qui sera
capable de tirer partie de toutes ces informations, qui ne lui sont a priori pas destines.
Lutilisation de cartes par un robot mobile comme le font les hommes est probablement hors de
notre porte pendant quelques annes, cependant il existe galement des preuves de lexistence
de reprsentations internes similaires de telles cartes chez les animaux, par exemple chez les
rats. Ces reprsentations sont identiables au niveau neurologiques dans certaines parties de
leur cerveau, notamment dans lhippocampe. Cela montre que des cartes sont utilise par des
tres vivants, sans le support de concept abstraits tels que les utilisent les humains. Ce type de
carte qui fait appel des structures neurologiques de base et probablement des perceptions
relativement simples, est un paradigme intressant pour les robots mobiles.
En robotique mobile, comme pour lhomme ou certains animaux, lutilisation de cartes est
quasiment indispensable pour permettre deffectuer des tches de navigation dans des condi-
tions environnementales complexes, qui ne sont pas spcialement adaptes pour le robot. La
construction et lutilisation de telles cartes posent cependant de nombreux problmes, notam-
ment pour garantir ladquation entre la carte et le monde rel. Pour cette raison, la plupart des
robots trouvent aujourdhui un compromis entre une approche ractive et une approche utilisant
une carte an de bncier de la rapidit et de la robustesse de la premire et de la capacit de
dplacement long terme de la seconde.
2.2 Les architectures de contrle
Un robot est un systme complexe qui doit satisfaire des exigences varies et parfois contra-
dictoires. Un exemple typique pour un robot mobile est larbitrage qui doit tre fait entre lexcution
la plus prcise possible dun plan prtabli pour atteindre un but et la prise en compte dlments
imprvus, tels que les obstacles mobiles. Ces arbitrages, que ce soit au niveau de lutilisation des
capteurs, des effecteurs ou des ressources de calcul, sont rgls par un ensemble logiciel appel
architecture de contrle du robot. Cette architecture permet donc dorganiser les relations entre
les trois grandes fonctions que sont la perception, la dcision et laction .
Nous pouvons reprendre la dnition de Ronald Arkin [2] de lart de concevoir de telles archi-
tectures :
Robotic architecture is the discipline devoted to the design of highly specic and individual robots
from a collection of common software building blocks.
Bien que dans cette dnition une architecture soit conue pour un robot prcis, ces archi-
tectures peuvent nanmoins tre classes en trois grandes catgories que nous dtaillerons par
la suite : les contrleurs hirarchiques, les contrleurs ractifs et les contrleurs hybrides (Fi-
gure 2.4). Comme le prcise cette dnition, par contre, toutes ces architectures ne diffrent pas
forcement par les mthodes lmentaires employes mais plutot par leur agencement et leur
relations.
A B C
PERCEPTION
PLANIFICATION
ACTION
PERCEPTION ACTION
PLANIFICATION
PERCEPTION ACTION
FIG. 2.4: Illustration des architectures classiques des contrleurs pour les robots mobiles :
Hirarchique (A), Ractive (B) et Hybride (C) (Voir le texte pour les dtails).
2.2.1 Contrleurs Hirarchiques
Historiquement, les premiers robots mobiles drivs des recherches en intelligence articielle
utilisaient des contrleurs hirarchiques (cf. gure 2.4) dont le fonctionnement repose essentielle-
ment sur la capacit de dcision travaillant sur un modle du monde suppos quasiment-parfait.
Ces architectures fonctionnent selon un cycle rigide de modlisation de lenvironnement, plani-
cation des actions au sein de cette reprsentation, puis excution du plan. La capacit de dcision
tait issue des premiers travaux en intelligence articielle et reposait essentiellement sur des trai-
tements de donnes symboliques. Ces architectures ont rapidement montr leurs limites et leur
incapacit fonctionner dans un environnement qui ne soit pas statique et simpli lextrme.
Lessentiel des problmes de ces architectures provient de lutilisation dun modle interne
central qui est le seul pris en compte pour guider le robot. Elles se trouvent confrontes tout les
problmes des premiers dveloppements de lintelligence articielle symbolique.
Ces architectures supposent premirement quun modle informatique du monde puisse re-
prsenter toutes les informations pertinentes pour le dplacement du robot. Or un tel modle ne
peut tre sufsant dans un environnement dynamique car au moment de la ralisation de lac-
tion lenvironnement peut avoir sufsamment chang pour que la dcision ne soit plus valide. Ce
problme tait particulirement crucial au dbut de la robotique mobile ou les capacits de calcul
limites entranaient des temps de planication de lordre de plusieurs dizaines de minutes. Mais
laugmentation des capacits de calcul ne suft pas rsoudre ce problme qui ne permet pas
de grer un environnement de travail raliste. Cest un problme intrinsque li dune part la
trop grande longueur de la boucle qui relie la perception laction et dautre part linvalidit de
lhypothse de monde clos faite en intelligence articielle
1
.
De plus, ces architectures permettent peu de contrle sur lexcution des actions. En effet,
une fois laction choisie, elle est excute en supposant le modle du monde correct et il ny a pas
de retour direct de la perception sur lexcution de laction. Les carts modles/environnement ne
peuvent tre pris en compte que via un nouveau cycle perception/modlisation/planication, ce
qui, par dnition, est trs peu ractif et conduit rapidement de graves problmes.
2.2.2 Contrleurs ractifs
Rodney Brooks [15] a propos une solution radicale tout ces problmes sous la forme
dune architecture ractive. Dans cette architecture, un ensemble de comportements ractifs,
fonctionnant en parallle, contrle le robot sans utiliser de modle du monde. Cette architecture
supprime videmment les problmes ds aux diffrences entre la ralit, dune part, et le modle
de lenvironnement du robot, dautre part, mais limite clairement les tches que peut effectuer le
robot (cf. [57] pour une critique). En effet, sans reprsentation interne de ltat de lenvironnement,
il est trs difcile de planier une suite dactions en fonction dun but atteindre. Les robots
utilisant cette architecture sont donc en gnral efcaces pour la tche prcise pour laquelle ils
ont t conus, dans lenvironnement pour lequel ils ont t prvus, mais sont souvent difciles
adapter une tche diffrente.
Les russites de ces architectures sont lies au couplage direct entre la perception et laction
qui permet une prise en compte trs rapide des phnomnes dynamiques de lenvironnement.
En donc une bonne robustesse dans des environnements complexes.
Comme nous lavons mentionn, ces architectures sont en gnral bases sur plusieurs com-
portements : vitement dobstacles, dplacement alatoire, dplacement vers un but, fuite dun
point... Pour guider le robot, il faut donc choisir chaque instant lequel de ces comportements
activer. Ce problme est connu dans la litrature scientique sous le nom de slection de lac-
tion. La solution propose par Brooks, larchitecture de subsomption est devenue un classique et
utilise une hirarchie des comportements qui se dclenchent donc selon un ordre de priorit en
fonction des perceptions du robot.
2.2.3 Contrleurs hybrides
La plupart des contrleurs actuellement utiliss choisissent une solution intermdiaire entre
ces deux approches sous la forme dune architecture hybride [78, 1]. Cette architecture se com-
pose de deux niveaux. Le premier est charg des tches de navigation de haut niveau, telles
que la localisation, la cartographie et la planication. Pour cela, il sappuie sur un second niveau
ractif qui est charg dexcuter les commandes avec le plus de prcision possible et de grer
1
Lhypothse de monde clos dit que la reprsentation symbolique dun problme va tre sufsante pour pouvoir
reprsenter toutes les consquences des actions ralises dans ce monde. Cela savre impossible en pratique pour
des problmes autre que des problmes jouets (par exemple un monde de cubes poss sur une table).
les lments non modliss de lenvironnement tels que les obstacles inconnus ou dynamiques.
Laction conjointe de ces deux niveaux permet de ragir rapidement face aux variations imprvues
de lenvironnement, tout en permettant la ralisation dactions planies plus long terme.
Le bas niveau de ces architectures peut tre ralis sous forme de comportements, tels que
ceux utiliss dans les architectures ractives. Ces comportements sont des boucles sensorimo-
trices qui relient les action aux perceptions avec un phase de dcision trs courte, qui assure la
ractivit. Dans le mme temps, les informations sensorielles sont utilises par le haut niveau
dans une boucle sensorimotrice une chelle de temps beaucoup plus longue. Cest la mise en
parallles de ces deux chelles de temps qui fait la force de ces architectures.
Les exemples darchitectures hybrides foisonnent actuellement (4D/RCS, 3T, Harpic...) car la
plupart des gros laboratoires ont dvelopp leur architecture de ce type.
2.2.4 Pour aller plus loin
Deux livres intressants sur le sujet :
Introduction to AI Robotics de Robin Murphy, MIT Press
Behavior based robotics de Ronald C. Arkin, MIT Press
CHAPITRE 3. LES SOURCES DINFORMATION
Chapitre 3
Les sources dinformation
La navigation repose sur deux types gnraux dinformations diffrentes : les informations
proprioceptives et les informations extroceptives.
Les informations proprioceptives sont des informations internes au robot qui le renseignent,
dans le cas de la navigation, sur son dplacement dans lespace. Ces informations peuvent
provenir de la mesure de la rotation de ses roues ou de la mesure de lacclration grce
une centrale inertielle. Un processus dintgration permet alors, en accumulant ces in-
formations au cours du temps, destimer la position relative de deux points par lesquels le
robot est pass.
Les informations extroceptives ou plus simplement les perceptions, sont des informations
caractristiques dune position que le robot peut acqurir dans son environnement. Ces
informations peuvent tre de nature trs varie. Par exemple, un robot peut mesurer la
distance des obstacles avec des capteurs infrarouges ou utiliser une camra.
Ces deux sources dinformation ont des proprits opposes que nous allons dtailler dans
les deux sections suivantes.
3.1 Informations proprioceptives
Les informations proprioceptives renseignent sur le dplacement du robot dans lespace. Elles
constituent donc une source dinformation trs importante pour la navigation. Cependant, la qua-
lit de cette information se dgrade continuellement au cours du temps, la rendant inutilisable
comme seule rfrence long terme. Cette dgradation continuelle provient de lintgration tem-
porelle des mesures effectues par les capteurs internes. En effet, chaque capteur produit une
mesure bruite de la vitesse ou de lacclration du robot. Ce bruit, via le processus dintgration
qui a pour but destimer le dplacement, conduit invitablement une erreur croissante.
Malgr ce dfaut important, les informations proprioceptives ont lavantage de dpendre assez
peu des conditions environnementales qui perturbent fortement les informations perceptives. La
vision, par exemple sera fortement perturbe si lenvironnement est plong dans le noir, mais les
informations proprioceptives fourniront une information identique, que lenvironnement soit clair
ou non. De plus, comme nous le verrons dans la section suivante, si deux lieux identiques se
3.2. INFORMATIONS EXTROCEPTIVES
trouvent dans lenvironnement, les informations perceptives ne permettent pas de les diffrencier.
Les informations proprioceptives sont alors le seul moyen de les distinguer.
En robotique, cette information a de plus lavantage de la simplicit de manipulation. En ef-
fet, le processus dintgration fournit directement une estimation de la position du robot dans un
espace euclidien dot dun repre cartsien. Dans ce type de repre, tous les outils de la gom-
trie mathmatique sont utilisables. Ils permettent, par exemple, deffectuer des calculs de chemin
relativement simples lorsque lon connat la position du but et des obstacles.
3.2 Informations extroceptives
Les informations extroceptives, ou plus simplement les perceptions , fournissent un lien
beaucoup plus fort entre le robot et son environnement. En effet, les informations propriocep-
tives fournissent des informations sur le dplacement du robot, alors que les informations percep-
tives fournissent des informations directement sur la position du robot dans lenvironnement. Ces
informations assurent un ancrage dans lenvironnement, en permettant de choisir des percep-
tions qui peuvent tre utilises comme points de repre. Ces points de repre sont indpendants
des dplacements du robot et pourront tre reconnus quelle que soit lerreur accumule par les
donnes proprioceptives. La reconnaissance de ces points est videmment soumise une in-
certitude, mais pas une erreur cumulative, ce qui les rend utilisables comme rfrence long
terme.
3.2.1 Variabilit perceptuelle
Pour tre utile, un systme de perception doit donc permettre de distinguer le plus de lieux
possible. Pour cela, il doit tre capable de distinguer le plus de dtails possibles, an de faire la
diffrence entre deux lieux diffrents mais dapparences similaires. Or laugmentation de cette
capacit distinguer de petites variations dans lenvironnement rend le systme sensible au
problme de la variabilit perceptuelle , cest dire au changement de perception au cours du
temps pour un lieu donn. Cette variabilit peut tre due au bruit inhrent au processus de mesure
o des variations de lenvironnement non signicatives pour le problme de navigation qui nous
concerne, par exemple le changement de luminosit. Pour saffranchir de ce problme, il faut en
gnral mettre en place des processus de traitement des perceptions qui permettront de ne pas
dpendre de ces variations et de correctement identier un lieu donn.
3.2.2 Perceptual aliasing
En cherchant limiter la dpendance aux variations de lenvironnement, le concepteur de
robot aboutit en gnral au problme du perceptual aliasing. Ce problme dsigne lincapacit
dun systme de perception distinguer de manire unique tous les lieux dun environnement.
Cette situation est trs courante lorsque les robots utilisent des capteurs de distance aux obs-
tacles tels que les capteurs ultrasons. Dans un environnement intrieur de tels capteurs sont,
par exemple, capables de mesurer la position du robot par rapport un coin, mais ne fournissent
aucune information sur la position le long dun couloir rectiligne. Toutes les positions le long dun
couloir correspondent alors des perceptions identiques.
Deux solutions peuvent tre apportes ce problme. La premire est dutiliser des capteurs
qui fournissent des donnes plus prcises ou plus discriminantes. Dans le cas des capteurs
de distance, il est, par exemple, possible dutiliser un tlmtre laser qui pourra distinguer les
renfoncements des portes et sera ainsi plus prcis. Il est aussi possible dutiliser une camra,
qui sera sensible la couleur des murs, en plus de leur forme, et pourra ainsi discriminer entre
diffrentes positions dans un couloir. Toutefois, il est trs difcile de garantir a priori que toutes
les positions dun environnement seront reconnues de manire unique. Cette solution ne permet
donc pas, en gnral, de rgler compltement le problme du perceptual aliasing, mais seulement
den repousser lapparition.
La seconde solution est dutiliser des informations proprioceptives an de distinguer deux
positions physiquement diffrentes mais similaires pour le systme perceptif. Ainsi deux lieux,
dont la position relative mesure par les donnes proprioceptives est non nulle, ne seront pas
confondus. Cette solution est celle qui est mise en uvre dans la majorit des systmes de navi-
gation, car elle permet dutiliser les deux sources dinformations en limitant les dfauts inhrents
chacune. Ainsi la dgradation progressive des informations proprioceptives est compense par la
reconnaissance de positions de lenvironnement grce aux perceptions. Inversement, le problme
de perceptual aliasing est rgl par lutilisation des donnes proprioceptives.
Comme nous le verrons dans ce cours, il existe de nombreuses mthodes pour utiliser conjoin-
tement les deux sources dinformations. Ces mthodes diffrent par leur capacit utiliser de
manire plus ou moins efcace les avantages des deux types dinformations. Dune manire g-
nrale, la qualit dun systme de navigation dpend fortement de cette capacit.
3.2.3 Utilisation directe
Les capteurs sur un robot mobile peuvent tre de nature trs varie et tre utiliss de nom-
breuses faons diffrentes. Il est toutefois possible de distinguer deux utilisations distinctes de
leurs donnes pour la navigation. Ces deux utilisations dpendent de lutilisation ou non dun mo-
dle mtrique associ au capteur, modle qui permet de traduire les valeurs brutes du capteur
en informations sur la gomtrie de lenvironnement. Ce modle permet notamment de prvoir la
variation des mesures renvoyes par ce capteur en fonction du dplacement du robot.
Les perceptions peuvent tre utilises de manire directe, sans aucun modle mtrique. Cette
utilisation permet simplement de reconnatre une position qui a dj t visite en examinant les
perceptions recueillies en ce lieu. Cette mthode ne permet cependant que de reconnatre des
lieux de lenvironnement pralablement explors par le robot. Sans modle de la variation des
capteurs, il est en effet impossible de prvoir les valeurs que les capteurs relveront dans un lieu
inexplor, mme sil est proche ou entour de lieux connus.
Pour une telle utilisation directe, seules deux procdures permettant, dune part, de mmori-
ser une perception et, dautre part, de comparer deux perceptions, sont alors ncessaires. Ces
procdures peuvent tre mises en uvre partir de tous les types de capteurs existants. Il
est, par exemple, possible dutiliser la couleur dominante de lenvironnement autour du robot, la
temprature (en supposant quelle caractrise une zone de lenvironnement, comme pour une
chambre froide) ou le temps de retour dune onde sonore quand elle est envoye dans une di-
rection donne. La seule proprit utilise est la constance des valeurs mesures par un capteur
pour un lieu donn. Cette constance permet de reconnatre un lieu dj visit ou didentier un
lieu nouveau dans lenvironnement.
3.2.4 Utilisation dun modle mtrique
La seconde mthode dutilisation dun capteur consiste utiliser un modle mtrique associ
. Un tel modle permet de traduire les informations donnes par le capteur dans un espace
mtrique qui est en gnral le mme que celui utilis pour estimer la position du robot grce
lodomtrie. Il est ainsi possible destimer la position dobjets de lenvironnement par rapport au
robot, et ainsi de prvoir les donnes que ce capteur relvera pour des positions diffrentes du
robot. Lutilisation dun tel modle nest toutefois possible que pour certains capteurs. Il est, par
exemple, possible dutiliser un tel modle associ un capteur ultrasons, un tlmtre laser
ou une paire de camras stroscopique, mais pas un capteur dodeur.
a b
FIG. 3.1: Un modle mtrique pour un capteur permet deux utilisations de ses donnes. La
premire est similaire celle qui traite de telles donnes sans modle mtrique et requiert la
simple mmorisation de ce qui est peru en un lieu donn (Partie a). La seconde utilise ces
donnes pour reconstituer les objets rencontrs dans lenvironnement, objets qui pourront
tous tre mmoriss dans un cadre de rfrence commun, indpendamment de la position
depuis laquelle ils ont t perus (Partie b).
Avec un tel modle, les valeurs des capteurs peuvent tre utilises simplement pour carac-
triser chaque lieu atteint par le robot (cf. gure 3.1a). La mthode est alors la mme que celle
mise en place quand les capteurs sont utiliss sans modle mtrique. Lutilisation dun modle
mtrique prsente toutefois lavantage que les informations recueillies ont une smantique plus
forte. En effet, ces informations caractrisent la structure spatiale locale de lenvironnement, en
plus de la simple apparence de lenvironnement depuis la position du robot. Cette structure spa-
tiale peut alors tre utilise lors de la comparaison de diffrents lieux. Il est par exemple possible
de reconnatre un couloir en fonction de sa largeur, indpendamment de la position du robot dans
ce couloir. En effet, sans utilisation de modles mtriques, deux perceptions recueillies en des
positions diffrentes du couloir seront simplement diffrentes. En utilisant un modle mtrique,
il est possible de calculer la largeur du couloir, par exemple, partir des donnes recueillies et
ainsi de dterminer si ces deux positions peuvent correspondre au mme couloir.
y
x
a b c
A1
I1
A2
A3 ?
I2
A3 ?
A3
I1
A1 A2
I2
?
?
Environnement
Odomtrie
Modle mtrique
Pas de modle mtrique
Odomtrie
Mmorisation directe
Modle mtrique
Cadre de rfrence commun
FIG. 3.2: Un modle mtrique des perceptions permettent dinfrer les valeurs qui devraient
tre perues pour des positions encore non visites. Dans cet exemple, les donnes A1 et A2
sont perues en deux positions relies par des donnes proprioceptives I1 (partie a). Lutilisa-
tion dun modle mtrique permet de fusionner ces informations dans un cadre de rfrence
commun o des objets sont reprsents, ici deux murs orthogonaux (partie b, haut). Sans mo-
dle mtrique, ces donnes peuvent seulement tre mmorises de manire spare (partie
b, bas). Dans le cas de lutilisation dun modle mtrique, les donnes peuvent ensuite tre
utilises pour estimer la perception A3 pour une nouvelle position relie la prcdente par
les donnes proprioceptives I2. Ici, le modle permet dinfrer que les donnes A3 corres-
pondent un coin de murs (partie c, haut). Sans un tel modle, seules les positions visites
peuvent tre reconnues, et aucune infrence ne peut tre faite pour les positions non visites
(partie c, bas).
Cependant, grce un modle mtrique, les perceptions peuvent tre utilises de manire
diffrente. En effet, dans lutilisation prcdente, sans modle mtrique, elles sont utilises pour
caractriser lapparence de lenvironnement depuis un lieu. Cette caractrisation ne permet pas
didentier individuellement des objets distants du robot qui pourraient servir de points de repres,
les amers. Lutilisation dun modle mtrique permet lidentication de tels points (cf. gure 3.1b).
La perception de ces amers permet alors, en retour, dobtenir des informations sur la position
du robot. Cette utilisation des perceptions offre lavantage supplmentaire de permettre au robot
dinfrer les valeurs que mesureront les capteurs dans des positions diffrentes, mais voisines de
sa position courante (cf. gure 3.2). Par exemple, si un robot peroit un mur cinq mtres devant
lui, il peut prdire quen avanant dun mtre, il percevra le mur quatre mtres. Un autre moyen
de prsenter cette proprit est de dire que les perceptions seules permettent destimer la position
mtrique relative de deux lieux (cf. gure 3.3). Ainsi, si un robot peroit deux fois un mur devant
lui, dabord cinq mtres puis quatre mtres, il pourra en dduire quil a avanc dun mtre.
Cette proprit permet au robot destimer sa position avec prcision sur une part plus importante
de son environnement et ne limite plus la localisation aux lieux dj visits. Cet avantage est une
consquence directe de la fusion des informations proprioceptives et des perceptions au sein
dune mme reprsentation, qui permet le passage dun type dinformation lautre.
A1
A2
I1 = 0
A1
A2
I1?
A2
A1
b a c
Environnement
Modle mtrique
Pas de modle mtrique
Correspondance
Correspondance
DIFFERENT
I1
I1
FIG. 3.3: Un modle mtrique des capteurs permet dinfrer la position relative I1 de deux
lieux depuis lesquelles des perceptions A1 et A2 ont t ralises (partie a). Cette estimation
requiert dabord la recherche dun objet de lenvironnement commun aux deux perceptions
(partie b, haut). Lutilisation de cet objet commun rend alors possible lestimation de la position
relative I1 des deux lieux (partie c, haut). Sans modle mtrique, seule la similarit de deux
perceptions peut tre mesure (partie b, bas). Il est alors seulement possible destimer si ces
deux situations peuvent correspondre au mme lieu ou non, cest--dire si I1 est nulle ou non
(partie c, bas).
Toutefois, la mise au point dun tel modle mtrique peut tre difcile. La relation qui lie la
valeur mesure par un capteur la position des objets du monde rel peut tre, en effet, trs
complexe. Dans le cas des capteurs ultrasons, par exemple, si un mur se trouve juste dans laxe
du capteur, sa distance est simplement mesure par le temps mis par londe sonore pour revenir
au capteur. Mais, dans le cas o le mur est fortement inclin par rapport au capteur, lcho peut ne
pas revenir en direction du capteur qui ne dtectera alors aucun obstacle. Un autre problme vient
de la texture des murs. Un mur recouvert de textile ou dun matriau souple renverra les chos
trs diffremment dun mur de bton. En consquence, pour une distance donne, le capteur
percevra des distances diffrentes suivant le matriau des murs. Ces deux exemples montrent
que le modle mtrique associ un capteur ne dpend pas que du capteur. Il dpend aussi
fortement de proprits locales de lenvironnement qui sont difciles ou impossibles prendre en
compte dans un modle du capteur seul.
CHAPITRE 4. MATRIELS COURANTS EN ROBOTIQUE MOBILE
Chapitre 4
Matriels courants en robotique mobile
4.1 Les effecteurs
Nous prsentons ici les diffrents types de bases mobiles utilises en robotique, en nous
focalisant sur le milieu intrieur. Nous ne mentionnons pas les effecteurs permettant au robot
dagir sur son environnement, tels que les bras articuls.
4.1.1 Les plates-formes diffrentielles
FIG. 4.1: Pioneer 2 DX de la socit ActivMedia.
Une des congurations les plus utilises pour les robots mobiles dintrieur est la conguration
diffrentielle qui comporte deux roues commandes indpendemment. Une ou plusieurs roues
folles sont ajoutes lavant ou larrire du robot pour assurer sa stabilit (Figure 4.2, 4.1).
Cette plate-forme est trs simple commander, puisquil suft de spcier les vitesses des deux
roues, et permet de plus au robot de tourner sur place. Cette possibilit permet de traiter le robot
comme un robot holonome , cest dire un robot pouvant se dplacer dans toutes les directions
4.1. LES EFFECTEURS
depuis sa position courante (au contraire dune voiture par exemple qui est non-holonome). Cette
proprit simplie normement la planication de dplacement et la commande du robot.
r
l
v
1
FIG. 4.2: Exemple de plate-forme diffrentielle.
Lestimation du dplacement par odomtrie est galement trs simple partir de la mesure
des vitesses de rotation des deux roues
1
et
2
. Les vitesses de translation v et de rotation
sont en effet donnes par :
v =

1
r +
2
r
2
=

1
r
2
r
2l
Ce type de plate-forme peut galement tre utilis avec des chenilles ce qui fournit une capa-
cit de franchissement de petits obstacles intressante (Figure 4.3). Ces plates-formes peuvent
ainsi tre utilises en milieu urbain, ou dans des dcombres. Lutilisation de chenilles conduit
cependant une odomtrie trs bruite cause du contact mal dni entre les chenilles et le sol.
FIG. 4.3: Urban Robot de la socit iRobot.
FIG. 4.4: Exemple de plate-forme omnidirectionnelle.
4.1.2 Les plates-formes omnidirectionnelles
Les plates-formes omnidirectionnelles permettent de dcoupler de manire encore plus nette
le contrle de la rotation et de la translation dun robot et en font une plateforme rellement
holonome. Elles utilisent pour cela 3 ou quatre roues qui tournent la mme vitesse pour fournir
une translation et un mcanisme qui permet dorienter simultanment ces roues dans la direction
du dplacement souhaite (Figure 4.4). Le corps du robot lui-mme neffectue pas de rotation
mais uniquement des translations. Ce systme permet un contrle trs simple et relativement
rapide car les changement de direction ne concernent que les roues et peuvent donc se faire
trs vite. Par contre ces plates-formes sont relativement limites en capacit de franchissement
et requirent un sol trs plan.
4.1.3 Les plates-formes non holonomes
FIG. 4.5: Exemple de plate-forme non holonome.
Des plates-formes non holonomes , de type voiture, sont galement utilises en robotique mo-
bile (Figure 4.5). Ces plates-formes sont toutefois plus difcile commander car elle ne peuvent
pas tourner sur place et doivent manuvrer, ce qui peut tre difcile dans des environnements
4.2. LES CAPTEURS
encombrs. La commande de ces plates-formes pour raliser un dplacement particulier est un
problme part entire que nous naborderons pas dans ce cours.
4.1.4 Les plates-formes pattes
Des plates-formes deux, quatre ou six pattes peuvent galement tre utilise. Les plates-
formes six pattes sont relativement pratiques car le robot est en quilibre permanent, ce qui
facilite le contrle. Les plates-formes deux ou quatre pattes sont plus complexes commander
et le simple contrle de la stabilit et dune allure de marche correcte reste aujourdhui difcile,
ce qui les rend en gnral relativement lentes. Lodomtrie de ce type de plates-formes est de
plus gnralement de trs faible qualit. Ces diffrents facteurs font que ces plates-formes sont
rarement utilises quand lapplication vise a un besoin prcis de positionnement et de navigation.
De telles plates-formes commencent cependant apparatre relativement grande chelle
(par exemple le robot Aibo de Sony) et peuvent tre utilises en conjonction avec certaines m-
thodes de navigation prcises.
4.2 Les capteurs
Nous prsentons dans cette section les capteurs les plus couramment utiliss en robotique
mobile pour les besoins de la navigation.
4.2.1 Les capteurs proprioceptifs
Les capteurs proprioceptifs permettent une mesure du dplacement du robot. Ce sont les
capteurs que lon peut utiliser le plus directement pour la localisation, mais ils souffrent dune
drive au cours du temps qui ne permet pas en gnral de les utiliser seuls.
Lodomtrie
Lodomtrie permet destimer le dplacement partir de la mesure de rotation des roues (ou
du dplacement des pattes). La mesure de rotation est en gnral effectue par un codeur op-
tique dispos sur laxe de la roue, ou sur le systme de transmission (par exemple sur la sortie
de la boite de vitesse). Le problme majeur de cette mesure est que lestimation du dplacement
fournie dpend trs fortement de la qualit du contact entre la roue et le sol. Elle peut tre relati-
vement correcte pour une plate-forme deux roues motrices sur un sol plan de qualit uniforme,
mais est en gnral quasiment inutilisable seule pour un robot chenille par exemple. Notons
cependant que lerreur de ces mthodes se retrouve en gnral principalement sur lestimation
de la direction du robot, tandis que la mesure de la distance parcourue est souvent de meilleure
qualit.
La majorit des modles de localisation et de cartographie prsents dans ce cours (voir
chapitre III) vont faire appel un modle probabiliste de cette mesure. Ces modles vont donner,
en fonction de la mesure ralise, la probabilit du dplacement rel. Il existe divers types de
modles, mais les plus simples et les plus utiliss sont des modles de bruit gaussiens sur la
direction et la longueur du dplacement, ainsi que sur le changement de direction du robot. Le
carts types de ces diffrentes gaussiennes dpendent de la valeur de la mesure : lerreur sur la
longueur du dplacement est par exemple proportionnelle cette longueur (Figure 4.6).
FIG. 4.6: Exemple de modle probabiliste simple de lodomtrie. Le niveau de gris reprsente
la probabilit de la position aprs un dplacement rectiligne vers la droite. Le modle utilise
un bruit gaussien sur la longueur du dplacement et sur la direction du dplacement.
Il est bien sr possible dutiliser des modles beaucoup plus ns de lodomtrie, par exemple
en faisant une hypothse de bruit gaussien sur la mesure de rotation de chaque roue, et en en
dduisant lerreur de dplacement du robot.
Comme nous le verrons au chapitre sur la localisation, ces modles probabilistes peuvent
tre utiliss pour gnrer des positions possibles du robot selon la distribution de probabilit
dduite de la mesure de lodomtrie. Lapplication successive de plusieurs modles probabilistes
dduits de plusieurs mesures dodomtrie permet de les combiner et destimer la distribution de
probabilit de position nale du robot (Figure 4.7).
4.2. LES CAPTEURS
FIG. 4.7: Exemple de combinaison de mesures pour les modles probabilistes de lodomtrie.
Les systmes radar doppler
Au lieu de mesurer le dplacement par des mesures sur les roues, il est possible dutiliser un
petit radar point vers le sol qui permet de mesurer la vitesse du vhicule par effet Doppler. Ce
systme prsente lavantage dtre beaucoup plus prcis que la mesure passant par les roues,
et dtre indpendant des drapages possible de ces roues, mais est en gnral plus cher et
encombrant. Il est de plus trs rare sur les petites plates-formes car il ne peut mesurer de faibles
vitesses de dplacement.
Les systmes inertiels
La mesure de dplacement potentiellement la plus able provient de la mesure des accl-
rations de la plate-forme par des capteurs inertiels. Cette mesure est potentiellement able car
elle ne dpend pas de la nature locale de lenvironnement, cependant les capteurs inertiels sont
tous entachs de bruit de mesure qui produit une drive de lestimation de la position au cours du
temps.
La qualit des mesures inertielles dpend trs fortement du type de capteurs utilises. His-
toriquement, les premiers capteurs ont t raliss base de systmes mcaniques et peuvent
fournir des mesures extrmement prcise, au prix dun cot et dune masse trs levs. Ces der-
nires annes ont vu apparatre de nouvelles technologies de capteurs, notamment bass sur
les techniques de micro-lectronique, qui ont permis la ralisation de capteurs inertiels bas cot
et lapparition de ces capteurs dans des produits grand public. La prcision de ces capteurs est
toutefois de quelques ordres de grandeur plus faible, ce qui rend leur utilisation isole quasiment
impossible. Ces capteurs fournissent toutefois un trs bon complment lodomtrie, notamment
pour lestimation de la direction.
Lacclration en translation de la plate-forme est mesure par des acclromtres linraires.
On dispose en gnral deux acclromtres pour prendre des mesures dans deux directions
perpendiculaires du plan de dplacement du robot. Un troisime peut tre dispos verticalement
an de mesurer la position en trois dimensions.
Lacclration angulaire est mesure par des gyromtres. On dispose en gnral un gyro-
mtre selon laxe vertical, qui permet ainsi de mesurer langle de lacet du robot. Deux autres
gyromtres peuvent tre positionns selon deux axes du plan de dplacement an destimer la
direction en trois dimensions.
Il est galement possible de mesurer la rotation du robot par rapport un axe de rfrence en
utilisant un gyroscope. Cette mesure seffectue en gnral par rapport un axe de rfrence mis
en rotation et isol mcaniquement le plus possible du robot, ce qui rend sa direction indpen-
dante de la direction du robot. Cette mesure peut tre moins bruite que lintgration du signal
dacclration mais dpend trs fortement de la qualit de la ralisation mcanique du systme,
qui dpend trs directement du prix du gyroscope.
Lensemble de ces lments (3 acclromtres et 3 gyromtres) peut tre runi pour former
une centrale inertielle qui permet destimer compltement les six degrs de liberts de la position
dans un espace 3 dimensions. Les centrales inertielles bas cot sont cependant aujourdhui
de qualit insufsante pour une utilisation isole, tandis que les centrales de qualit correcte
restent trs chres. Ce domaine est cependant en volution rapide avec larrive de nouvelles
technologies et lapparition de centrales bas cot de qualit correcte devrait se faire dans les
prochaines annes.
Lutilisation des donnes fournies par ce type de senseurs passe aussi en gnral par un
modle probabiliste, qui peut tre du type de celui prsent pour lodomtrie.
4.2.2 Les tlmtres
Il existe diffrents types de tlmtres, qui permettent de mesurer la distance lenvironne-
ment, utilisant divers principes physiques.
Tlmtres ultrason
Les tlmtres ultrason sont historiquement les premiers avoir t utiliss. Il utilisent
la mesure du temps de retour dune onde sonore rchie par les obstacles pour estimer la
distance (Figure 4.8). Ces tlmtres sont trs simple et peu cher, et sont donc trs rpandus,
mais possdent de nombreux inconvnients.
4.2. LES CAPTEURS
Zone aveugle
Obstacle
Tlmtre
Distance mesure
cone de diffusion de londe sonore
FIG. 4.8: Principe du tlmtre ultrasons et exemple de tlmtre rel.
En premier lieu, deux tlmtres voisins ne peuvent tre utiliss simultanment, car il est
impossible de savoir par lequel des deux tlmtres une onde rchie a t mise (phnomne
de crosstalk). Un robot possdant plusieurs tlmtres doit donc les activer lun aprs lautre,
ce qui entrane un taux de rafrachissement global des mesures relativement faible.
Ces tlmtres possdent une zone aveugle, de quelques dizaines de centimtres, en des-
sous de laquelle ils ne peuvent dtecter les obstacles. Cette zone est due a une temporisation
entre lmission de londe sonore et le dbut de la dtection de londe rchie qui est ncessaire
pour ne pas perturber cette mesure.
De plus, londe rchie est trs sensible aux conditions environnementales locales. Ainsi, si
langle entre lobstacle et la direction de londe sonore est trop faible, il ny aura pas de retour de
londe sonore et lobstacle ne sera pas peru. Londe de retour dpend galement de la texture
de lobstacle. Un mur couvert de moquette pourra par exemple ne pas tre dtect.
Les tlmtres ultrason dtectent les obstacles se situant dans un cne relativement large
(dangle au sommet denviron 30 degrs). Cette caractristique peut tre la fois un avantage
et un inconvnient. Cest un inconvnient car un obstacle dtect nest pas localis en angle
lintrieur du cne de dtection, et on obtient donc une mesure de la position relativement
imprcise. Cest par contre un avantage car des lments relativement ns (les pieds de table ou
de chaise par exemple) sont dtects dans ce cne, alors quil pourraient ne pas tre dtects
par des tlmtres ayant un angle douverture trs n.
Tlmtres infrarouge
Ces tlmtres possdent lavantage davoir un cne de dtection beaucoup plus restreint. Il
utilisent une lumire infrarouge au lieu dune onde sonore pour la dtection et peuvent tre bass
sur diffrentes techniques qui permettent de recueillir plus ou moins dinformation.
Il est possible de mesurer simplement le retour ou le non-retour dune impulsion code, ce qui
permet de dtecter la prsence ou labsence dun obstacle dans une certaine portion de lespace.
Il est galement possible de raliser une triangulation sur le faisceau de retour de londe
lumineuse, ce qui permet davoir une mesure de la distance de lobstacle.
Les inconvnients de ces tlmtres sont lis leur porte, en gnral relativement restreinte,
et leur sensibilit aux fortes sources de lumires qui contiennent un fort rayonnement infrarouge.
Un projecteur du type de ceux utiliss pour la tlvision point sur le robot, par exemple, sature
en gnral compltement le rcepteur et empche toute dtection dobstacle. Ils sont galement
trs sensibles la couleur et la nature de la surface de lobstacle (par exemple, ils dtectent
difcilement les vitres).
Tlmtres laser
Les tlmtres les plus utiliss lheure actuelle pour des applications de cartographie et de
localisation sont les tlmtres laser balayage. Ils utilisent un faisceau laser mis en rotation an
de balayer un plan, en gnral horizontal, et qui permet de mesurer la distance des objets qui
coupent ce plan (Figure 4.9, 4.10). Cette mesure peut tre ralise selon diffrentes techniques
(mesure du temps de retour, interfromtrie...).
Tlmtre
Mesure obtenue
FIG. 4.9: Illustration dun tlmtre Laser.
Les tlmtres les plus courant ont une bonne rsolution angulaire car ils permettent dob-
tenir une mesure de distance tout les demi degrs, sur une zone de 180 ou 360 degrs selon
les modles. La mesure est de plus relativement prcise (avec un bruit de lordre de quelques
centimtres) une distance relativement grande (plusieurs dizaines de mtres). La frquence
dacquisition est en gnral de lordre de la dizaine de Hertz, voire proche de la centaine pour
certains modles.
Ces tlmtres sont trs utiliss en environnement intrieur car il fournissent des donnes
abondantes et prcises sur la position des objets caractristiques de lenvironnement tels que
les murs. Ils possdent toutefois un certain nombre dinconvnients. En premier lieu, leur zone
4.2. LES CAPTEURS
FIG. 4.10: Un exemple de Tlmtre Laser balayage, fournissant 720 mesure rparties sur
360 degrs, 5 Hz (marque Ibeo).
de perception est restreinte un plan et ne permet donc pas de dtecter les obstacles situs
hors de ce plan (un petit objet pos au sol par exemple). Ils ne peuvent pas non plus dtecter les
objets ne rchissant pas correctement la lumire du laser (en premier lieu les vitres, mais aussi
certains objets trs rchissants, tels que les objets chroms). Pour limiter ces inconvnients,
il est possible de les utiliser en conjonction avec des capteurs ultrason qui ont un cne de
dtection plus large et qui peuvent dtecter les vitres.
Enn, la plupart des algorithmes de cartographie et de localisation existants supposent que le
plan de mesure du tlmtre laser reste horizontal et hauteur constante, ce qui nest plus vrai
en cas de sol irrgulier ou, dans la majorit des cas, en extrieur.
FIG. 4.11: Un exemple de tlmtre laser balayage selon 2 axes ( gauche) et de camera
permettant dobtenir une image de profondeur de 64x64 pixels ( droite).
A lheure actuelle, des tlmtres laser balayant lespace selon deux axes commencent ap-
paratre 4.11. Ils permettent ainsi dobtenir une image de distance selon un angle solide de lordre
de quelques dizaines de degrs dans les deux dimensions. Ces tlmtres restent toutefois cher
et fragile du fait de la mcanique ncessaire au balayage. De plus, la frquence dacquisition est
relativement faible (de lordre de quelques Hertz), ce qui pose problme lorsque le robot est en
mouvement.
Des systmes sans balayage permettant dobtenir une image de profondeur sont galement
en cours de dveloppement 4.11. Il restent aujourdhui du domaine de la recherche mais sont
dun trs grand intrt potenntiel pour la robotique mobile.
Modle probabiliste
Les modles probabilistes associs ces capteurs permettent de donner la probabilit de
la mesure en fonction de la distance relle de lobstacle. Les probabilits sont estimes pour
chacune des mesures individuelles prises depuis une position, puis agglomres par produit :
P(Scan|Obstacles) =
M
i=1
P(mesure
i
|distance
o
bstacles)
Distance Relle
Perception de lobstacle Perception dun obstacle imprvu Retour de la valeur maximale
Modle du tlmtre
FIG. 4.12: Modle probabiliste de tlmtre.
Pour estimer la probabilit dune mesure individuelle, il est possible dutiliser une simple loi
gaussienne comme modle probabiliste, mais les modles sont en gnral un peu plus volus
et utilisent une combinaison de lois qui modlisent divers phnomnes (Figure 4.12) :
la mesure effective de lobstacle vis, modlis par une gaussienne en gnral
la perception dun obstacle imprvu, modlis par une loi dcroissante
4.2. LES CAPTEURS
la non perception de lobstacle qui donne une mesure la distance maximale du tlmtre,
modlis par un pic.
Les paramtres de cette combinaison de lois peuvent tre rgls manuellement ou estims
partir dun ensemble de mesures, par exemple en utilisant un algorithme de maximisation de
lesprance. Ces modles peuvent tre adapts tout les types de tlmtres.
4.2.3 Les camras
Lutilisation dune camra pour percevoir lenvironnement est une mthode attractive car elle
semble proche des mthodes utilises par les humains. Le traitement des donnes volumineuses
et complexes fournies par ces capteurs reste cependant difcile lheure actuelle, mme si cela
reste une voie de recherche trs explore.
Camras simples
Une camra standard peut tre utilise de diffrentes manires pour la navigation dun robot
mobile. Elle peut tre utilise pour dtecter des amers visuels (des points particuliers qui servent
de repre, tels que des portes ou des afches) partir desquels il sera possible de calculer la
position du robot. Si ces amers sont simplement ponctuels, ou de petite taille, il sera en gnral
simplement possible destimer leur direction. Dans le cas ou les amers sont des objets connus
en 2 ou 3 dimensions, il sera en gnral possible destimer compltement la position du robot par
rapport la leur. Elle peut galement tre utilise pour dtecter des guides de navigation pour
le robot, tels que des routes ou des couloirs.
FIG. 4.13: Illustration du principe de base du ot optique.
Il est galement possible dutiliser globalement une image pour caractriser une position ou
un point de vue dans lenvironnement. Il faudra alors comparer cette image aux nouvelles images
acquises par le robot pour savoir si le robot est revenu cette position. Cette comparaison peut
faire appel de trs nombreuses techniques, notamment celles utilises dans le domaine de
lindexation dimage.
Lorsque le robot est en mouvement, il est galement possible de tirer parti du ot optique
(le mouvement apparent des objets dans limage, voir gure 4.13), an davoir une estimation de
la distance des objets. En effet, les objets les plus proches ont un dplacement apparent plus
important que les objets lointains. Cette mthode permet notamment de raliser un vitemment
dobstacles ou de raliser une reconstruction tridimentionnelle de lenvironnement (par des tech-
niques connues sous le nom de structure from motion, voir section 4.2.3).
Camras stroscopiques
FIG. 4.14: Exemple de donnes fournies par des camras stroscopiques.
Lorsque lon dispose de deux camras observant la mme partie de lenvironnement partir
de deux points de vue diffrents, il est possible destimer la distance des objets et davoir ainsi
une image de profondeur (Figure 4.14), qui peut tre utilise pour lvitement dobstacles ou la
cartographie. Cette mthode suppose toutefois un minimum dlments saillants dans lenviron-
nement (ou un minimum de texture) et peut tre limite, par exemple dans un environnement dont
les murs sont peint de couleurs uniformes. La qualit de la reconstruction risque galement de
dpendre fortement des conditions de luminosit. La rsolution et lcartement des deux camras
impose galement les profondeurs minimum et maximum qui peuvent tre perues, ce qui peut
tre limitatif pour la vitesse de dplacement du robot.
Des techniques similaires peuvent galement tre utilises pour estimer la profondeur partir
dune camra en mouvement (mthodes de structure from motion), la difcult tant alors des-
timer la fois la profondeur et les positions relatives de la camra lors de la prise des deux
images.
Camras panoramiques
Les camras panoramiques (catadioptriques) sont constitues dune camra standard poin-
tant vers un miroir de rvolution (par exemple un simple cne, ou un prol plus complexe qui
peut sadapter la rsolution exacte que lon veut obtenir sur le panorama) (gure 4.15). Limage
recueillie permet davoir une vision de lenvironnement sur 360 degrs autour de la camera. Le
secteur angulaire vertical observ dpend de la forme du miroir et peut tre adapt aux besoins
de chaque application (Figure 4.15).
4.2. LES CAPTEURS
Camra
Miroir
Point dexpansion
Point de contraction
FIG. 4.15: Principe des camras panoramiques catadioptriques et exemple dimage obtenue.
Ce type de camra est trs pratique pour la navigation car une image prise par une camera
panoramique oriente verticalement permet de caractriser une position, indpendemment de la
direction du robot. En effet, pour une position donne et pour deux orientations diffrentes, la
mme image sera forme par la camra, une rotation autour du centre prs, tandis que pour
une camra standard, oriente horizontalement, la scne serait diffrente.
Ces camras sont donc trs pratiques lorsque lon caractrise une position de manire glo-
bale, mais peuvent aussi tre utilises pour dtecter des amers ou pour estimer le ux optique.
Dans ce cas, toutefois, comme la gomtrie de limage forme est relativement complexe et
comme la rsolution obtenue varie normment selon la direction observe, les algorithmes
doivent tre adapts, ce qui pose un certain nombre de problmes.
Concernant le ux optique, cependant, les camras panoramiques possdent lavantage de
contenir toujours le point dexpansion et le point de contraction dans limage, ce qui rend lestima-
tion du mouvement beaucoup plus aise (gure 4.15).
4.2.4 Autres capteurs
Les capteurs tactiles
Les robots peuvent tre quips de capteurs tactiles, qui sont le plus souvent utiliss pour
des arrts durgence lorsquil rencontre un obstacle qui navait pas t dtect par le reste du
systme de perception.
Ces capteurs peuvent tre de simples contacteurs rpartis sur le pourtour du robot. Il ne
dtectent alors le contact quau dernier moment. Il est galement possible dutiliser des petites
tiges arques autour du robot pour servir dintermdiaire ces contacteurs, ce qui permet une
dtection un peu plus prcoce et donne ainsi plus de marge pour arrter le robot.
Les boussoles
Les boussoles permettent, par la mesure du champ magntique terrestre, de dduire la di-
rection du nord. Ces capteurs peuvent utiliser diffrentes technologies et ont lavantage de fournir
une direction de rfrence stable au cours du temps (au contraire des gyroscopes qui drivent).
Ces capteurs sont toutefois trs dlicats utiliser en intrieur car ils sont trs sensibles aux
masses mtalliques prsentes dans la structure des btiments. En pratique, on les utilise donc
principalement en extrieur en apportant le plus grand soin leur positionnement sur le robot
pour viter les inuences des composants du robot, notamment les moteurs lectriques.
Les balises
Dans certaines applications, il est galement possible dutiliser des balises dont on connat la
position, et qui pourront tre facilement dtectes par le robot, an de faciliter sa localisation.
Des techniques trs diverses peuvent tre utilises pour ces balises. On peut par exemple
utiliser un signal radio, mis de manire omnidirectionnel par la balise. Le robot sera alors quip
4.3. POUR ALLER PLUS LOIN
dune antenne directionnelle qui lui permettra de dtecter la direction des diffrentes balises, an
de dduire sa position par triangulation.
On peut galement utiliser des codes couleurs ou des codes barres qui pourront tre dtects
par une camra.
Le GPS
Les besoins de localisation tant omniprsents dans de trs nombreux secteurs de la vie
actuelle, lide davoir un systme de localisation le plus universel possible donn lieu lap-
parition du Global Positionning System. Cest un systme de balises dont on a plac les balises
sur des satellites en orbite terrestre et qui est par consquent accessible de quasiment partout
la surface du globe. Ce systme permet donc davoir une mesure de sa position dans un repre
global couvrant la terre avec une prcision variant de quelques dizaines de mtres quelques
centimtres suivant les quipements.
Ce systme est cependant loin de rsoudre tous les problmes de localisation des robots mo-
biles. Il fonctionne en effet difcilement dans des environnements urbains, et nest pas utilisable
lintrieur des btiments. Sa prcision est de plus souvent trop faible pour quun robot terrestre
puissent utiliser ces informations seules. En pratique, il est souvent coupl un systme inertiel
qui permet de palier aux pertes du signal GPS et il ne remplace de toute faon pas les capteurs
du robot qui lui permettent de percevoir son environnement immdiat, qui constitue la source
dinformation principale pour la navigation court terme (par exemple lvitement dobstacles, par
opposition la navigation long terme qui consiste rejoindre un but distant).
4.3 Pour aller plus loin
Sensors for Mobile Robots : Theory and Application, Everett
Une version en ligne est disponible :
http://www-personal.engin.umich.edu/~johannb/my_book.htm
Deuxime partie
Navigation ractive
Dans cette partie, nous prsentons diffrentes stratgies de navigation ractive. Ces stra-
tgies peuvent tre utilises dans des architectures de contrle purement ractives, mais aussi
comme modules de bas-niveau dans une architecture hybride. Par dnition, les stratgies de
navigation ractives nutilisent que les valeurs courantes des capteurs (ou des valeurs sur une
petite fentre temporelle), et non des donnes provenant dun modle interne, pour dcider de
laction effectuer.
CHAPITRE 5. NAVIGATION VERS UN BUT
Chapitre 5
Navigation vers un but
Nous dcrivons ici des mthodes de navigation correspondant aux deux premires catgories
de stratgies de navigation dnies dans le chapitre 2.
5.1 Vhicules de Braitenberg
Dans son livre Vehicles : Experiments in Synthetic Psychology, Valentino Braitenberg d-
crit une srie dexpriences dans lesquelles des robots extrmement simples peuvent montrer
des comportements complexes, quun observateur humain associe en gnral diffrents types
dmotions telles que la peur ou lagression. Nous nous intressons ici simplement la struc-
ture de ces robots, qui permet de raliser simplement des comportements pour rejoindre un but
visible. Cette structure est devenue larchtype des mthodes ractives simples.
But
M
1
M
2 C
1
C
2
FIG. 5.1: Dans les vhicules de Braitenberg, la vitesse de chacun des deux moteurs du robot
dpend de la valeurs de deux capteurs qui dtectent la lumire mise par le but.
Dans le livre de Braitenberg, le but est matrialis par une lumire, visible depuis tout lenvi-
ronnement. Le robot est simplement une plate-forme diffrentielle, constitue de deux roues dont
on commande les vitesses de rotation et munie de deux capteurs de lumire situs de part et
5.2. MODLE DE CARTWRIGHT ET COLLET
dautre de lavant du robot (Figure 5.1). Larchitecture interne du robot est simplement constitue
de liens entre ces capteurs et les moteurs qui permettent de calculer la vitesse des moteurs en
fonction des valeurs des capteurs.
En faisant varier les paramtres des connexions, il est alors possible de dnir diffrents
comportements du robot. Si la vitesse de chaque moteur est relie la valeur du capteur du cot
oppos avec un coefcient positif, le robot se dirigera naturellement vers le but. Si, par contre,
la vitesse de chaque moteur est relie la valeur du capteur du mme cot avec un coefcient
positif, le robot fuira le but.
Ces vhicules ralisent simplement une remonte ou une descente de gradient sur lintensit
de la lumire. Ils correspondent un simple contrleur proportionnel en automatique et sont donc
relativement sujets des oscillations dans le comportement du robot. Ils supposent de plus que
le but est visible depuis tout lenvironnement, ce qui est rarement le cas en pratique. Ce modle
est donc intressant car cest la mthode la plus simple possible pour raliser un dplacement
vers un but, mais est difcile utiliser dans une application relle.
5.2 Modle de Cartwright et Collet
Ce modle, le snapshot model a t conu pour expliquer comment des abeilles peuvent
utiliser des informations visuelles pour rejoindre un point donn de lenvironnement. Il permet
un robot de rejoindre un but dont la position est dnie par la conguration damers de lenviron-
nement autour de ce but.
Amer
Amer
Amer
FIG. 5.2: Exemple de snapshot caractrisant la position du but. Le robot mmorise un pano-
rama contenant la position et la taille apparente des amers.
Le systme perceptif du robot doit lui permettre de dtecter la direction et la taille des amers
autour de lui. Le robot commence par mmoriser le but en enregistrant la conguration des amers
vus depuis la position de ce but (un snapshot, Figure 5.2).
Lorsque, par la suite, le robot veut rejoindre ce but, il prend une nouvelle image des amers
et, par comparaison entre la conguration courante et la conguration mmorise au but, il peut
CHAPITRE 5. NAVIGATION VERS UN BUT
Perception courantes
Perceptions depuis le but
FIG. 5.3: Pour atteindre le but, chaque amer peru est associ un des amers mmoriss.
Pour chaque appariement, on dduit un vecteur tangentiel dont la norme augmente avec
lcart entre amer perus et mmoriss. La somme de ces vecteurs donne la direction
prendre pour atteindre le but.
dduire de manire trs simple la direction dans laquelle se dplacer pour atteindre le but. Cette
comparaison est base sur un appariement entre les amers perus et les amers mmoriss,
chaque appariement permettant de calculer un vecteur dont la somme, pour tout les appariements
damers, donne la direction prendre pour rejoindre le but (Figure 5.3). Le robot effectue alors
un dplacement de longueur xe dans cette direction puis recommence le processus tant que
le but nest pas atteint.
L encore, le systme est trs simple et ralise une descente de gradient sur la conguration
des amers an datteindre le but. Il ne fonctionne cependant pas sur lensemble de lenviron-
nement et la qualit du comportement obtenu dpend beaucoup de la conguration des amers
qui sont utiliss, un ensemble damers lointains et bien rpartis tout autour du robot donnant les
meilleurs rsultats. La qualit de lappariement entre les amers est galement primordiale, en
effet, si un amer peru est associ au mauvais amer mmoris, le vecteur de dplacement dduit
sera faux. Le modle original supposait des amers noirs sur fond blanc, sans identit particulire,
pour lequel lappariement est relativement hasardeux. Il nest donc pas applicable en pratique.
Dautres travaux ont utilis des amers colors et diffrentes contraintes sur lappariement qui
permettent une meilleur robustesse et sont donc applicables des robots rels.
La plupart des implantations de ce modles supposent de plus que la direction du robot est
connue an de faciliter lappariement. Avoir une estimation correcte de cette direction peut se
rvler difcile en pratique.
5.3 Asservissement visuel
Lasservissement visuel [24] (disponible en ligne) est une technique dasservissement de la
position dun robot qui est base directement sur linformation extraite dune image, sans mod-
lisation intermdiaire de lenvironnement. Dveloppes lorigine pour la commande des robots
manipulateurs, ces techniques permettent galement la commande de robots mobiles.
5.3. ASSERVISSEMENT VISUEL
Dans ces approches, le but atteindre est spci par limage que le robot devra percevoir
depuis cette position. Diffrentes mesures sont ralises sur cette image (par exemple la dtec-
tion de points dintrts) et la commande du robot est conue pour amener 0 lcart entre la
mesure ralise sur limage courante et la mesure ralise sur limage cible. Les choix de me-
sures dans limage et de la loi de commande peuvent tre trs varis, et vont conditionner les
trajectoires obtenues par le robot, leur stabilit, leur robustesse aux mauvaises perceptions ou
aux mauvaises modlisations du systme, etc...
Nous ne dtaillerons pas ici ces approches, mais il existe plusieurs applications intressantes
en robotique mobile [11, 86]. Notons que ces modles sont souvent tendus pour fournir une
navigation long terme en enchainant des tches de contrle local sur des squences dimages.
Par exemple, [11] prsente un systme permettant de guider un robot en environnement intrieur
partir du suivi de motifs dtects sur le plafond partir dune camra pointe la verticale. En
enchanant des asservissements sur une squence dimages, ce systme permet au robot de
refaire une trajectoire qui a t montre au pralable par un oprateur.
CHAPITRE 6. VITEMENT DOBSTACLES
Chapitre 6
vitement dobstacles
Lvitement dobstacles est un comportement de base prsent dans quasiment tous les ro-
bots mobiles. Il est indispensable pour permettre au robot de fonctionner dans un environnement
dynamique et pour grer les carts entre le modle interne et le monde rel.
Les mthodes que nous prsentons sont efcaces condition davoir une perception correcte
de lenvironnement. Elles seront par exemple trs efcaces avec un tlmtre laser, mais donne-
ront des rsultats plus bruits avec des sonars. Pour limiter ce problme, il est possible dappliquer
ces mthodes sur une reprsentation locale (cest--dire de lenvironnement proche du robot et
centre sur le robot) de lenvironnement qui sera construite en fonction des donnes de quelques
instants prcdents. Cette reprsentation intermdiaire permettra de lter une grande partie du
bruit des donnes individuelles (en particulier pour les sonars).
6.1 Mthode des champs de potentiel
Dplacement selon
une direction
Eloignement dune
paroi
Rpulsion
dun point
Attraction
vers un point
Potentiel
Ligne de
courant
FIG. 6.1: Illustration de potentiels primitifs dont la combinaison guide les dplacements du
robot. Le robot se dplacera selon les lignes de courant.
Dans la mthode dvitement dobstacles par champs de potentiels, on assimile le robot une
particule se dplaant suivant les lignes de courant dun potentiel cr en fonction de lenvironne-
ment peru par le robot. Ce potentiel traduit diffrents objectifs tels que lvitement dobstacles ou
6.1. MTHODE DES CHAMPS DE POTENTIEL
une direction de dplacement prfre. Il est calcul par sommation de diffrentes primitives de
potentiels traduisant chacun de ces objectifs (Figure 6.1). Ces diffrents potentiels peuvent avoir
une tendue spatiale limite ou non (par exemple, navoir une inuence que prs des obstacles)
et leur intensit peut dpendre ou non de la distance.
Le gradient de ce potentiel donne, en chaque point de lespace, la direction de dplacement
du robot (Figure 6.1). Comme cest ce gradient, et non la valeur absolue du potentiel, qui nous
intresse, il est possible de calculer directement en chaque point sa valeur par une simple somme
vectorielle en ajoutant les valeurs issues des diffrents potentiels primitifs. Ainsi, pour un robot
se dplaant en ligne droite en espace ouvert et vitant les obstacles quil peut rencontrer, nous
obtenons par exemple les lignes de courant illustres gure 6.2.
Dplacement suivant le couloir Centrage dans le couloir Evitement dobstacle ponctuel
Champ rsultant
FIG. 6.2: Illustration de la combinaison de diffrents potentiels primitifs.
De plus, dans la pratique, pour lvitement dobstacles, le potentiel est en gnral calcul dans
lespace relatif au robot et ne sert qua dcider de la vitesse et de la direction courante. Il nest
donc ncessaire de lestimer que pour la position courante du robot, en sommant simplement la
contribution des diffrents lments perus (Figure 6.3).
Le principal inconvnient de cette mthode dvitement dobstacles est lexistence, pour cer-
taines congurations dobstacles (relativement courantes) de minimum locaux du potentiel qui ne
permettent pas de dcider de la direction prendre (Figure 6.4). Ce problme peut tre trait de
diffrentes faons. Il est par exemple possible de dclencher un comportement particulier lorsque
lon rencontre un tel minimum (dplacement alatoire, suivi de murs ....). Il est aussi possible
dimposer que le potentiel calcul soit une fonction harmonique, ce qui garanti quil nait pas de
minima, mais complexie beaucoup son calcul.
Le principe de ces champs de potentiels est formalis sous le nom de schma moteur par
1
2
3
1
2
3
FIG. 6.3: Illustration de la combinaison de diffrents potentiels primitifs dans lespace relatif
au robot.
FIG. 6.4: Exemple de minimum local dans un champ de potentiel.
R. Arkin [2]. Un schma moteur est une action dnie sous forme de potentiel en fonction des
perceptions du robot. Il sont utiliss comme bas niveau dans une architecture hybride.
6.2 Mthode Vector Field Histogram
Cette mthode a t conue spciquement pour utiliser une grille doccupation locale construite
a partir de capteurs ultrasons. Cette grille est construite de manire trs rapide par la mthode
"Histogrammic in motion mapping" (voir section 11.2.3) qui produit une grille dont chaque cel-
lule contient un nombre daut ant plus lev quelle a souvent t perue comme contenant un
obstacle (Figure 6.5 haut).
Un histogramme reprsentant loccupation de lenvironnement autour du robot est ensuite
construit partir de cette grille doccupation locale. Pour cela, lenvironnement est discrtis en
secteurs angulaires pour lesquels la somme des valeurs des cellules est calcule (gure 6.5 bas).
Un seuil permettant de tolrer un certain bruit est ensuite utilis pour dterminer les directions
possibles pour le robot : toutes les directions dont la valeur est infrieure au seuil sont consid-
res. Le choix de la direction est nalement ralis parmis les directions possibles en fonction de
contraintes externes (par exemple la direction la plus proche de la direction du but).
Cette mthode est extrmement rapide (elle fonctionne sur un PC 386 20MHz !) et a permis
historiquement un dplacement ractif des vitesses assez leves (environ 1 m/s). Diverses
amliorations pour permettre le rglage de la vitesse du robot en fonction de la densit des
6.3. MTHODE DE LA FENTRE DYNAMIQUE
Obstacle
+1
+1
2
6 5
5 8 3
3 5
8 6
1
1
2
6 5
5 8 3
3 5
8 6
1
1
0
1
...
11
...
0
11
Seuil
Secteur
Somme des cellules
FIG. 6.5: Partie suprieure : Grille doccupation locale construite par la mthode "Histogram-
mic in motion mapping". La grille est construite dans le rfrentiel du robot : un compteur est
incrment pour chaque cellule appartenant au secteur angulaire dans lequel un obstacle a
t dtect et les valeurs sont dplaces dune cellule lautre en fonction des dplacements
du robot. Partie Infrieure : Utilisation de lhistogramme des obstacles pour dterminer la
direction de dplacement du robot.
obstacles sont possibles.
6.3 Mthode de la fentre dynamique
La mthode de la fentre dynamique permet, partir de la perception locale de lenviron-
nement, de slectionner un couple (v, ) de vitesses de translation et de rotation du robot qui
rpond diffrentes contraintes, dont celle dviter les obstacles. Un tel couple de vitesses, lors-
quil est appliqu au robot, produit une trajectoire circulaire, pour laquelle la satisfaction des dif-
frentes contraintes peut tre value. A lissu de lvaluation de toutes les contraintes pour tous
les couples de vitesses possibles, la mthode de la fentre dynamique permet de slectionner le
couple le plus pertinent (qui rpond le mieux aux contraintes).
v2,2 = succs
v1,1 = chec
Environnement rel Perceptions du robot
v2,2
v1,1
FIG. 6.6: Contrainte dvitement dobstacles pour la mthode de la fentre dynamique.
La premire contrainte est la contrainte dvitement dobstacles. Cest une contrainte dure au
sens ou elle est binaire (succs / chec) et doit obligatoirement tre satisfaite. Elle est value
pour chacune des trajectoires possibles partir de la perception locale de lenvironnement
un instant donn et de la position estime du robot un pas de temps x dans le futur pour
la trajectoire courante. Si le robot na pas rencontr dobstacles cet horizon, la contrainte est
respecte ; dans le cas contraire, elle ne lest pas (Figure 6.6).
v
min max
vmax
Vitesses conduisant percuter un obstalce Vitesses conduisant un dplacement sur
Vitesses courantes
Vitesses accessibles au prochain
pas de temps
FIG. 6.7: Fentre de slection des vitesses tenant compte de la dynamique du robot.
Le respect ou le non respect de cette contrainte est report dans un graphe des vitesses qui
indique, pour chaque couple de vitesses possible (donc chaque trajectoire), si le robot va ou ne va
pas rencontrer un obstacle (Figure 6.7). Dans ce graphe, il est alors possible de tracer la fentre
des vitesses accessibles au prochain pas de temps partir des vitesses courantes du robot et
des valeurs dacclration et dclration maximales. Cest cette fentre qui donne son nom la
mthode car elle permet de prendre en compte la dynamique du robot ( travers la capacit de
freinage et dacclration). Il reste alors choisir, au sein de cette fentre, un couple de vitesses
qui ne conduise pas percuter un obstacle pour garantir un dplacement sr du robot.
Pour faire le choix parmi toutes les vitesses possibles au sein de cette fentre, il est possible
dutiliser des contraintes souples supplmentaires pour exprimer des prfrences au sein de cet
espace des vitesses accessibles. Ces contraintes sexpriment par une fonction de cot G(v, )
qui est en gnral la somme de plusieurs termes. Ces termes peuvent exprimer une prfrence
6.3. MTHODE DE LA FENTRE DYNAMIQUE
v
min max
vmax
Direction prfrentielle
FIG. 6.8: Contrainte souple exprimant une prfrence sur la direction prendre.
a priori sur les vitesses, une prfrence pour les trajectoires sloignant le plus des obstacles, ou
une prfrence de direction si lon dispose par exemple dune estimation de la direction dun but
long terme (Figure 6.8). Le couple de vitesses minimisant ce cot au sein de la fentre est alors
slectionn. Il garantit un dplacement sans rencontrer dobstacles et le meilleur respect possible
des contraintes souples dans ce cadre.
Dans la pratique, les valeurs des diffrentes contraintes sont values en diffrents points du
graphe des vitesses, le nombre de points dpendant notamment de la puissance de calcul dispo-
nible et de la complexit de lvaluation de chaque contrainte. Lutilisation de la fentre dynamique
est trs intressante pour un robot se dplaant rapidement, ou pour un robot ayant des capaci-
ts dacclration et de ralentissement limites. Elle permet alors de produire un dplacement du
robot sr et rgulier. Pour des robots qui ont une forte capacit dacclration et de dclration
(par exemple un robot lger avec de bons moteurs lectriques), on peut considrer que toutes les
vitesses sont accessibles presque instantanment. Il peut alors tre sufsant de ne considrer
que la cinmatique, et non la dynamique, ce qui se traduit par la prise en compte dun seul point
du graphe, et non dune fentre. La recherche du couple de vitesse est ainsi simplie.
CHAPITRE 7. APPRENTISSAGE PAR RENFORCEMENT
Chapitre 7
Apprentissage par renforcement
Imaginons un robot, muni de capteurs et deffecteurs, qui va choisir ses actions en fonction
de sa perception de lenvironnement et dont le but va tre de maximiser une rcompense quil
obtient en fonction des actions quil ralise.
Dans ce cadre, lapprentissage par renforcement est une mthode qui permet de trouver, par
un processus dessais et derreurs, laction optimale effectuer pour chacune des situations que
le robot va percevoir an de maximiser ses rcompenses. Cest une mthode dapprentissage
oriente objectif qui va conduire un contrleur optimal pour la tche spcie par les rcom-
penses. Cette mthode est de plus non supervise car la rcompense ne donne pas laction
optimale raliser mais simplement une valuation de la qualit de laction choisie. Elle permet
enn de rsoudre les problmes de rcompense retarde pour lesquels il faut apprendre a sacri-
er une rcompense court terme pour obtenir une plus forte rcompense long terme et donc
apprendre de bonnes squences dactions qui permettront de maximiser la rcompense long
terme.
Du fait de toutes ces caractristiques, lapprentissage par renforcement est une mthode
particulirement adapte la robotique.
7.1 Formalisation
Le problme de lapprentissage par renforcement pour un agent se dnit en utilisant les
lments suivants :
Un ensemble dtats S correspondant la perception que lagent a de lenvironnement,
Un ensemble dactions possibles A ,
Une fonction de rcompense R : {S, A} R.
Lagent va interagir avec son environnement par pas de temps discrets, en percevant ltat
de lenvironnement s
t
, en choisissant une action a
t
en fonction de cet tat et en recevant la
rcompense r
t+1
associe (Figure 7.1).
Lvolution de lenvironnement est rgi par un Processus de Dcision Markovien (MDP en
anglais) qui dcrit lvolution de ltat et de la rcompense en fonction des actions du robot. Ce
MDP (7.2), qui spcie compltement la tche du robot par le jeu des rcompenses, se dcrit
7.1. FORMALISATION
Environnement
tat S
rcompense R
action A
FIG. 7.1: Formalisation du problme dapprentissage par renforcement.
simplement laide de deux fonctions :
Une fonction de transition P
a
ss
= P(s
t+1
= s
|s
t
= s, a
t
= a) qui donne la probabilit de
passer dans ltat s
lorsque lagent effectue laction a dans ltat s,

Une fonction de rcompense R
a
ss
= E(r
t+1
|s
t
= s, a
t
= a, s
t+1
= s
) qui donne la rcom-

pense moyenne lorsque lagent passe de ltat s s
en faisant laction a.
FIG. 7.2: Exemple de MDP trs simple. Chaque case correspond un tat et, pour chaque
tat, 4 actions sont possibles qui conduisent aux cases voisines. La rcompense est nulle
partout, sauf pour les actions qui mnent la case "S", pour lesquelles la rcompense est 1.
Le comportement de lagent est dni par une politique : {S, A} [0, 1], qui guide lagent
de manire probabiliste en spciant, pour chaque tat s la probabilit de raliser laction a (et
donc
a
(s, a) = 1). Le but de lapprentissage par renforcement va tre de trouver la politique
optimale
maximisant la rcompense long terme

1
.
1
Lapprentissage par renforcement nutilise que ltat courant pour prendre une dcision, il suppose donc que
toute linformation ncessaire est contenue dans cet tat. Le problme est donc considr comme tant Markovien,
ce qui est rarement le cas en pratique en robotique. Si le problme est non markovien, cest a dire si pour un
mme tat deux actions diffrentes sont optimales en fonction dune variable inconnue au robot, lapprentissage par
renforcement fournira la politique optimale, mais seulement dans lensemble des politiques myopes, nayant pas
toutes les informations pour une dcision optimale.
La rcompense long terme, que nous appellerons revenu R
t
, peut tre dnie de diffrentes
manires en fonction de la tche considre. Si la tche consiste rpter des pisodes qui
durent un nombre de pas de temps xe, le revenu pourra tre la somme des rcompenses ins-
tantanes pendant un pisode. Si au contraire la tche se droule de manire continue, le revenu
pourra se dnir comme la somme des rcompenses futures pondres par une exponentielle
dcroissante :
R
t
=
k=0
k
r
t+k+1
o [0, 1] est un facteur indiquant limportance que lon accorde aux rcompenses futures.
Les algorithmes dapprentissage par renforcement que nous verrons plus loin utilisent qua-
siment tous une fonction de valeur V
(Figure 7.3) qui permet, pour une politique donne,

destimer le revenu moyen (les rcompenses futures) pour un tat donn si lon suit la politique
considre :
V
(s) = E
(R
t
|s
t
= s)
FIG. 7.3: La fonction de valeur optimale dans notre exemple : pour chaque tat, le niveau de
gris indique la rcompense long terme qui sera obtenue en prenant le chemin le plus court
vers le but.
Ces fonctions de valeurs peuvent aussi se dnir non pas pour un tat mais pour un tat et
une action ralise dans cet tat :
Q
(s, a) = E
(R
t
|s
t
= s, a
t
= a)
La fonction de valeur pour un tat s tant la moyenne des Q
(s, a), pondres par la probabi-

lit de chaque action :
V
(s) =
a
(s, a)Q
(s, a)
Une proprit essentielle de ces fonctions de valeur va permettre de crer les diffrents algo-
rithmes dapprentissage, il sagit de la relation de rcurrence connue sous le nom dquation de
Bellman :
V
(s) =
a
(s, a)
P
a
ss
R
a
ss
+V
(s

7.1. FORMALISATION
Cette quation traduit une cohrence de la fonction de valeur en reliant la valeur dun tat
la valeur de tous les tat qui peuvent lui succder . Elle se dduit simplement de la dnition de
v
de la manire suivante :
V
(s) = E
(R
t
|s
t
= s)
= E
k=0
k
r
t+k+1
|s
t
= s)
= E
(r
t+1
+
k=0
k
r
t+k+2
|s
t
= s)
=

a
(s, a)
P
a
ss
R
a
ss
+E
k=0
k
r
t+k+2
|s
t+1
= s
=

a
(s, a)
P
a
ss
R
a
ss
+V
(s
La fonction de valeur permet de caractriser la qualit dune politique, elle donne, pour chaque
tat, le revenu futur si lon suit cette politique. Elle permet galement de comparer les politiques
en dnissant un ordre partiel :

s,V
(s) V
(s)
Cet ordre permet de dnir la fonction de valeur de la politique optimale (Figure 7.3) que
lapprentissage par renforcement va chercher estimer :
V
(s) = max
(s)
fonction qui peut aussi sexprimer pour un couple tat-action :
Q
(s, a) = max
(s, a)
avec la relation suivante :
Q
(s, a) = E(r
t+1
+V
(s
t+1
)|s
t
= a, a
t
= a)
Il est galement possible dcrire une relation de rcurrence pour la fonction de valeur opti-
male qui sera lgrement diffrente de lquation de Bellman. On parle alors dquation dopti-
malit de Bellman, qui peut scrire :
V
(s) = max
a
E (r
t+1
+V
(s
t+1
)|s
t
= s, a
t
= a)
= max
a

s
P
a
ss
R
a
ss
+V
(s

soit, pour la fonction Q :
Q
(s, a) = E
r
t+1
+max
a
(s
t+1
, a
)|s
t
= s, a
t
= a
=

s
P
a
ss
R
a
ss
+max
a
(s
, a
Intuitivement, cette quation traduit par loprateur max

a
le fait que la politique optimale choisit
laction qui va maximiser le revenu.
Si lenvironnement est un MDP ni, ces quations de Bellman ont une solution unique qui
va donc donner pour chaque tat la rcompense maximale que pourra recueillir lagent partir
de cet instant. A partir de la connaissance de V
, il est trs simple de construire une politique

optimale, en associant chaque tat la ou les actions a
qui permettent de raliser le maximum

de lquation doptimalit de Bellman :
a
= argmax
a
E (r
t+1
+V
(s
t+1
)|s
t
= s, a
t
= a)
ou, si lon utilise la fonction Q :
a
= argmax
a
Q
(s, a)
il faut cependant noter que la construction de la politique partir de V
ncessite la connaissance
du modle du monde an destimer r
t+1
et s
t+1
. Cette connaissance est inutile si lon utilise Q
.
Tout le problme pour lapprentissage va donc tre destimer V
ou Q
pour en dduire une

politique optimale. On peut remarquer que si lon connat compltement le problme (cest a dire si
lon connat P
a
ss
et R
a
ss
), il est possible de calculer directement V
ou Q
en rsolvant le systme
des quations doptimalit de Bellman pour chaque tat. Cette solution est peu applicable en
robotique car lenvironnement est en gnral inconnu et de plus elle ne correspond pas des
caractristiques souhaitables de lapprentissage tel que la capacit apprendre par essais et
erreurs.
7.2 Programmation dynamique
La programmation dynamique est un ensemble de mthodes permettant de calculer une po-
litique optimale dans un MDP connu, en utilisant les proprits des quations de Bellman. Nous
supposons donc dans cette section que le modle de lenvironnement est connu. La program-
mation dynamique va chercher estimer la fonction de valeur optimale V
an den dduire une

politique optimale.
7.2.1 valuation dune politique
La premire tape de la programmation dynamique est lestimation de la fonction de valeur
pour une politique donne . Cela peut se faire soit en rsolvant le systme des quations de
7.2. PROGRAMMATION DYNAMIQUE
Bellman, soit en utilisant une procdure itrative, que nous prfrerons car elle sapplique plus
naturellement, notamment en cas de contraintes temps-rel. Cette procdure utilise le fait que la
fonction de valeur V
est le point xe de lquation de Bellman :

V(s) =
a
(s, a)
P
a
ss
R
a
ss
+V(s
Nous pouvons ainsi utiliser cette quation comme tape de mise--jour permettant de calculer
une suite de fonctions V
k
qui convergera vers V
:
V
k+1
(s) =
a
(s, a)
P
a
ss
R
a
ss
+V
k
(s
Lalgorithme de calcul va donc utiliser cette mise--jour tant que les modications max
s
(|V
k+1
V
k
) seront suprieures un seuil donn pour fournir une approximation de V
.
7.2.2 Amlioration dune politique
A partir de lvaluation dune politique, il va tre possible de calculer une meilleur politique
partir de la fonction de valeur. En effet, pour une politique donne, il ny a aucune raison que la
fonction de valeur satisfasse lquation doptimalit de Bellman, cest dire que lon peut avoir :
(s) = argmax
a
E (r
t+1
+V
(s
t+1
)|s
t
= s, a
t
= a)
Par contre, on peut prouver que la politique
dnie par :
(s) = argmax
a
E (r
t+1
+V
(s
t+1
)|s
t
= s, a
t
= a) (7.1)
est meilleure ou quivalente la politique , ce qui nous permet damliorer notre politique initiale.
De plus, si la politique
ainsi dnie nest pas meilleure que (cest dire si V
=V
), la
dnition de
(eq 7.1) est lquation doptimalit de Bellman, qui prouve donc que la politique
obtenue est optimale.
7.2.3 Algorithmes dapprentissage
Lvaluation et lamlioration de politique peuvent tre utilis de diffrentes manires pour
estimer une politique optimale pour un MDP donn.
Le premire mthode, litration de politique utilise simplement ces deux phases de manire
itrative :
0
V
1
V
1
. . .
Dans ce processus, cependant, lvaluation de politique est elle-mme un processus itratif,

qui ne va converger qua une erreur donne prs et de plus tre potentiellement trs long.
Une autre mthode pour converger vers la politique optimale est damliorer la politique avant
mme davoir une estimation correcte de sa valeur. On peut par exemple faire un nombre xe
ditrations dvaluation avant de faire une amlioration. Le cas ou on ne fait quune itration
dvaluation de la politique est lalgorithme ditration de valeur, pour lequel les deux tapes se
rduisent une seule :
V
k+1
(s) = max
a

s
P
a
ss
R
a
ss
+V
k
(s
et qui converge vers V
.
Pour les problmes avec de trs grands espaces dtats, le fait de parcourir tout les tats
pour la mise--jour peut tre difcile en soit. Il est dans ce cas possible dutiliser une mthode de
programmation dynamique asynchrone qui ralise la mise--jour de litration de valeur pour un
tat slectionne au hasard, ou en fonction du comportement de lagent. Cette mthode converge
galement vers V
condition de visiter la limite tout les tat un nombre inni de fois. Elle
possde lavantage de fournir rapidement une approximation de la fonction de valeur.
7.3 Mthodes de Monte-Carlo
Le fait de devoir connatre lenvironnement pour apprendre une stratgie rend les mthodes
de programmation dynamique peu utiles en robotique. Les mthodes de Monte-Carlo que nous
allons voir dans cette section vont utiliser les mmes ides (estimer la fonction de valeur puis
amliorer la politique), mais en ayant recours des expriences ralises dans lenvironnement
plutt qu un modle.
7.3.1 valuation dun politique
Lestimation de la fonction de valeur va se raliser partir dun ensemble de squences tat-
action-rcompenses-tat-action .... ralises par lagent. Pour les tats de ces squences, il est
alors possible destimer V simplement par la moyenne des revenus :
V(s) =
1
N(s)
Revenu(s)
o N(s) est le nombre de squences ou apparat s et Revenu(s) est le revenu aprs la premire
visite de ltat s, cest dire la somme pondre des rcompenses aprs cette visite
2
.
Cette mthode de Monte-Carlo a de plus lavantage destimer la valeur de chaque tat ind-
pendemment, contrairement la programmation dynamique qui doit estimer simultanment tout
les tats, ce qui permet par exemple de se concentrer sur des zones plus importantes de lespace
dtats.
Cette mthode sapplique de la mme faon pour une fonction Q(s, a), ce qui est encore plus
intressant, car pour trouver la politique optimale partir de V
il faut disposer dun modle de

lenvironnement, ce qui nest pas le cas en utilisant Q
. Lutilisation de Q et de la mthode de
Monte-Carlo permet donc de dcouvrir la politique optimale sans aucun modle de lenvironne-
ment, en utilisant uniquement des expriences ralise dans cet environnement.
2
Il est galement possible dintgrer les nouvelles squences de manire itrative en utilisant un mise jour du
type V(s) V(s) +[R(s) V(s)].
7.4. APPRENTISSAGE PAR DIFFRENCES TEMPORELLES
7.3.2 Besoin dexploration
La mthode de Monte-Carlo prsente doit estimer les valeurs Q(s, a) partir des rcom-
penses obtenues aprs avoir ralis laction a dans ltat s. Ceci suppose donc que tout ces
couples (s, a) soient rencontrs une innit de fois la limite. Ceci est particulirement pro-
blmatique, car toutes les politiques ne peuvent garantir cette proprit. Il faut donc ajouter au
comportement dni par la politique un comportement dexploration qui va assurer que toutes les
actions seront ralises avec un certaine probabilit (mme faible).
Deux solutions existent pour rsoudre ce problme. La premire consiste contraindre les
politiques pour quelles associent au moins une faible probabilit proportionelle un paramtre
toutes les actions. Lapprentissage converge ainsi vers la politique optimale au sein de cette
classe. Cette probabilit garanti une exploration exhaustive et peut tre diminue au cours du
temps lorsque les donnes sufsantes pour valuer la politique ont t recueillies. Cette mthode
sappelle contrle on policy car elle modie la politique effectivement suivie par lagent et value
cette politique modie.
La seconde mthode est une mthode off policy car elle value une politique tandis que
lagent en suit une autre. Cette autre politique choisit en gnral laction de la politique originale
avec une probabilit 1 et une action alatoire avec une probabilit . Pour valuer la politique
originale, lvaluation de Monte-Carlo utilise simplement les parties nales des squences pour
lesquelles le choix daction correspond au choix qui aurait t fait par la politique originale, mais
modie les pondrations des rcompenses pour compenser les diffrences de probabilit de
choix des actions entre les deux politiques.
7.3.3 Algorithmes dapprentissage
Lapprentissage utilisant un mthode de Monte-Carlo se fait en alternant valuation et am-
lioration. Cette alternance peut se raliser de plusieurs manires, comme pour la programmation
dynamique. Soit lvaluation est complte avant de raliser une amlioration, soit il est possible
dalterner une valuation utilisant une seule squence, puis une amlioration.
7.4 Apprentissage par diffrences temporelles
Les deux mthodes que nous avons vu prcdemment ont chacune un avantage important.
La mthode de Monte-Carlo permet dapprendre partir dexpriences, sans aucun modle de
lenvironnement. La programmation dynamique pour sa part possde la proprit intressante
dutiliser les estimations des tats successeurs pour estimer la valeur dun tat, on parle de
bootstrap. Cette caractristique permet une convergence beaucoup plus rapide que la mthode
de Monte-Carlo.
Les mthodes dapprentissage par diffrences temporelles vont runir ces deux proprits et
constituent les mthodes les plus utiles en pratique en robotique.
Lvaluation de politique va donc se faire partir dexpriences comme pour le mthode de
Monte-Carlo qui utilise une moyenne pour estimer la valeur dun tat. Cette moyenne mise sous
FIG. 7.4: Illustration de la mthode des diffrences temporelles. La valeur dun tat est mise
jour en fonction de la rcompense immdiate (exemple du schma 2) et des estimations
prcdentes de la fonction de valeur (exemple du schma 4).
forme itrative conduit lquation suivante :
V(s
t
) V(s
t
) +[R
t
V(s
t
)]
avec
R
t
= r
t+1
+r
t+2
+.... +
p
r
t+p+1
Par rapport cette quation, lide est ici dutiliser lestimation du revenu partir de la rcom-
pense suivante et de la valeur de ltat suivant, au lieu dutiliser les rcompenses de la suite de
lexprience. La mthode des diffrences temporelles utilise donc la mise--jour suivante :
V(s
t
) V(s
t
) +[r
t+1
+V(s
t+1
) V(s
t
)]
Cette mise a jour se fait naturellement de manire incrmentale, au fur et mesure des
expriences de lagent. Lquivalent de cette mise jour pour la fonction Q est donn par :
Q(s
t
, a
t
) Q(s
t
, a
t
) +[r
t+1
+Q(s
t+1
, a
t+1
) Q(s
t
, a
t
)]
Cette mthode est appele Sarsa (pour State, action, reward, state, action) et ralise une es-
timation on policy de la politique suivie car elle utilise laction a
t+1
qui dpend de de la politique.
La mthode la plus importante de lapprentissage par renforcement est probablement le Q-
Learning qui est la variante off policy de Sarsa qui va utiliser le maximum de la fonction sur les
actions suivantes au lieu de laction effectivement ralise :
Q(s
t
, a
t
) Q(s
t
, a
t
) +
r
t+1
+max
a
Q(s
t+1
, a) Q(s
t
, a
t
)
Cet algorithme fait converger Q vers Q
indpendemment de la politique suivie, tant que cette

politique garanti une exploration exhaustive (cad une probabilit non nulle pour toutes les actions
dans tous les tats).
Comme pour les autres mthodes, la politique optimale se dduit simplement de la fonction
valeur optimale.
7.5. TRACES DLIGIBILIT
7.5 Traces dligibilit
Les mthodes utilisant les diffrences temporelles que nous avons vues prcedement per-
mettent de remplacer la n dun pisode qui serait utilis par une mthode de Monte-Carlo pour
estimer le revenu par la valeur estime de ltat suivant. Or au cours de lapprentissage, cette
valeur nest pas forcment correcte et pourrait tre remplace par dautres valuations.
Le premier exemple est lutilisation de n pas du futur, qui conduit la mthode des diffrences
temporelles n pas. Dans cette mthode, le revenu est estim par une quation de la forme :
R
t
= R
n
t
= r
t+1
+r
t+2
+. . . +
n
r
t+n+1
V(s
t+n+1
)
La mise a jour se ferait alors par lquation :
V(s
t
) V(s
t
) +[R
n
t
V(s
t
)]
Il est galement possible destimer R
t
en utilisant des moyennes pondres de R
n
t
:
R
t
=
i
a
i
R
i
t
avec a
i
= 1.
Un cas particulier interessant de cette dernire mthode est lutilisation dune pondration
exponentielle qui va faire dcroitre limportance des expriences au fur et a mesure de leur loi-
gnement dans le temps :
R
t
= (1)
i=1
i
R
i
t
Ce cas particulier est intressant car il peut sappliquer simplement en utilisant les valeurs
passes des rcompenses, au lieu des valeurs futures (on dmontre que les mises jour sont
les mmes). On utilise pour cela une valeur auxiliaire appele trace dligibilit que lon dnit de
la manire rcursive suivante :
e
t
(s) =
e
t1
(s) si s = s
t
e
t1
(s) +1 si s = s
t
FIG. 7.5: Illustration de la mthode des traces deligibilits. La mthode des diffrences tem-
porelles est utilise, mais propage avec une dcroissance tous les tats de lhistorique de
lagent.
La mise jour des valeurs se fait alors pour chaque tat proportionellement la valeur de son
ligibilit (Figure 7.5) :
V(s
t
) V(s
t
) +e(s
t
)[r
t+1
+V(s
t+1
) V(s
t
)]
Lide de cette mise jour est de remplacer la mise jour dun tat en utilisant des rcom-
penses futures par la mise jour des tats passs en utilisant la rcompense courante. Cela
donne au nal lalgorithme TD()
3
(algorithme 7.1). Cet algorithme se dcline simplement pour
les extension Sarsa() et Q().
7.1: Algorithme TD()
1: Initialiser V(s) alatoirement et e(s) = 0 pour tout s
2: for all pisodes do
3: Initialise s
4: for all pas de lpisode do
5: a (s)
6: Executer a, recueillir r et ltat suivant s
7: r +V(s
) V(s)
8: e(s) e(s) +1
9: for all s do
10: V(s) V(s) +e(s)
11: e(s) e(s)
12: end for
13: s s
14: end for

15: end for
7.6 Application pratique
En robotique mobile, les espaces dentre et de sortie des capteurs et des effecteurs sont
rarement discrets, ou, si ils le sont, le nombre dtat est trs grand. Or lapprentissage par renfor-
cement tel que nous lavons dcrit utilise des espaces dtat et daction qui doivent tre de taille
raisonnable pour permettre aux algorithmes de converger en un temps utilisable en pratique.
Pour permettre dutiliser lapprentissage par renforcement, plusieurs approches sont pos-
sibles. La premire consiste discrtiser manuellement le problme an de fournir des espaces
de quelques centaines dtats qui pourront tre utiliss directement par des versions naves des
algorithmes (utilisant par exemple simplement des tableaux de valeurs Q[s][a], cest cette m-
thode que nous avons utilis dans lexemple de la section suivante). Il faut cependant bien faire
attention au choix des discrtisations an quelle permettent un apprentissage correct en four-
nissant des tats et des actions qui conduisent notamment des rcompenses cohrentes. Ce
3
TD pour Temporal Differences
7.7. EXEMPLE DE MISE EN UVRE
choix peut tre relativement simple pour des capteurs intuitifs comme les capteurs de distance,
mais tre complexe voir impossible si lespace dentre est plus abstrait ou si sa structure en peu
connue (par exemple pour un jeu comme le backgammon).
s a
Q(s,a)
erreur = rt+1 + max Q(st+1,a) - Q(s,a)
FIG. 7.6: Exemple de rseau de neurones simple permettant lapproximation de Q(s, a).
La seconde mthode va permettre de travailler directement dans les espaces dtats conti-
nus des capteurs en utilisant des mthodes dapproximation de fonction. En effet, pour utiliser
lapprentissage par renforcement, il est simplement ncessaire destimer correctement la fonc-
tion Q(s, a) (par exemple). Or cette estimation peut se faire directement par un approximateur de
fonction continu, par exemple un rseau de neurones (gure 7.6), que lon entraine laide des
donnes recueillies sur le problme. Lutilisation de ce type dapproximation permet de travailler
directement dans lespace continu et donc de limiter les effets parasites qui pourraient apparatre
suite un mauvais choix de discrtisation. Ces mthodes peuvent possder cependant des incon-
vnients, notamment de raliser un apprentissage non local (comme dans le cas des rseaux de
neurones), ce qui entraine des modications incontroles de valeurs pour des couples (s, a) qui
ne sont pas ceux pour lesquels on ralise lapprentissage. Certaines mthodes utilisant dautres
types dapproximation (comme la rgression pondre localement) permettre de saffranchir de
ces contraintes.
7.7 Exemple de mise en uvre
Dans cette exemple, nous avons utilis un algorithme de Q-Learning trs simple pour ap-
prendre un robot viter les obstacles. Le robot possde un tlmtre laser et une base mobile
diffrentielle. Nous avons discrtis les donnes du tlmtre selon le schma de la gure 7.7
pour constituer un espace dentre de 2187 tats. Les actions ont t discrtise en trois actions
lmentaires : avancer, tourner droite, tourner gauche.
La rcompense tait de -10 lorsque le robot percute un obstacle (il est alors remis son point
de dpart) et +3 lorsque le robot choisit laction davancer. Lalgorithme de Q-Learning utilise un
0
1
2
3 4
5
6
a b c
FIG. 7.7: Discrtisation de lespace dtats : pour chaque secteur, de 0 6, une valeur O
i
est
calcule en fonction de la prsence ou de labsence dobstacles dans les zones a, b et c : 0
si un obstacle est dans a, 1 si un obstacle est dans b et 2 sinon. Ltat s est la valeur en base
3 fournie par les des O
i
:
k
3
k
O
k
. Dans lexemple, O
0
= 2, O
1
= 2, O
2
= 1, O
3
= 1, O
4
=
2, O
5
= 2, O
6
= 2 et donc s = 2150.
simple tableau de 2187x3 cases pour reprsenter la fonction Q. La courbe 7.8 donne lvolution
au cours du temps des rcompenses obtenues sur des pisodes de 100 pas de temps. Les pas
de temps ont une longueur variable et correspondent aux changements dtat. Un pisode dure
en moyenne 35 secondes. La gure illustre galement les trajectoires alatoires initiales et le
rsultat aprs convergence de lalgorithme.
R
c
o
m
p
e
n
s
e
Expriences
0 50 100 150 200 250 300 350 0 50 100 150 200 250 300 350
-150
-100
-50
0
50
200
100
150
200
traj 003 traj 185
FIG. 7.8: Rcompenses obtenues au cours du temps et exemples de trajectoires obtenues au
premier pisode et lpisode 185.
Reinforcement Learning : An Introduction de Richard S. Sutton and Andrew G. Barto. MIT
Press, Cambridge, MA, 1998. A Bradford Book
Le livre de Sutton et Barto en ligne :
http://www.cs.ualberta.ca/~sutton/book/the-book.html
Le reinforcement learning repository :
http://www-anw.cs.umass.edu/rlr/
Troisime partie
Navigation utilisant une carte
Cette partie prsente la navigation par carte qui permet un robot de prendre en compte des
buts long terme en utilisant des informations mmorises sur la structure de son environnement.
Ces mthodes se dcomposent en trois processus : cartographie, localisation et planication,
dtaills dans les diffrents chapitres.
CHAPITRE 8. LOCALISATION, CARTOGRAPHIE ET PLANIFICATION
Chapitre 8
Localisation, Cartographie et Planication
8.1 Les trois problmes de la navigation par carte
Le processus complet qui permet un robot de mmoriser son environnement, puis de sy
dplacer pour rejoindre un but, peut tre dcoup en trois phases : la cartographie, la localisation
et la planication. Ces trois phases permettent de rpondre aux trois questions fondamentales
pour la tche de navigation [69] : O suis-je ? O sont les autres lieux par rapport moi ? et
Comment puis-je atteindre mon but ?
La cartographie est la phase qui permet la construction dune carte retant la structure
spatiale de lenvironnement partir des diffrentes informations recueillies par le robot.
Une telle carte tant disponible, la localisation permet alors de dterminer la position du
robot dans la carte qui correspond sa position dans son environnement rel.
La planication , enn, est la phase qui permet, connaissant la carte de lenvironnement et
la position actuelle du robot, de prvoir les mouvements effectuer an de rejoindre un but
x dans lenvironnement.
Ces trois phases sont videmment fortement interdpendantes. Lordre dans lequel elles sont
cites fait directement apparatre le fait que la seconde phase dpend de la premire. En effet,
estimer sa position au sein dune carte de lenvironnement suppose implicitement que cette carte
existe et quelle contient la position courante du robot. De mme, la troisime phase dpend des
deux premires, car la planication suppose que lon connaisse sa position et que la carte de
lenvironnement reprsente une portion de lenvironnement contenant au moins un chemin reliant
cette position au but qui doit tre atteint.
Mais la relation entre les deux premires phases est plus subtile quune simple relation dan-
triorit : cest le mme problme que pour luf et la poule. Chacun des deux lments peut, en
effet, tre considr comme pralable lautre mais dpend aussi de lautre pour sa ralisation.
Dans le cas de la cartographie et de la localisation, nous avons dj vu que la localisation repose
sur une phase pralable de cartographie. Mais pour construire une carte, il est ncessaire de
savoir o ajouter, dans la carte partielle dj existante, toute nouvelle information recueillie par
le robot. Cela requiert donc une phase pralable de localisation au sein de la carte partielle dj
existante. Ainsi, pour un robot compltement autonome, il est impossible de ne pas traiter ces
8.2. QUELQUES HYPOTHSES DE TRAVAIL
deux problmes simultanment.
Dans le cadre o lon autorise un oprateur humain intervenir dans le processus, il est vi-
demment possible de dcoupler ces deux phases. Dans les applications relle, il est frquent que
lon fournisse au robot une carte construite au pralable et quon ne sintresse qu lestimation
de la position au sein de cette carte pour quil puisse accomplir sa tche. La carte peut alors tre
obtenue de diffrentes manires. Il est par exemple possible dutiliser un plan darchitecte dun
btiment pour le transformer en une carte utilisable par le robot. Il est galement possible duti-
liser le robot dans une phase supervise de cartographie. Au cours de cette phase, la position
du robot est calcule de manire prcise par un dispositif externe au systme de navigation, et
ne ncessite donc pas que le systme estime de lui-mme la position. Connaissant la position
prcise du robot, il est alors relativement simple de construire une carte de lenvironnement.
8.2 Quelques hypothses de travail
8.2.1 Estimation de la position et de la direction
A ce stade, il convient de prciser la notion de position que nous emploierons. En effet, la
position dun robot est dnie la fois par son emplacement spatial, estim par rapport un
point de rfrence et par sa direction, estime par rapport une direction de rfrence. Ces deux
quantits sont couples mais ont des statuts relativement distincts en pratique.
Lors du mouvement, la direction du robot inuence la manire dont varie sa position, mais peut
parfois tre contrle indpendamment. Dans le cas de plates-formes holonomes, ce dcouplage
permet notamment de simplier le processus de planication en ne tenant pas compte de la
direction du robot, laquelle peut tre contrle sans inuencer la position. La variable importante
est alors la position du robot, la direction devant tre estime pour pouvoir agir, mais non pour
planier.
Cette indpendance relative au niveau de la planication peut conduire des systmes des-
timation de la position et de la direction spars. Cette sparation est supporte par le fait que
la direction dun robot peut tre mesure par des capteurs indpendamment de lestimation de
sa position. Il est par exemple possible dutiliser une boussole qui mesure la direction par rapport
la direction du ple magntique, ou un gyroscope qui mesure la direction par rapport une
direction arbitraire xe.
Le choix de reprsenter et destimer de manire spare la position et la direction ninterdit
toutefois pas des interactions entre ces informations. Lestimation de la position utilisera videm-
ment celle de la direction pour pouvoir intgrer de nouvelles donnes lors du mouvement du robot.
Lestimation de la direction pourra galement dpendre de la position par un systme de recalage
qui utilisera la perception dun point de rfrence connu depuis une position connue pour estimer
la direction.
CHAPITRE 8. LOCALISATION, CARTOGRAPHIE ET PLANIFICATION
8.2.2 Environnements statiques et dynamiques
Il convient galement de prciser les types denvironnements que nous considrons ici. En ef-
fet, les robots sont amens se dplacer dans une grande varit denvironnements qui peuvent
tre regroups en deux grandes catgories : les environnements statiques et les environnements
dynamiques. Les environnements statiques sont des environnements qui ne subissent pas de
modications au cours du temps. Cette stabilit concerne la fois leur structure spatiale et leur
apparence pour les capteurs du robot. Cela exclut la majorit des environnements dans les-
quels les humains voluent quotidiennement. Les environnement dynamiques, pour leur part,
prsentent des caractristiques qui voluent au cours du temps. La plupart des environnements
courants appartiennent videmment la seconde catgorie. Par exemple, un environnement de
bureau est dynamique, du fait des personnes qui y vivent, des chaises qui y sont dplaces ou
des portes qui y sont ouvertes ou fermes.
Il est, de plus, possible de distinguer deux catgories dlments dynamiques. La premire
catgorie regroupe les lments variables qui ne caractrisent pas lenvironnement. De tels l-
ments peuvent tre considrs comme du bruit qui na pas dintrt dans la modlisation de
lenvironnement pour la planication. Cest, par exemple, le cas des personnes voluant dans un
bureau, ou des chaises dplaces. Ces environnements peuvent tre considrs comme consti-
tus dune partie statique sur laquelle se superposent diffrentes sources de bruit. La partie
statique est la partie la plus importante modliser pour parvenir une navigation efcace. Deux
effets du bruit doivent toutefois tre pris en compte. Il faut premirement veiller ce quil nem-
pche pas la ralisation de commandes issues de la planication. Cela est en gnral ralis
par le systme de contrle (larchitecture), spar du systme de navigation, qui ralise linter-
face avec la partie physique du robot. De plus, il faut prendre en compte ce bruit au niveau de
la cartographie et de la localisation an quil ne nuise pas la modlisation de la seule partie
statique de lenvironnement et ne conduise pas une mauvaise estimation de la position. Les
mthodes de navigation actuelles (prsentes dans ce cours) sont plus ou moins robustes face
ces bruits, mais cette robustesse reste gnralement limite, surtout pour la partie cartogra-
phie. Il commence cependant apparatre des mthodes prenant explicitement en compte ces
lments dynamiques, qui permettent denvisager dutiliser des robots dans des environnements
trs fortement bruits.
La seconde catgorie dlments dynamiques regroupe les lments variables qui caract-
risent lenvironnement et peuvent avoir un intrt pour la planication. Cest, par exemple, le cas
des portes qui modient la structure spatiale de lenvironnement et peuvent entraner des modi-
cations de trajectoires en fonction de leur tat. Ils doivent donc tre enregistrs dans la carte si
lon veut pouvoir les prendre en compte.
La plupart des systmes de navigation robotiques sintressent aux environnements appar-
tenant lune des deux premires catgories. Les environnements sont donc supposs tre soit
statiques, soit entachs dun bruit qui ninuence pas la planication. Ces systmes sintressent
donc modliser la partie statique des environnements qui va tre utile pour la localisation et
la planication. Il faut toutefois noter que ces systmes, qui ne modlisent pas les lments dy-
namiques de la seconde catgorie, sont nanmoins capable dvoluer dans des environnements
qui contiennent de tels lments. Pour ce faire, ces systmes sont en gnral capables de v-
8.2. QUELQUES HYPOTHSES DE TRAVAIL
rier que la trajectoire planie est correctement excute. En cas de problme dexcution, un
chemin alternatif ne passant pas par la zone qui ne peut tre atteinte est alors recherch. Cette
mthode, qui ne modlise pas explicitement les portes, par exemple, est nanmoins capable de
provoquer des dtours si une porte ferme bloque un chemin.
CHAPITRE 9. LES REPRSENTATIONS DE LENVIRONNEMENT
Chapitre 9
Les reprsentations de lenvironnement
Les deux utilisations possibles des perceptions prsentes dans le chapitre 3 (avec et sans
modle mtrique) trouvent un parallle dans deux types de reprsentations de lenvironnement.
Lorsquaucun modle mtrique nest utilis pour les capteurs, les donnes sont en gnral
mmorises dans une carte topologique [62, 98] (cf. gure 9.1). Dans une telle carte, un ensemble
de lieux et leurs relations de voisinage sont mmorises. Chaque lieu est dni au moyen de
perceptions recueillies lorsque le robot se trouve la position correspondante. Les relations entre
lieux sont, pour leur part, dduites des donnes proprioceptives.
En revanche, lorsquun modle mtrique des capteurs est utilis, les donnes peuvent tre
mmorises au sein dune carte mtrique [76, 23] (cf. gure 9.1) qui rassemble dans un mme
cadre de rfrence les donnes proprioceptives et les perceptions. La carte contient alors un
ensemble dobjets, ayant chacun une position associe.
Naturellement, il est possible de construire une carte topologique lorsquun modle mtrique
est utilis. Dans ce cas, toutefois, les perceptions ne sont en gnral pas utilises pour estimer
la position relative des lieux visits, mais seulement pour caractriser ces lieux.
Notons que la notion de topologique et de mtrique est diffrente de celle mentionne pour
les stratgies de navigation dans lintroduction. Ici, cette notion fait rfrence la manire dont
les informations sont mmorises et non la stratgie de navigation utilise. Ainsi une carte to-
pologique pourra contenir des informations mtriques et pourra tre utilise pour une stratgie
de navigation mtrique, au sens donn dans lintroduction. Dans la suite de ce cours, le concept
topologique/mtrique fera toujours rfrence au type de carte utilis, et non la stratgie corres-
pondante.
9.1 Cartes topologiques
9.1.1 Description
Les cartes topologiques permettent de reprsenter lenvironnement du robot sous forme de
graphe. Les nuds du graphe correspondent des lieux, cest--dire des positions que le ro-
bot peut atteindre. Les artes liant les nuds marquent la possibilit pour le robot de passer
9.1. CARTES TOPOLOGIQUES
y
x
Carte mtrique Carte topologique
Environnement rel
B
B
B
P
C C I
C
P
I
B
B P P
C C C
B
FIG. 9.1: Les cartes utilises en robotique peuvent tre de deux types : les cartes topo-
logiques, dune part, qui mmorisent un ensemble de lieux, ainsi que les manires de se
dplacer de lun lautre (dans cet exemple, B=Bureau, C=Couloir, P=Porte et I=Intersection)
et les cartes mtriques, dautre part, qui mmorisent un ensemble dobjets perus (des murs
dans cet exemple) avec une position dans un cadre de rfrence global.
directement dun lieu un autre et mmorisent en gnral la manire de raliser ce passage.
La dtection et la mmorisation des lieux reposent en gnral sur deux procdures qui uti-
lisent les perceptions. La premire permet simplement de comparer deux perceptions et donc de
reconnatre un lieu de la carte ou de dtecter un lieu nouveau. La seconde procdure permet de
mmoriser un nouveau lieu ou dadapter la dnition dun lieu lors des passages successifs du
robot en ce lieu. Comme nous lavons dj mentionn, la reconnaissance dun lieu est soumise
aux problmes de la variabilit perceptuelle et du perceptual aliasing . En consquence, la pre-
mire procdure peut donner des rsultats errons. Par exemple, un lieu dj visit peut ne pas
tre reconnu, ou un lieu nouveau peut tre confondu avec un lieu dj mmoris. Pour rsoudre
ces problmes, la reconnaissance des lieux fera donc appel aux donnes proprioceptives en plus
des perceptions. De nombreuses mthodes, dont les plus importantes seront dcrites dans la
suite du cours, ont t mises en uvre dans ce but.
Les donnes mmorises dans les artes du graphe sur les relations de voisinage entre lieux
proviennent, pour leur part (en gnral), des donnes proprioceptives. Cela est caractristique
des cartes topologiques, dans lesquelles les perceptions ne sont en gnral pas utilises pour
estimer les positions relatives des lieux visits, mais seulement pour reconnatre un lieu. Ces
donnes peuvent tre des informations sur les positions relatives des nuds, ou des informations
sur les actions effectuer pour parcourir cette arte.
9.1.2 Avantages
Un avantage important des cartes topologiques est quelles ne requirent pas de modle m-
trique des capteurs pour fusionner les donnes proprioceptives et les perceptions au sein dune
reprsentation unie de lenvironnement. Cela est avantageux pour deux raisons. Dune part,
ces modles mtriques peuvent, comme nous lavons vu, tre difciles obtenir ou savrer peu
ables. Dautre part, le fait de ne pas fusionner les deux sources dinformations permet de sparer
les inuences des erreurs correspondantes. En effet, lestimation de la position dobjets, lorsque
lon utilise un modle mtrique, dpend la fois des valeurs mesures par les capteurs et de la
position du robot. Une erreur sur la position dun objet peut donc provenir des deux sources. D-
terminer la contribution de chacune des sources peut tre difcile. Dans les cartes topologiques,
au contraire, le bruit sur les mesures des capteurs inue principalement sur la reconnaissance
des lieux, tandis que le bruit sur les donnes proprioceptives inue principalement sur la position
associe chaque lieu.
La mmorisation de lenvironnement sous forme dun ensemble de lieux distincts autorise
en gnral une dnition des lieux plus directement relie aux capacits perceptives du robot.
En effet, comme les perceptions ne sont pas transformes dans un repre mtrique, il ny a
pas de limitation au type de capteurs utilisables (cf. la section 3.2). Cette utilisation directe des
perceptions permet un meilleur ancrage dans lenvironnement, cest--dire une meilleure mise en
relation du robot avec son environnement. Puisque la carte est trs proche des donnes brutes
perues par le robot, il est en gnral assez simple de comparer et de mmoriser des lieux de
lenvironnement.
Cette proximit avec les donnes brutes conduit en gnral la reprsentation topologique
utiliser beaucoup moins de concepts de haut niveau que les reprsentations mtriques. La carte
topologique reste ainsi proche des possibilits du robot, en mmorisant ses perceptions et ses
dplacements possibles, indpendamment de concepts de plus haut niveau tels que des objets
ou des obstacles.
La discrtisation de lenvironnement correspondant au choix des lieux reprsents dans la
carte est un autre point fort des cartes topologiques. Cette discrtisation est en effet trs utile
pour la planication des mouvements du robot, qui se rduit alors la recherche de chemin dans
un graphe. Cette recherche est, en terme de complexit algorithmique, beaucoup plus simple
que la recherche dun chemin dans un espace continu deux dimensions. Cet avantage est
encore plus important lorsque les lieux reprsents dans la carte correspondent des structures
humaines telles que les portes, les couloirs ou les pices. La discrtisation permet alors de dcrire
et de rsoudre les problmes de manire naturelle pour les humains, par exemple en donnant
lordre daller au bureau B744, plutt que de dire daller la position dnie par les coordonnes
x=354,y=285.
9.1.3 Inconvnients
Comme nous lavons dj mentionn, lutilisation directe des perceptions sans modle m-
trique empche destimer ces donnes pour des positions non visites. En consquence, les
cartes topologiques ncessitent en gnral une exploration trs complte de lenvironnement
pour le reprsenter avec prcision. En particulier, tous les lieux intressants que lon souhaite
trouver dans la carte devront tre visits au moins une fois au cours de la construction de la
carte, parce quils ne peuvent pas tre perus distance. Dans le cas o les lieux reprsents
sont des structures dassez haut niveau (comme des couloirs ou des pices), cela nest pas g-
nant car ces lieux sont peu nombreux et une exploration exhaustive est donc relativement rapide.
En revanche, dans les cartes topologiques reprsentant des lieux avec une assez grande densit
spatiale, cela peut tre un inconvnient, car lexploration complte de lenvironnement demandera
un temps important.
La reconnaissance des lieux de lenvironnement peut galement tre difcile dans le cas de
capteurs trs bruits, ou denvironnements trs dynamiques. Elle est, de plus, trs sensible au
problme de perceptual aliasing . Ces difcults conduisent des problmes de fausse recon-
naissance, cest--dire la reconnaissance dun lieu donn alors que le robot se trouve dans un
autre lieu. leur tour, ces fausses reconnaissances conduisent une mauvaise topologie de la
carte et des liens qui relient des nuds de la carte qui ne sont pas physiquement relis dans
lenvironnement. Ces difcults rendent problmatique la construction de cartes topologiques
dans des environnements de grande taille, car la carte rsultante risque dtre incohrente. Il de-
vient alors trs difcile destimer correctement la position du robot au sein de cette carte et de lui
ajouter de nouvelles informations sans erreurs.
Comme nous lavons vu, la reprsentation de lenvironnement peut tre assez proche des
donnes brutes des capteurs du robot, ce qui peut tre un avantage du point de vue de lautono-
mie du robot. Toutefois, cette reprsentation centre sur lindividu peut poser des problmes pour
la rutilisation de la carte. En effet, le manque de reprsentation de lenvironnement indpen-
dante de lindividu et labsence de modle mtrique des capteurs ne permettra pas dadapter la
carte un robot avec des capteurs lgrement diffrents. En effet, si lon dispose dun tel modle,
ladaptation se fait simplement au niveau du modle de capteur, sans modication de la carte
elle-mme. Cela est plus difcile avec une carte topologique, au sein de laquelle il est quasiment
impossible de changer les donnes recueillies par un capteur pour les transformer en donnes
telles quun autre capteur aurait pu les acqurir. De plus, cette reprsentation centre sur un in-
dividu est moins naturelle pour un oprateur humain, plus habitu aux reprsentations objectives
du type plan darchitecte, ce qui peut tre gnant lorsque lon souhaite une interaction forte entre
un oprateur et le robot.
9.1.4 Implantation
Dnition des nuds
Le choix de ce que vont reprsenter les nuds de la carte dtermine tout le processus de
construction de la carte topologique. Ce choix est li aux capacits de perception dont on a dot
le robot, lequel devra tre capable de dtecter les lieux en question. De plus, la localisation et la
mise jour de la carte se feront chaque fois quun tel lieu aura t dtect. La dtection de ces
lieux peut tre contrainte par des choix des oprateurs humains ou tre compltement autonome.
Nuds dnis par le concepteur
La premire possibilit est de dnir directement quels lieux doivent tre dtects par le robot
et comment ils doivent ltre. Des procdures sont alors crites qui permettent de dtecter sp-
ciquement chaque type de lieu. Le choix le plus courant est lutilisation de couloirs, de portes et
dintersections [26, 53, 63, 93]. Lorsque ce choix est fait, un trs petit nombre de lieux diffrents
peuvent tre dtect, ce qui rend le problme du perceptual aliasing omniprsent. Les systmes
concerns dpendent donc en gnral fortement des donnes proprioceptives pour parvenir
utiliser ces reprsentations.
Nuds dnis des positions canoniques
Plutt que de dnir compltement les lieux que peut dtecter le robot, le concepteur peut
simplement dnir dans quels types de situations le robot peut enregistrer un lieu, laissant le
soin de dnir chaque lieu prcisment au moment de la dcouverte du lieu. Par exemple, le
concepteur peut doter le robot de la capacit gnrale de dtecter des portes. Lorsque le robot
dtectera une porte, il enregistrera un nouveau nud dans la carte, mais ce nud sera dni
par la situation prcise dans laquelle il se trouve quand il rencontre cette porte. Il pourra, par
exemple, enregistrer la couleur de la porte, ou le numro qui est inscrit dessus. Cette mthode de
dnition des nuds a t propose par Kuipers et Byun [62] sous le nom de distinctive places,
puis utilise sous une forme diffrente par Engelson et McDermott [35] et par Kortenkamp et
Weymouth [60] sous le nom de gateways.
Nuds dnis de manire non supervise
La troisime mthode pour dnir les nuds dun carte topologique consiste les dnir
comme des zones o les perceptions sont approximativement constantes. Cela est obtenu en g-
nral par la catgorisation non supervise des perceptions [7, 28, 40, 42, 64, 69, 73, 79, 106, 107].
Ces perceptions sont donc regroupes en catgories contenant des donnes similaires, sans que
ces catgories soient spcies par un concepteur humain. Chaque catgorie correspond alors
un ou plusieurs nuds de la carte. Le nud correspondant une catgorie tant unique dans
le cas o il ny a pas de perceptual aliasing. Cette mthode est bien adapte des robots au-
tonomes car la catgorisation ne ncessite aucun superviseur, ni aucune dnition a priori des
donnes correspondant un nud. A ce titre, elle est utilise dans tous les systmes de naviga-
tion qui sinspirent des comportements de navigation des animaux [4, 9, 19, 92, 102].
Pour mettre en uvre une telle approche, il faut dnir un critre qui permette de dcider
quand un nouveau lieu a t atteint. Le choix le plus vident est de comparer constamment la
situation courante celle du prcdent nud reconnu. Lorsque la diffrence est sufsamment
importante, on considre quun nouveau lieu a t atteint. Cette mthode est utilise par certains
modles [40, 42, 64, 73, 79], mais requiert que les perceptions soient compares en temps rel,
ce qui peut-tre difcile pour certains capteurs (les camras, par exemple). Dautres modles
considrent donc plus simplement quun nouveau nud a t atteint lorsque la distance parcou-
rue depuis la dernire reconnaissance est assez grande [4, 102, 107, 109]. Ces deux approches
conduisent ainsi des discrtisations diffrentes de lenvironnement.
Dnition des artes
Les artes reliant les nuds permettent de mmoriser des donnes sur les relations de voi-
sinage entre lieux reprsents par les nuds. Ces donnes sont en gnral obtenues grce
aux informations proprioceptives. Elles peuvent tre plus ou moins prcises et reprsentes sous
diverses formes.
Relation dadjacence
La premire information que porte une arte est une information dadjacence entre les deux
lieux reprsents par les nuds quelle connecte. Cette relation peut tre bidirectionnelle ou non.
Lexistence dune arte signie donc que le robot peut passer directement dun lieu lautre,
sans passer par un lieu intermdiaire. Si certains modles ne mmorisent que cette information
dadjacence [40, 43, 53, 59, 80, 106], cette information est prise en compte dans tous les modles,
mme si des informations supplmentaires sont enregistres dans les artes.
Relations mtriques
Des informations mtriques sur la position relative des lieux peuvent tre mmorises dans
les artes. Ces informations portent en gnral sur la position relative des lieux relis par larte
[35, 51, 62, 63, 79, 93, 95, 107]. Elles sont fournies et quanties par les donnes propriocep-
tives lorsque le robot se dplace dun lieu lautre. Cette mthode prsente lavantage de limiter
laccumulation de lerreur des donnes proprioceptives, puisque ces donnes ne sont utilises
que sur la distance reliant un nud un autre. Cette distance est en gnral assez courte pour
viter une accumulation derreurs trop importante. Les cartes topologiques utilisant de telles in-
formations mtriques sont appeles par certains auteurs cartes diktiomtriques [35].
Association de position aux nuds
Dans le but dintgrer les donnes proprioceptives une carte topologique, il est galement
possible dassocier une position chacun des nuds. Cette position se mesure dans lespace
dans lequel sexpriment les donnes proprioceptives et correspond la position des diffrents
lieux dans lenvironnement. Ce type de carte se rapproche fortement des cartes mtriques,
la diffrence que seuls les lieux visits par le robot, et non les objets perus par le robot, sont
mmoriss. Linconvnient, par rapport lapproche prcdente, est quil est ncessaire de cor-
riger les informations proprioceptives car elles ne sont plus utilises localement. Chaque nud
ayant une position dans un cadre de rfrence global, il est possible de se contenter de cette
information, sans ajouter de liens entre les nuds [82, 4, 9]. Toutefois, certains modles utilisent
galement des liens pour mmoriser linformation dadjacence [73, 102, 64, 110, 28, 107, 26].
Comme linformation de position de chaque nud est absolue, ce type de carte peut tre appel
carte diktiomtrique absolue.
Relation implicite
Dans certains cas, il est possible de retrouver les relations de position entre les lieux au vu
des seules perceptions qui les reprsentent. Cela est possible, par exemple, lorsque les lieux
sont dnis par la conguration damers distants qui peuvent tre perus par le robot lorsquil
se trouve cette position. Un certain nombre damers communs, visibles depuis deux lieux diff-
rents permettront davoir des informations sur la position relative de ces lieux. Lexistence damers
communs peut donc tre utilise comme lien implicite [69, 92, 19].
9.2 Cartes mtriques
9.2.1 Description
Dans une carte mtrique, lenvironnement est reprsent par un ensemble dobjets auxquels
sont associes des positions dans un espace mtrique, gnralement en deux dimensions. Cet
espace est, la plupart du temps, celui dans lequel sexprime la position du robot estime par
les donnes proprioceptives. Les perceptions permettent, en utilisant un modle mtrique des
capteurs, de dtecter ces objets et destimer leur position par rapport au robot. La position de ces
objets dans lenvironnement est alors calcule en utilisant la position estime du robot. La fusion
des deux sources dinformation au sein dun mme cadre de reprsentation est caractristique
des cartes mtriques.
Les objets mmoriss dans la carte peuvent tre trs divers et seront dtaills dans la suite
de cette section. Dans certaines implantations, ces objets correspondent aux obstacles que le
robot pourra rencontrer dans son environnement. La carte de lenvironnement correspond alors
directement lespace libre, cest--dire lespace dans lequel le robot peut se dplacer.
9.2.2 Avantages
Lavantage principal des cartes mtriques est de permettre de reprsenter lensemble de len-
vironnement, et non un petit sous-ensemble de lieux comme le font les cartes topologiques. Cette
reprsentation complte permet ainsi destimer avec prcision et de manire continue la position
du robot sur lensemble de son environnement. De plus, cette reprsentation complte ne se li-
mite pas aux positions physiquement explores, mais stend toutes les zones que le robot a
pu percevoir depuis les lieux quil a visits. Cette proprit peut permettre la construction dune
carte plus exhaustive de lenvironnement en un temps plus court.
Un autre avantage des cartes mtriques est li au fait que la position du robot est dnie de
manire non ambigu par ses coordonnes au sein de lespace dans lequel la carte est reprsen-
te. Il sensuit une utilisation simple et directe de toutes les informations mtriques fournies par les
donnes proprioceptives ou les perceptions. Cela est un avantage par rapport aux cartes topolo-
giques o les positions possibles du robot sont limites aux nuds prsents dans la carte et sont
donc relativement imprcises. Une telle reprsentation, dans laquelle chaque nud peut couvrir
une zone tendue de lenvironnement, rend plus difcile lutilisation des donnes mtriques car
la position relative de deux zones est moins bien dnie.
La reprsentation de lenvironnement indpendante de lindividu utilise dans les cartes m-
triques apporte un certain nombre davantages supplmentaires. Comme nous lavons mentionn
propos des cartes topologiques, une telle reprsentation permet une rutilisation plus facile
dune carte sur des robots diffrents, quips de capteurs diffrents, lessentiel de ladaptation
9.2. CARTES MTRIQUES
se droulant au niveau des modles de capteurs. Ce type de reprsentation est aussi facilement
interprtable par un humain, ce qui peut tre important dans le cas o il doit intervenir dans les
dplacements du robot.
Cette reprsentation peut de plus utiliser des concepts de plus haut niveau, tels que des
objets, des obstacles ou des murs. Cela permet un apport de connaissance plus facile de la
part des humains, par exemple pour imposer que les murs dtects soient perpendiculaires ou
parallles.
9.2.3 Inconvnients
Lors de lutilisation de cartes mtriques, les donnes proprioceptives ont en gnral une im-
portance suprieure celle quelles ont dans lutilisation dun carte topologique. Par consquent,
une odomtrie plus able peut tre requise. Le niveau de abilit ncessaire peut tre atteint en
imposant des limitations sur lenvironnement du robot. Par exemple, il est possible dimposer que
tous les couloirs soient orthogonaux, an de pouvoir corriger efcacement la drive de lestimation
de la position.
Comme nous lavons mentionn dans la section 3.2, un modle mtrique des capteurs peut
tre difcile obtenir. Les problmes lis au bruit des capteurs et la difcult de modliser
de manire able leur relation avec lenvironnement constituent donc un point faible des cartes
mtriques.
Enn, le calcul de chemin au sein des cartes mtriques peut tre plus complexe, car la pla-
nication se droule dans un espace continu et non dans un espace pralablement discrtis,
comme cest le cas pour les cartes topologiques. De nombreux modles recourent dailleurs
lextraction dune carte topologique depuis la carte mtrique pour raliser cette opration de pla-
nication [66].
9.2.4 Implantation
Deux mthodes principales sont utilises pour mmoriser des informations sous forme de
carte mtrique. La premire mthode consiste extraire explicitement des objets des perceptions
et les enregistrer dans la carte avec leur position estime. Les objets peuvent tre de types trs
varis et se situer diffrents niveaux dabstraction. La seconde mthode sattache reprsenter
directement lespace libre accessible au robot et les zones dobstacles quil ne peut pas franchir,
sans avoir recours lidentication dobjets individuels.
Reprsentation dobjets
Points
Les objets les plus simples qui peuvent tre utiliss sont des points [69, 84, 36]. Ces points
correspondent des objets de lenvironnement de taille sufsamment petite, ou situs sufsam-
ment loin du robot, pour pouvoir tre considrs comme ponctuels. Ils possdent linconvnient
que la perception dun point de lenvironnement ne suft pas dterminer de manire unique la
position du robot. Ce type de points de repre est par consquent relativement pauvre et contraint
la dtection de plusieurs objets pour assurer une localisation prcise. De plus, reconnatre un
tel point de manire non ambigu est souvent difcile et requiert une bonne capacit de discrimi-
nation de la part des capteurs. Cependant, certains modles ne requirent pas cette identication
et utilisent des points indistinguables.
Certains modles ont recours des ensembles de points dissmins sur la surface des objets
de lenvironnement [70, 49, 101]. Ces points sont en gnral obtenus par des tlmtres laser, qui
permettent den recueillir un grand nombre avec une rsolution spatiale leve. Les objets sont
ainsi dnis par la conguration densembles de points, et non plus par des points uniques. Cette
mthode prsente donc lavantage de ne pas recourir lidentication individuelle de chaque
point.
Points orients
An dobtenir plus dinformation sur la position du robot par la perception dun seul objet, il est
possible de doter chaque objet ponctuel dune orientation. La perception dun tel point orient per-
met alors destimer la position du robot de manire unique. Un tel type de point peut correspondre
un point de rfrence sur un objet non ponctuel de lenvironnement [52, 96], par exemple langle
dun obstacle, peru grce un tlmtre laser [13].
Frontire des objets
Les frontires des diffrents objets et obstacles de lenvironnement peuvent tre directement
reprsentes par des objets gomtriques de plus haut niveau que des points. Des lignes ou des
polygones sont trs souvent utiliss. Ces objets sont extraits densemble de points perus par
des capteurs ultrasons [31, 41] ou des tlmtres laser [77, 33, 22]. Des cylindres et des plans,
dtects par des capteurs ultrasons sont aussi utiliss [68], ainsi que des structures de plus
haut niveau, comme des plans en trois dimension, dtects par stro-vision [6].
Reprsentation de lincertitude
Dans la plupart des systmes, la manire dont est reprsente et gre lincertitude est cru-
ciale. Lincertitude concernant les objets mmoriss dans la carte est de deux types. Le premier
concerne lincertitude sur les paramtres des objets, par exemple sur leur position dans lenviron-
nement. Ce type dincertitude provient des erreurs de localisation du robot lors de la perception
dun objet, ou dun bruit au niveau du capteur. Il est, dans la majorit des cas, reprsent de ma-
nire probabiliste, notamment par la variance de paramtres considrs [96, 6, 77, 68, 52, 36, 22].
Toutefois, dautres mthodes peuvent tre utilises, par exemple des intervalles [35] ou des en-
sembles ous [41].
Le second type dincertitude se place un niveau plus fondamental. Il porte sur la qualit
de la correspondance entre la carte et lenvironnement. Il mesure avec quelle conance un objet
prsent dans la carte correspond effectivement un objet de lenvironnement. En effet, il peut
arriver que des erreurs de perception fassent apparatre des objets qui nexistent pas dans lenvi-
ronnement. Cette incertitude est caractristique des environnements dynamiques, dans lesquels
des objets sont susceptibles de se dplacer, dapparatre ou de disparatre. Elle est gre, pour
une grande partie, au niveau des capteurs, les procdures permettant la dtection dobjet m-
moriser tant conues pour ignorer au maximum les lments instables de lenvironnement. Au
9.2. CARTES MTRIQUES
niveau de la carte, la plupart des modles traitent ce problme au moment de la mise jour. Il
est par exemple possible de supprimer les objets qui auraient d tre perus, mais qui restent
introuvables par le robot. Certain modles toutefois modlisent explicitement cette incertitude au
moyen dun paramtre de crdibilit [68]. Ce paramtre permet une plus grande tolrance aux
accidents de perception en mesurant la abilit dobjets comme point de repre.
Reprsentation de lespace libre
Un des premiers modles pour ce type de reprsentation est celui de la grille doccupation
[76, 98, 111]. Dans ce modle, lenvironnement est entirement discrtis suivant une grille r-
gulire avec une rsolution spatiale trs ne (cf. gure 9.2). Une probabilit doccupation est
associe chaque lment de cette grille. Cette probabilit mesure la conance dans le fait que
lespace correspondant dans lenvironnement est effectivement occup par un obstacle. Lavan-
tage dune telle reprsentation est quelle utilise directement les valeurs des capteurs de distance
an de mettre jour les probabilits doccupation des cellules. Elle permet donc de supprimer la
phase dextraction dobjets qui est souvent coteuse en temps de calcul et soumise une forte
incertitude.
FIG. 9.2: Un exemple de grille doccupation utilise pour reprsenter un environnement. Les
zones sombres indiquent une forte probabilit de prsence dun obstacle (Repris de [98]).
Les grilles doccupation utilisent cependant une quantit de mmoire importante, qui crot
proportionnellement la surface de lenvironnement. Pour saffranchir de ce problme, certains
modles font appel des discrtisations irrgulires de lespace [3] ou des discrtisations hi-
rarchiques. De telles discrtisations permettent de sadapter la complexit de lenvironnement,
en reprsentant de manire grossire les grands espaces libres et plus nement les contours des
obstacles.
9.3 Fusion de capteurs
Nous avons vu que les diffrentes donnes recueillies par les capteurs du robot sont mmori-
ses au sein dune carte reprsentant lenvironnement. Une source unique dinformation tant en
gnral insufsante pour construire une reprsentation efcace et utilisable de lenvironnement,
cette carte est le lieu dintgration des donnes de diffrents capteurs. Ces capteurs peuvent
donner des informations trs diverses, soit de type spatial (capteurs ultrasons, tlmtres, vi-
sion stroscopique), soit de type non spatial (temprature, couleur). Le problme de lutilisation
conjointe de tous ces capteurs pour la ralisation dune tche unique est abord dans la littra-
ture sous le nom de fusion de capteurs [71]. Les cartes topologiques et mtriques ralisent cette
fusion de capteurs de deux manires diffrentes qui permettent de reformuler les avantages et
les inconvnients des deux types de cartes.
En effet, les cartes mtriques utilisent un cadre de rfrence global commun pour raliser
cette fusion. Chacun des capteurs utiliss doit donc tre associ un modle mtrique qui per-
met lintgration de ces donnes dans le cadre commun. Cela limite donc les types de capteurs
utilisables ceux fournissant une information spatiale, pour lesquels un tel modle peut tre
construit.
Les cartes topologiques, quant elles, permettent lutilisation de tous les types de capteurs
car elles nutilisent pas de cadre de reprsentation unique. La mthode de fusion est une m-
thode dassociation qui permet de relier les donnes de diffrents capteurs qui correspondent
un mme lieu. Cette mthode permet ainsi une fusion des donnes plus souple et plus gn-
rale que la mthode utilise pour une carte mtrique. La reconnaissance dun lieu peut ainsi tre
ralise en combinant facilement des critres autres que des critres spatiaux. Cette seconde
technique peut tre appele intgration de capteurs [13]. Elle est plus adapte au cas dun ro-
bot pouvant possder une large varit de capteurs car la gestion de chacun peut tre ralise
indpendamment des autres.
9.3. FUSION DE CAPTEURS
CHAPITRE 10. LOCALISATION
Chapitre 10
Localisation
Ce chapitre prsente les principales mthodes de localisation. On pourra trouver une descrip-
tion succincte dun grand nombre dautres mthodes dans [37].
10.1 Diffrentes capacits de localisation
Il existe trois types de capacits regroupes sous le terme localisation, de difcult dif-
frente. La premire, appele suivi de position, est la capacit de mettre jour une estimation
existante de la position au vu de donnes proprioceptives ou de perceptions nouvellement ac-
quises. Dans le cas des donnes proprioceptives, cette mise jour concerne un dplacement du
robot et va en gnral diminuer la prcision de lestimation courante de la position, cause de
lerreur sur la mesure. Dans le cas de perceptions, au contraire, cette mise jour va en gnral
permettre damliorer cette estimation grce au lien avec lenvironnement fourni par ces donnes.
Lutilisation de cet ancrage dans lenvironnement est fondamental pour assurer que lestimation
de la position rete correctement la position du robot dans lenvironnement rel. Cette mise
jour intgrant les deux types de donnes permet de combiner les avantages inhrents aux deux
types dinformation an destimer au mieux la position du robot. En pratique, toutefois, le suivi de
position est problmatique car il repose sur une estimation initiale de la position qui doit souvent
tre fournie par une source extrieure. De plus, si la position estime scarte trop de la position
relle du robot, il peut trs bien tre impossible de parvenir corriger lerreur et de retrouver la
position relle, ce qui conduit une drive de lalgorithme.
La seconde capacit de localisation, la localisation globale, est plus gnrale et permet de
retrouver la position du robot sans quaucune estimation initiale ne soit fournie. Cette capacit est
trs importante du point de vue de lautonomie, car elle permet au robot de trouver sa position
initiale, dans toutes les conditions, sans intervention extrieure. Elle permet, par exemple, de
couper lalimentation dun robot des ns de maintenance, puis de remettre ce robot dans une
position quelconque de lenvironnement sans se soucier dinitialiser correctement son estimation
de la position.
Enn la troisime capacit est la capacit retrouver la position dun robot kidnapp, cest
dire dun robot dont on a une estimation de la position, mais dont lestimation est fausse car il a
10.1. DIFFRENTES CAPACITS DE LOCALISATION
t dplac, sans que le systme de localisation nen soit inform. Par rapport la localisation
globale, ce cas prsente la difcult supplmentaire de parvenir dtecter que la position actuel-
lement suivie nest plus correcte. Cette phase est dlicate car il faut distinguer entre les cas o
les perceptions sont simplement temporairement bruites, sans que le robot ait t dplac, et
les cas o le robot a rellement t dplac.
Les capacits de suivi de position et de localisation globale ont des proprits duales. Comme
le note Piasecki [83], dans le contexte dune carte mtrique, le suivi de position est une mthode
locale, continue, qui effectue rgulirement de petites corrections lestimation de la position du
robot. Cette mthode effectue de telles corrections en se basant sur des objets de lenvironnement
et la manire dont ils ont t perus par le robot. Lidentication de ces objets est de plus simplie
grce lestimation initiale de la position qui permet, en cas de perceptual aliasing, de dcider
quel est lobjet qui a t peru parmi les diffrents objets correspondant aux perceptions.
Au contraire, la localisation globale est une mthode globale, discontinue, qui effectue excep-
tionnellement des corrections de grande ampleur de la position estime. Sa premire tche, avant
destimer une position, est de dterminer quels objets de lenvironnement correspond chacune
des perceptions du robot. Cette tche peut tre trs simple dans le cas o la carte ne contient que
des amers diffrents, mais est en gnral assez complexe car plusieurs amers sont identiques
cause du perceptual aliasing.
Comme nous lavons soulign, le suivi de position permet de fusionner et de tirer parti des in-
formations proprioceptives et des perceptions disponibles pour le robot. Cette mthode ne conduit
toutefois qu une estimation qui est localement la meilleure approximation possible de la posi-
tion. En effet, la recherche est contrainte par lestimation prcdente de cette position. La position
estime sera donc celle qui est la plus en accord avec les donnes recueillies, dans le voisinage
de cette estimation prcdente. Lestimation rsultante peut donc trs bien ne pas correspondre
la position qui, sur lensemble de la carte, correspond le mieux aux donnes.
En principe, la localisation globale permet une telle estimation optimale. Au niveau de lutili-
sation des donnes disponibles pour le robot, il existe de nouveau deux classes de mthodes de
localisation globale :
La premire, qui ne fonctionne que dans des environnements o il nexiste aucun percep-
tual aliasing, fait appel uniquement aux perceptions disponibles en une position donne.
Nous lappellerons dans ce cours infrence directe de position.
La seconde, qui fonctionne dans tous les environnements, fusionne au contraire les infor-
mations proprioceptives et les perceptions, comme le fait le suivi de position. Toutefois, au
lieu de restreindre la recherche par une estimation prcdente de la position, elle estime
parmi toutes les positions possibles au sein de la carte celle qui correspond le mieux aux
donnes prsentes et passes recueillies par le robot. Les mthodes de cette catgorie
reposent, dune faon ou dune autre, sur le suivi de plusieurs hypothses de position, ce
qui permet de gnraliser le suivi de position en utilisant de manire plus efcace les infor-
mations disponibles.
Dans la suite de ce chapitre, nous allons prsenter plus prcisment les diffrentes mthodes
de localisation. Nous allons dabord voir comment il est possible destimer la position dun robot au
vu des seules perceptions. Puis, dans le cas de systmes perceptifs soumis au perceptual alia-
sing, nous verrons comment il est possible dintgrer les informations proprioceptives, de manire
locale puis globale, an de lever les ambiguts restantes.
10.2 Estimation de la position par les perceptions
Dans cette section, nous rsumons les diffrentes mthodes qui peuvent tre utilises pour
estimer la position dun robot laide des seules perceptions. Dans le cas o lenvironnement
est exempt de perceptual aliasing , cette tape suft dterminer la position du robot de ma-
nire unique. Cette mthode est alors la premire mthode de localisation globale mentionne
prcdemment. Dans le cas o le perceptual aliasing est prsent, ces mthodes sont galement
utilises mais elles serviront reprer plusieurs positions possibles pour le robot au sein de
lenvironnement. Le suivi de position ou la seconde mthode de localisation globale qui seront
prsents dans les paragraphes suivants doivent alors tre utiliss en sus pour slectionner la
position correcte.
10.2.1 Cartes topologiques
Dans le cas des cartes topologiques, estimer la position partir des seules perceptions est
extrmement simple. En effet, parmi tous les lieux reprsents dans la carte, la position du robot
est celle dun des nuds qui correspond le mieux aux perceptions courantes. La recherche de ce
nud passe donc par la comparaison des perceptions du robot avec les perceptions mmorises
dans chacun des nuds de la carte. Les nuds qui sont identiques ou sufsamment similaires
sont alors reconnus comme positions possibles du robot.
En labsence de perceptual aliasing, tous les nuds de la carte correspondent des situa-
tions diffrentes. Cette tape est alors sufsante pour la localisation complte du robot car le
nud reconnu est unique. Diffrents systmes perceptifs ont t utiliss pour implanter de tels
modles. Certains auteurs utilisent des images panoramiques de lenvironnement pour dnir
les nuds de la carte [60, 40]. Dautre modles utilisent les directions ou les distances damers
ponctuels tous discernables, soit en simulation [19, 69, 104, 92], soit sur des robots rels [7, 42].
Lutilisation dimages panoramiques permet par exemple de raliser un systme de localisa-
tion partir dune mthode dindexation dimages. Il suft en effet davoir une base de donnes
indexant les images des diffrents nuds de la carte, puis, pour se localiser, de rechercher dans
cette base limage la plus proche de limage courante. Cette image nous donnera le nud corres-
pondant la position courante. Lindexation peut par exemple utiliser une analyse en composantes
principales qui va dterminer une base sur laquelle il sera possible de projetter chaque image.
Les coordonnes de chaque images dans cette base fournissent ainsi un reprsentation de faible
dimension de chaque nud de la carte. Pour la localisation, il suft de projetter limage courante
sur la base et de chercher limage ayant les coordonnes les plus proches.
Lorsquune position dans un espace mtrique est associe chacun des nuds de la carte,
la localisation permet en outre de dterminer la position mtrique du robot. Cette position peut
10.2. ESTIMATION DE LA POSITION PAR LES PERCEPTIONS
simplement tre la position du nud reconnu, mais il est souvent possible dobtenir une prci-
sion supplmentaire. En effet, au lieu de tenir simplement compte du nud le plus conforme aux
perceptions courantes, il est possible de tenir compte de chacun des nuds, selon son degr de
similarit avec ces perceptions. La mthode mise en uvre dans de tels modles pour raliser
cette estimation de position est le codage par population de vecteurs [44]. Cette mthode consiste
estimer la position du robot par la moyenne des positions des diffrents nuds, pondres par
le degr de similarit de chaque nud avec les perceptions du robot. Cette mthode donne une
estimation prcise de la position du robot, mais suppose une relative continuit de lenvironne-
ment. Elle suppose en effet que des lieux similaires seront proches les uns des autres pour que la
moyenne des positions ait un sens. Les perceptions doivent donc varier de manire relativement
continue avec la position.
Lorsque les modles permettent la gestion du perceptual aliasing (par une des mthodes d-
crites dans les paragraphes suivants), les lieux peuvent galement tre dnis par des images
panoramiques de leur environnement [4, 32, 51, 106, 85, 107], ou par la conguration des po-
sitions damers distants [9, 102]. Mais, puisque le perceptual aliasing sera gr par ailleurs,
des dnitions plus simples des nuds peuvent galement tre adoptes, au prix dune moins
grande discrimination. Certains modles utilisent ainsi les valeurs brutes de capteurs de distance
[79, 73, 62, 53, 51, 82], ou la conguration des murs autour du robot an de dtecter des angles
de couloirs ou des embranchements [63, 26, 93, 21, 80, 95, 97].
10.2.2 Cartes mtriques
Dans le cas des cartes mtriques, diverses mthodes destimation de la position existent.
Lorsque les perceptions sont constitues damers ponctuels, une mthode de triangulation peut
tre utilise [10, 47, 69, 72]. Cette mthode repose sur la mesure de la direction et de la distance
damers ponctuels connus. La perception de trois amers de ce type permet en effet de dnir la
position du robot de manire unique. Un simple calcul mathmatique permet donc de calculer
cette position partir des positions des amers. Ce calcul peut galement tre approch par
des rseaux de neurones, [84], ou par des mthodes heuristiques qui permettent une meilleure
rsistance au bruit [108]. Lorsque cette mthode est utilise avec des cartes ne comportant pas
de perceptual aliasing, chaque amer est unique et cette mthode permet destimer directement
de manire non ambigu la position du robot. En cas de perceptual aliasing, certains amers ne
peuvent tre distingus et il faut tenir compte de lestimation prcdente de la position an de
pouvoir identier correctement les diffrents amers et estimer correctement la position.
Certains types dobjets fournissent plus dinformation que des amers ponctuels, sans toutefois
permettre une estimation non ambigu de la position. Par exemple, cest le cas des murs dont la
perception fournit une information sur la distance du robot ce mur, mais pas sur sa position le
long de ce mur (cf. gure 10.1). Certains modles utilisent de tels types dobjets, qui permettent
dafner une estimation prcdente de la position, mais pas destimer directement cette position
[22, 55, 87].
Lorsque les objets mmoriss dans la carte ont une certaine tendue spatiale en deux dimen-
sions, il est par contre possible dutiliser la perception dun seul objet an destimer directement la
Perception
Point Ligne Objet bidimentionnel
Positions possibles
FIG. 10.1: Les amers que peut reprer un robot fournissent plus ou moins dinformation sur
sa position en 2 dimensions. La dtection dun amer ponctuel permet de savoir que le robot
se trouve sur un cercle entourant lamer. Un amer rectiligne permet de connatre la distance
du robot perpendiculairement cet amer, mais pas sa position le long de cet amer. Enn, un
amer ayant une tendue spatiale en deux dimensions permet de dnir la position du robot
de manire unique.
position du robot. Les amers utiliss peuvent alors tre des objets tridimensionnels dtects par
une camra [94], les angles des obstacles dtects par un tlmtre laser [5, 13, 45, 55] ou un
capteur ultrason [68, 87], des segments dtects en utilisant une camra [6] ou un tlmtre
laser [22, 25, 77].
Carte locale Carte globale
Position
Comparaison
FIG. 10.2: Pour estimer la position dun robot, il est possible de construire une carte locale
reprsentant lenvironnement proche de la position courante. La comparaison de cette carte
locale et de la carte globale de lenvironnement permet alors de trouver la position.
Dautre modles, enn, nestiment pas directement la position du robot au vu des perceptions,
mais reposent sur la comparaison dune carte mtrique locale avec la carte mtrique globale (cf.
gure 10.2). La carte mtrique locale est construite soit partir des seules perceptions courantes,
soit partir des donnes proprioceptives et des perceptions recueillies sur un court laps de temps.
Le problme est alors de trouver la portion de carte globale qui correspond le mieux la carte
locale. Cette mthode est trs souvent utilise avec les grilles doccupation [81, 88, 91, 98], ainsi
quavec des donnes brutes de tlmtres laser [70, 50, 33]. Le polygone de visibilit, qui entoure
la zone despace libre visible depuis la position courante du robot peut aussi tre utilis [48, 56].
Comme nous le verrons dans la section suivante, ces mthodes sont souvent utilises sur un
10.2. ESTIMATION DE LA POSITION PAR LES PERCEPTIONS
espace de recherche restreint par une estimation initiale de la position. Elles peuvent cependant
tre utilises pour la localisation globale [81, 48, 56].
10.2.3 Corrlation de cartes
Dans cette section, nous allons dtailler une mthode de corrlation de cartes qui permet
de chercher, pour deux cartes de dimensions rduites, la transformation (translation+rotation) qui
permet la meilleure superposition. Cette transformation permet alors de corriger lestimation de
position du robot. Cette mthode peut tre utilise avec diffrents types de cartes, dont les grilles
doccupation, mais donne des rsultats particulirement efcaces avec des donnes issues dun
tlmtre laser (Figure 10.3).
FIG. 10.3: Exemple de rsultat de corrlation de mesures laser. La partie gauche montre les
mesures afches la position mesure par lodomtrie. La partie droite montre le rsultat
de la corrlation.
La mthode que nous prsentons ici est une mthode simple qui est relativement robuste et
rsistante au bruit. Elle est base sur les histogrammes des directions des tangentes la mesure.
La premire tape consiste calculer pour chaque point du scan la droite tangente en utilisant
la mthode des moindres carrs. On cherche pour cela la droite qui fournit la plus faible erreur
quadratique sur un ensemble comprenant quelques points avant et quelques points aprs le point
courant (Figure 10.4).
i
D
e1
ej
e2
FIG. 10.4: Illustration de la mthode de calcul de la tangente en chaque point du scan. Pour
chaque point i, on cherche les paramtres de la droite qui donnent la plus faible erreur qua-
dratique e
2
j
.
On construit ensuite lhistogramme des directions de ces tangentes, aprs avoir ltr les points
pour lesquels la qualit de lapproximation des tangentes est trop faible. Cet histogramme contient
alors des pics lorsque des ensembles de points correspondent un mur rectiligne de lenviron-
nement. Aprs avoir construit ces histogrammes de direction pour les deux scans, on cherche le
dcalage de ces histogrammes qui fournit la meilleure corrlation. Dans lhypothse o les deux
scans ont t perus en des points de lenvironnement assez proches et reprsentent donc a peu
prs la mme zone, ce dcalage correspond la transformation qui aligne les deux scans (Figure
10.5 gauche).
dx
dx
FIG. 10.5: Illustration de la mthode de recalage par corrlation dhistogrammes. Recalage
en rotation ( gauche) et en translation ( droite).
Une fois la direction recale, pour corriger la translation, on projette les points selon la direc-
tion principale des tangentes. On construit ensuite lhistogramme du nombre de points projets
sur la perpendiculaire cette direction et, en cherchant le maximum de corrlation entre les
histogrammes correspondant aux deux scans, on corrige le dcalage en translation selon cette
direction (Figure 10.5 droite). On recommence ensuite cette procdure dans la direction perpen-
diculaire.
Cette mthode fonctionne bien ds quil y a des structures rectilignes dans lenvironnement
qui conduisent des histogrammes contenant des pics pour lesquels le recalage par corrlation
fonctionne bien. Ils faut toutefois prendre un certain nombre de prcautions qui ne sont pas d-
tailles ici, notamment faire un ltrage intelligent des scan an de ne garder que les points qui ne
correspondent ni du bruit, ni des lments dynamiques. Il faut galement veiller ne raliser
ce recalage que pour des scans qui ont t perus des positions effectivement proches, sous
peine de recueillir des rsultats trs fantaisistes. Pour sassurer de ce point, il est possible de v-
rier la qualit de la corrlation des histogrammes an de vrier a posteriori que les deux scans
reprsentaient des portions similaires de lenvironnement.
10.3. SUIVI DUNE HYPOTHSE UNIQUE
10.2.4 Limitations de lestimation de la position par les perceptions
Lhypothse dun environnement sans perceptual aliasing est relativement forte, car beaucoup
de capteurs en robotique sont limits et fortement bruits. De plus, les environnements intrieurs,
de type bureaux, peuvent tre trs rguliers et prsenter de nombreuses zones apparemment
similaires pour le robot. Toutefois, les environnement courants contiennent souvent sufsamment
dinformations accessibles des capteurs prcis et efcaces. Un tre humain, par exemple, na
aucun mal se reprer dans un immeuble de bureaux, en lisant les numros crits sur les portes
(trouver son chemin jusqu la sortie est un autre problme!). Il est donc thoriquement possible
de concevoir des systmes sufsamment discriminants pour tre capables de se reprer grce
aux seules perceptions et une carte prcise. Il est de plus possible damnager lenvironnement
an de simplier la tche de perception pour le robot (comme le montre lexemple des numros de
porte). Cette solution nuit toutefois fortement lautonomie du robot puisquil est alors limit aux
environnements bien dnis qui ont t prpars lavance. Le rejet de cette dernire solution
et la difcult de raliser des capteurs sufsamment discriminant conduit donc la plupart des
systmes de navigation robotique prendre en compte le perceptual aliasing et utiliser les
donnes proprioceptives pour dterminer leur position de manire unique. Nous allons dcrire
les diffrentes mthodes qui peuvent tre utilises dans la suite de ce chapitre.
10.3 Suivi dune hypothse unique
Lorsque les perceptions ne sufsent pas pour estimer la position de manire unique, une
seconde source destimation de la position du robot est ncessaire pour lever lambigut. Cette
seconde estimation provient, dune part de la position dtermine lors de la prcdente phase
de localisation et, dautre part, des donnes proprioceptives recueillies depuis cet instant. Les
mthodes prsentes dans cette section utilisent cette seconde estimation pour slectionner ou
calculer, chaque instant, la position qui est la plus cohrente vis--vis de cette estimation. Les
positions estimes grce aux perceptions qui ne sont pas compatibles avec la position prcdente
sont simplement ignores.
10.3.1 Cartes topologiques
Dans une carte topologique, slectionner le nud correct parmi les nuds correspondant
aux perceptions peut reposer simplement sur ladjacence avec le nud prcdent. Dans ce cas,
le nud slectionn est celui qui est connect au nud reprsentant la position prcdente.
Cette information est toutefois rarement sufsante et les relations mtriques mmorises dans
les artes entre nuds sont souvent utilises en complment. Le nud slectionn est donc
celui dont la position relative par rapport au nud prcdent correspond le mieux aux donnes
proprioceptives [62, 63, 26, 79]. Lorsquune position mtrique est associe chaque nud, cest
le nud dont la position est la plus proche de la position estime par lodomtrie qui est slec-
tionn [9, 64, 109].
Certains modles fonctionnent dans le sens oppos. Au lieu dutiliser les donnes proprio-
ceptives pour slectionner un nud parmi les nuds possibles, ils utilisent ces donnes pour
restreindre lensemble des nuds possibles et utilisent ensuite les perceptions pour slectionner
le nud correct parmi ceux-ci. Les perceptions sont, par exemple, utilises pour choisir un nud
parmi tous les nuds adjacents au nud prcdent [106], ou parmi les nuds sufsamment
proches de la position estime par lodomtrie [107].
Enn, certains modles intgrent les deux tapes en une seule. Un paramtre mesure la
probabilit que chaque nud reprsente la position courante. Ce paramtre intgre, dune part,
la similarit du nud avec les perceptions courantes, et dautre part sa proximit avec la position
estime par lodomtrie. Le nud ayant la plus forte probabilit peut alors tre reconnu [73], ou
la position peut tre estime par codage par population de vecteurs en utilisant les probabilits
calcules [4, 102].
10.3.2 Cartes mtriques
Dans une carte mtrique, lestimation initiale de la position est utilise pour restreindre les-
pace de recherche de la position correspondant aux perceptions. Dans le cas o la carte contient
des objets, une estimation de la position permet de simplier le problme de lappariement. En
effet, dans le cas o les senseurs sont soumis un fort perceptual aliasing, de nombreux ob-
jets identiques, situs des positions diffrentes, sont prsents dans la carte. Lorsque le robot
peroit un objet, dterminer quel objet a t peru exige dexaminer un grand nombre de possi-
bilits. Lestimation de la position du robot permet donc destimer la position des objets perus
et donc de dterminer quels objets de la carte ils correspondent. Ce choix se fait en g-
nral en appariant simplement chaque objet peru lobjet mmoris identique le plus proche
[6, 22, 25, 31, 45, 68, 77, 96, 108]. Une fois lappariement effectu, les objets sont identis sans
ambigut et permettent donc destimer la position de manire unique.
Lorsque la position est dtermine par la mise en correspondance dune carte locale et dune
carte globale, la position estime est utilise pour restreindre la recherche de la position donnant
la meilleure correspondance entre les deux cartes [88, 91, 98, 111]. La recherche du maximum
de correspondance est simplement effectue sur une zone limite autour de la position estime
prcdemment. La zone tant de faible tendue, le problme de perceptual aliasing ne se pose
plus et la recherche conduit une position unique.
Lorsque la position correspondant aux perceptions a t identie de manire unique, elle
peut tre considre directement comme la nouvelle estimation de la position du robot [111, 45,
108]. Cependant la plupart des modles considrent que cette estimation est entache derreur,
de la mme manire que lestimation initiale. La nouvelle position du robot est donc en gnral
une combinaison de ces deux positions. La plupart des modles [6, 96, 77, 25, 68, 88, 10, 13,
70, 22] utilisent un ltre de Kalman [74] pour raliser cette combinaison. Ce ltre permet de
calculer une estimation optimale de la position du robot, connaissant les deux positions et leurs
variances respectives. Il constitue une mthode classique de localisation et est dcrit en dtails
dans la section 10.3.3. Dautres mthodes sont galement utilisables pour combiner ces deux
informations, par exemple la minimisation dune fonction de cot relie ces deux positions [98],
ou lutilisation de la mthode des moindres carrs rcursifs [12].
10.3.3 Le ltrage de Kalman pour la localisation
Principe
Le ltre de Kalman permet destimer ltat dun systme partir dune prdiction bruite de
son volution et de mesures bruites de cet tat. Cest un ltre rcursif optimal, qui suppose que
le systme considr est linaire et les bruits blancs (de moyenne nulle). Pour la localisation en
robotique mobile, ltat du systme est la position du robot, la prdiction de lvolution provien-
dra des donnes odomtriques et les mesures proviendront des perceptions, qui permettent de
calculer la position grce la carte. Dans la suite, nous prsentons ssuccinctementla description
mathmatique du ltre avant de donner un exemple dapplication.
Le ltre donne chaque instant une estimation

X
t
de la valeur de ltat X
t
du systme, ainsi
quune estimation de la prcision de cette estimation sous forme de sa matrice de covariance P
t
1
.
Lvolution de ltat du systme est modlise par lquation linaire suivante :
X
t+1
= A.X
t
+B.u
t
+
evo
(10.1)
o A et B sont des matrices, u
t
est le vecteur des commandes donnes au robot et
evo
est le
bruit sur lestimation de ltat, suppos desprance nulle et de variance Q = E{
evo
T
evo
}.
Une mesure Y
t
effectue sur ltat du systme sera donne par lquation linaire :
Y
t
= H.X
t
+
obs
(10.2)
ou H est la matrice dobservation et
obs
le bruit de mesure, suppos de moyenne nulle et de
variance P
Y
= E{
obs
T
obs
}.
Le fonctionnement du ltre se droule en quatre tapes (Figure 10.6) :
Prdiction de ltat linstant courant X
, ainsi que de sa covariance P
t
partir du mo-
dle dvolution, de lestimation au pas de temps prcdent et de la commande depuis cet
instant :
X
t
= A.

X
t1
+B.u
t
(10.3)
La covariance est galement prdite par la formule :
P
t
= A.

P
t1
.A
T
+B.Q.B
T
(10.4)
Prdiction de lobservation partir du modle dobservation et de lestimation de ltat :
Y
t
= H.X
t
(10.5)
1
Si on note le bruit comme une variable alatoire N de moyenne nulle, avec

X
t
= X
t
+N, la matrice de covariance
est donnes par P
t
= E{N.N
T
} = E{(X

X)(X

X)
T
}. En pratique, N et X sont inconnus, mais le ltre de Kalman
fournit directement une estimation de P
t
Mise jour
Observation
reelle
X
^
P
X
Y
X P
X
* *
Y P
Y
Prdiction
de letat
Prdiction
de lobservation
*
Odometrie
FIG. 10.6: Schma de fonctionnement du ltre de Kalman.
Observation de ltat : on obtient, grce au systme perceptif, une mesure Y
t
, dont on
estime le bruit P
Y
grce au modle du processus de perception.
Correction de ltat prdit par mise jour proportionnellement lerreur entre lobserva-
tion prdite et lobservation ralise :
X
t+1
= X
t
+K(Y
t
Y
t
) (10.6)
P
t+1
= P
t
KHP
t
(10.7)
ou K est le gain de Kalman, calcul pour minimiser lerreur destimation au sens des
moindres carrs et donn par la formule :
K = P
t
H
T
.(H.P
t
.H
T
+P
Y
)
1
(10.8)
Ces quatre tapes sont utilises chaque nouvelle information, soit de dplacement, soit de
perception, an de mettre jour lestimation de ltat du systme.
Application dans le cas mono variable
Prsentons lapplication de ce ltre dans un cas trivial : le cas o ltat du systme est dcrit
par une variable scalaire X = x, de variance P
t
=
x
2
. Si on suppose que lobservation permet
dobtenir directement la valeur de ltat : Y
t
= y = x avec une variance P
Y
=
y
2
, le gain du ltre
scrit simplement :
K =

x
2
x
2
+
y
2
et lquation de mise jour devient :
x = x
x
2
x
2
+
y
2
(y x
) (10.9)
=

x
2
y +
y
2
x
x
2
+
y
2
(10.10)
La mise jour revient alors faire une moyenne pondre par la variance de la prdiction
et de lobservation. Cette moyenne donne plus dimportance la valeur ayant la variance la plus
faible et donc la plus able (Figure 10.7).
0
40
0
1
x*
y
x
^
x* = 10
2
x*
= 10
y = 20
2
y
= 50
x = 11.66
2
x
= 8.33
^
^
FIG. 10.7: Illustration du ltre de Kalman dans le cas mono variable. La valeur estime est la
moyenne des valeurs prdites et observes pondres par leurs variances.
Intuitivement, le ltre de Kalman va donc accorder plus dimportance aux valeurs pour les-
quelles lincertitude est la plus faible et les privilgier lors de la mise jour. En pratique ces
variances sont souvent bases sur des estimations empiriques (notamment en robotique pour
lodomtrie et les capteurs). Il faut donc faire trs attention ne pas sous-estimer ces incerti-
tudes de mesure, car, dans ce cas, le ltre de Kalman convergerait vers ces mesures, ce qui
peu conduire une divergence du ltre si ces mesures ne sont pas rellement aussi able que
lestimation de covariance le laisse penser.
Le ltrage de Kalman tendu
Le ltre prsent dans la section prcdente suppose des quations dvolution et dobser-
vation linaires, ce qui est rarement le cas en robotique mobile. Pour tendre le ltrage aux
systmes non-linaires, le ltre de Kalman tendu linarise simplement les quations grce un
dveloppement de Taylor.
Partant des quations non linaires suivante :
X
t+1
= f (X
t
, u
t
) +
evo
(10.11)
Y
t
= h(X
t
) +
obs
(10.12)
on utilise les matrices Jacobiennes A et H dnies par :
A
i j
=
f
i
x
j
(10.13)
H
i j
=
h
i
x
j
(10.14)
Avec ces deux matrices Jacobiennes, le principe du ltre de Kalman reste exactement le
mme, en remplaant simplement les quations du ltre de Kalman original par les quations
suivantes :
X
t
= f (X
t
, u
t
) (10.15)
P
t
= A.

P
t1
.A
T
+B.Q.B
T
(10.16)
Y
t
= h(X
t
) (10.17)
K = P
t
H
T
.(H.P
t
.H
T
+P
Y
)
1
(10.18)
X
t+1
= X
t
+K(Y
t
Y
t
) (10.19)
P
t+1
= P
t
KHP
t
(10.20)
Application la localisation sans perceptual aliasing
Supposons, titre dexemple, un robot dont on peut commander la vitesse de translation
v et de rotation . Ltat que lon cherche estimer est simplement sa position dans le plan :
X
t
= (x, y, ). Le vecteur de commande est u
t
= (v, ), ce qui conduit lquation dvolution du
systme :
f (X
t
, u
t
) =
x +v.dt.cos()
y +v.dt.sin()
+.dt
Nous supposons de plus que le bruit entachant cette estimation est indpendant pour chaque
variable et proportionnel aux vitesses :
Q =
T
.v 0 0
0
T
.v 0
0 0
R
.
Supposons enn que le systme de perception permette de mesurer directement la position,

par rfrence la carte. Lquation dobservation sera simplement :
h(X
t
) =
x
y
et nous estimons un bruit constant sur cette mesure :

P
y
=
O
0 0
0
O
0
0 0
O
Les matrices Jacobiennes correspondant ces quations sont donc :

A =
1 0 sin()
0 1 cos()
0 0 1

H =
1 0 0
0 1 0
0 0 1
Lalgorithme du ltre de Kalman tendu se simplie alors :

X
t
= f (X
t
, u
t
)
P
t
= A.

P
t
.A
T
+B.Q.B
T
Y
t
= X
t
K = P
t
(P
t
+P
Y
)
1
X
t+1
= X
t
+K(Y X
t
)
P
t+1
= P
t
KP
t
Pour linitialisation de lalgorithme, nous supposons connatre une estimation de la position du
robot :
X
0
=
x
0
y
0
P
0
=
x
0
0 0
0
y
0
0
0 0
et nous appliquons les quations de mise jour pour chaque nouveau dplacement ou
chaque nouvelle perception.
Application la localisation avec perceptual aliasing
En cas de perceptual aliasing, plusieurs valeurs de la mesure proviennent de la phase dob-
servation. Il faut donc choisir parmi ces valeurs la valeur correspondant la position relle du
robot qui sera utilise pour la mise jour.
Lorsque lobservation donne une mesure de la position, il est possible de slectionner sim-
plement la mesure la plus proche de la position prdite pour le robot. Dans le cas gnral, il est
prfrable dutiliser la distance de Mahalanobis , qui est une mesure de distance normalise par
la covariance. Cette mesure permet par exemple de privilgier une mesure plus lointaine mais
moins prcise qui aura en fait une probabilit plus grande de correspondre la mesure prdite
(Figure 10.8).
Pour deux valeurs X et Y de covariances P
X
et P
Y
, cette distance vaut :
d
2
=
1
2
(X Y)
T
(P
X
+P
Y
)
1
(X Y)
X
Y1
Y2
FIG. 10.8: Illustration de lintrt de la distance de Mahalanobis. La mesure Y1 est plus
proche de X en distance euclidienne mais les incertitudes font que ces mesures sont incom-
patibles. La distance de Mahalanobis sera plus faible pour Y2 et X du fait que les incertitudes
montrent que ces mesures peuvent provenir de la mme variable.
ce qui se traduit dans le cas scalaire par une simple pondration par les variances :
d
2
=
(x y)
2
2(
2
x
+
2
y
)
Dans le cas du ltrage de Kalman, cette distance est utilise entre lobservation prdite et les
diffrentes observations faites sur le systme :
d
2
=
1
2
(Y
Y)
T
(P
Y
+P
Y
)
1
(Y
Y)
=
1
2
(H.X
Y)
T
(H.P
t
.H
T
+P
Y
)
1
(H.X
Y)
partir des distances de Mahalanobis des diffrentes observations lobservation prdite, il
est possible de slectionner lobservation la plus proche ou de choisir un seuil qui permettra de
dterminer si une des observations correspond bien ltat courant. Si une des observation est
en dessous de ce seuil, elle est utilise pour la mise jour du ltre, sinon, on considre que ltat
na pas pu tre mesur et on ne fait pas de correction de la prdiction.
Lune des principales faiblesses du ltre de Kalman pour la localisation provient prcisement
de cette phase didentication (dappariement) des lments perus. En effet, en cas de mauvais
choix d une mauvaise prdiction de la position du robot ou a une erreur de perception, lerreur
destimation de la position sera conrme, voir augmente. Un tel processus conduit rapidement
une divergence du ltre et une perte de la position du robot.
Le ltre de Kalman unscented
Lorsque le systme nest pas linaire, plutt que de linariser pour prdire ltat et sa variance,
il est possible dchantillonner ltat, dappliquer lquation dvolution chacun des chantillons
10.4. SUIVI DE PLUSIEURS HYPOTHSES
f
f
X
X*
X
X*
P
t
P
t
P*
t
P*
t
FIG. 10.9: Illustration du fonctionnement du ltre de Kalman unscented.
puis de reconstruire ltat prdit et sa variance (Figure 10.9). Cette mthode donne en gnral de
meilleurs rsultats que le ltre de Kalman tendu, mais est plus coteuse en terme de temps de
calcul.
10.3.4 Limitations du suivi de position
La limitation principale de toutes ces mthodes de suivi de position est quelles ne garan-
tissent une bonne estimation de la position que localement, autour de lestimation initiale de la
position. En pratique, si cette estimation initiale est trop loigne de la position relle, ces mo-
dles ne pourront pas estimer correctement la position du robot (cf. gure 10.10). Ces modles
ne garantissent donc pas que la position calcule soit la position de la carte qui corresponde glo-
balement le mieux aux donnes recueillies par le robot et donc la position relle la plus probable.
Ce problme prend toute son importance lorsque lestimation de la position est perturbe la
suite dinformations proprioceptives ou de perceptions errones. En effet, de telles informations
errones peuvent faire diverger lestimation de la position de telle manire que le systme soit
par la suite incapable de retrouver une estimation correcte de la position.
La position correcte du robot pourra cependant tre retrouve par lune des mthodes de lo-
calisation globale dcrites dans la section prcdente. Cette position pourra ensuite tre utilise
comme nouvelle position initiale dans le processus de suivi de position. Toutefois, il est gale-
ment possible dutiliser une des mthodes de localisation globale dcrites dans le paragraphe
suivant qui permettent de ne plus dpendre dune estimation initiale correcte de la position. Cette
seconde solution, qui ne requiert pas lutilisation spare de deux mthodes de localisation est
plus performante.
10.4 Suivi de plusieurs hypothses
La localisation globale, lorsque le robot est soumis au perceptual aliasing, ne peut se faire
quen utilisant de manire optimale les informations proprioceptives et les perceptions. Contraire-
ment au suivi de position qui utilise lestimation prcdente de la position pour slectionner lune
1
2
3
4
1
2
3
4
Environnement rel
Donnes proprioceptives
Perceptions
Estimation initiale
1
2
3
4
Estimation initiale
Estimation de la position avec une estimation initiale correcte
Estimation de la position avec une estimation initiale incorrecte
a
b
c
FIG. 10.10: La position estime par le suivi de position dpend fortement de lestimation ini-
tiale de la position. Dans cet exemple, le robot mesure son dplacement dans un couloir (1 et
3) dans lequel il dtecte des portes (2 et 4) sans tre capable de les reconnatre individuel-
lement (Partie a). Le systme de localisation va estimer la position du robot en intgrant ces
donnes. Si lestimation initiale de la position est proche de la position correcte, le systme
de localisation sera capable destimer prcisment la position relle du robot (Partie b). Tou-
tefois, si lestimation initiale de la position est trop loigne de la position relle, le systme
fournira une estimation de la position qui nest que localement optimale et ne correspondra
pas la position relle (Partie c).
des positions caractrise par les perceptions et ignorer les autres, il faut tenir compte chaque
tape de toutes ces positions possibles. Ces positions conduisent des hypothses qui peuvent
tre mises jour en fonction des donnes proprioceptives et quil faut comparer, an de choisir la
plus pertinente chaque tape (cf. gure 10.11).
10.4.1 Suivi explicite de plusieurs hypothses
Ce suivi de plusieurs hypothses peut tre ralis de manire explicite, en grant une liste des
hypothses en question. Lorsque des donnes proprioceptives sont disponibles, chaque hypo-
thse est simplement mise jour de manire reter le dplacement du robot (cf. gure 10.11c).
Lorsque de nouvelles perceptions sont disponibles, lensemble des positions de la carte suscep-
tibles de correspondre ces perceptions est dtermin. Cet ensemble est ensuite compar
lensemble des hypothses. Si une hypothse correspond une position perue, cette hypothse
est alors mise jour en utilisant les perceptions par une mthode similaire celle permettant le
suivi de position, par exemple un ltre de Kalman. Les positions perues qui ne correspondent
1
2
3
Environnement rel
Donnes proprioceptives
Perceptions
Utilisation de la perception 1
Utilisation des donnes proprioceptives 2
Utilisation de la perception 3
0,25 0,25 0,25 0,25
Hypothse de position Crdibilit de lhypothse
0,25 0,25 0,25 0,25
0,1 0,8 0,05 0,05
a
b
c
d
FIG. 10.11: Le suivi de plusieurs hypothses permet de dterminer la position au sein de
la carte qui globalement correspond le mieux aux donnes recueillies par le robot. Dans cet
exemple, le robot est capable destimer son dplacement dans un couloir (2) dans lequel il
dtecte des portes (1 et 3) sans tre capable de les reconnatre individuellement (Partie a). La
perception dune porte sans aucune estimation pralable de la position permet simplement
de crer plusieurs hypothses de position pouvant correspondre cette perception. Il est,
ce stade impossible de dcider quelle hypothse est correcte (Partie b). Lintgration des
donnes proprioceptives permet de mettre jour la position de chacune des hypothses, mais
ne permet pas de les discriminer (Partie c). Des nouvelles perceptions permettent destimer la
crdibilit relative de chacune des hypothses en rendant plus crdibles les hypothses dont
la position correspond aux perceptions courantes et moins crdible les autres. (Partie d).
Lhypothse ayant alors la plus forte crdibilit correspond la position qui rend le mieux
compte des donnes recueillies par le robot.
aucune hypothse sont utilises pour crer de nouvelles hypothses associes la position
correspondante. La crdibilit de chacune des hypothses est ensuite value, gnralement en
fonction de la proximit de lhypothse avec une position correspondant aux perceptions du robot
(cf. gure 10.11d). Ainsi, une hypothse verra sa crdibilit augmenter si elle est proche dune
des positions correspondant aux perceptions du robot, elle la verra diminuer dans le cas contraire.
De tels modles ont t implments en utilisant des cartes topologiques [29, 27] o les
diffrentes hypothses correspondent diffrents noeuds de la carte. Il existe galement des
modles de ce type utilisant des cartes mtriques [83, 55]. Ces derniers modles utilisent en
gnral plusieurs ltres de Kalman en parallle et permettent de rsoudre en grande partie les
problmes de divergence du ltre de Kalman employ seul.
10.4.2 Le ltrage Baysien
Une seconde mthode de gestion dhypothses multiples permet dintgrer de manire simi-
laire les deux types dinformations, mais ne gre pas explicitement les hypothses de position.
Les diffrentes hypothses sont ici remplaces par une distribution de probabilit de prsence
du robot sur lensemble des positions possibles de la carte. Cette reprsentation permet donc de
considrer chacune des positions au sein de la carte comme une position possible du robot dont
il faut valuer la crdibilit. Nous prsentons dabord le cadre gnral qui permet la gestion de
cette distribution de probabilit, le ltrage Baysien, avant de voir comment il peut tre utilis en
pratique.
Le ltrage Baysien regroupe un ensemble de mthodes destimation dtat utilisant les pro-
babilits et plus particulirement la loi de Bayes :
P(X|Y) =
P(Y|X)P(X)
P(Y)
(10.21)
Dans le cadre de la localisation en robotique mobile, X est en gnral la position et Y une
perception de lenvironnement. Cette loi nous permet donc destimer la probabilit P(X|Y) des
positions, connaissant une perception, cest dire prcisment ce que nous cherchons calcu-
ler pour localiser un robot. Pour ce calcul, nous aurons besoin de P(Y|X), la probabilit dune
perception connaissant la position, qui peut tre calcule grce la carte de lenvironnement et
au modle du capteur utilis. Nous aurons galement besoin dune estimation des probabilits
des positions P(X) avant cette perception, ainsi que de la probabilit globale P(Y) de cette per-
ception. Dans un ltre Baysien, cette formule est utilise de manire rcursive et P(X) est donc
simplement lestimation prcdente de la probabilit des positions. Quant P(Y), il peut tre cal-
cul par un artice de calcul lors de lutilisation de la formule. En effet, par la loi des probabilits
marginales :
P(Y) =
X
P(Y|X)P(X)
ce qui permet dutiliser la loi de Bayes pour calculer les probabilits P(X|Y) de la manire sui-
vante :
X, temp
X|Y
= P(Y|X)P(X)
=
1
X
temp
X|Y
X, P(X|Y) = .temp
X|Y
Dans cette quation, le terme P(X) est la probabilit a priori (prior en anglais), P(X|Y) est la
probabilit a posteriori (posterior en anglais). La puissance de cette quation rside dans le fait
quelle permet de transposer une quantit simple valuer, P(Y|X), en une quantit plus difcile
estimer et qui nous intresse, P(X|Y). La vraisemblance P(Y|X) est simple valuer car elle
est le produit dun raisonnement causal : connaissant une carte, un modle de capteur et une po-
sition, on peut facilement prvoir les mesures que devraient renvoyer ce capteur. P(X|Y), pour sa
part, est le fruit dun raisonnement de diagnostic et il est difcile valuer car une perception Y ne
permet pas de dnir simplement une position, mais peut correspondre plusieurs, notamment
dans le cas du perceptual aliasing
2
.
Nous venons de voir comment la loi de Bayes permet de mettre jour une probabilit de
position en fonction dune perception. Pour la localisation dun robot mobile, il faut galement
pouvoir intgrer leffet dun dplacement sur une distribution de probabilit. Cela se fait aussi trs
simplement grce lquation suivante (loi des probabilits marginales) :
P(X|U) =
P(X|U, X
)P(X
) (10.22)
Dans cette quation, P(X|U, X
) est un modle du dplacement du robot, qui donne la proba-

bilit dune position X si le robot excute laction U dans la position X
. Ce modle ne dpend
que du robot et correspond souvent au modle dodomtrie que nous avons vu au dbut du
cours. Comme prcdemment, la probabilit a priori, P(X
), est le fruit dune estimation ltape

prcdente.
Pour localiser un robot, nous cherchons videment estimer la position partir de nombreux
dplacements et de nombreuses observations : P(x
t
|u
1
, y
2
, ..., u
t1
, x
t1
). Pour pouvoir raliser
les calculs de manire rcursive, lhypothse de Markov est utilise : on suppose que les percep-
tions ne dpendent que de ltat courant et que la position aprs un dplacement ne dpend que
de la position prcdente. Ceci est illustr dans la gure 10.12 et correspond aux simplications
suivantes :
P(y
t
|x
t
, u
1
, y
2
, ..., u
t1
) = P(y
t
|x
t
)
P(x
t
|u
1
, y
2
, ..., u
t1
, x
t1
) = P(x
t
|u
t1
, x
t1
)
Partant de ces diffrents lments, le ltrage Baysien permet destimer de manire rcursive
ltat dun systme partir dune estimation de son volution et de mesures sur cet tat. Pour
pouvoir appliquer ce ltrage, nous avons besoin des lments suivants, qui sont tous connus ou
qui peuvent tre dnis grce aux modles du robot, des capteurs et de lenvironnement :
2
Dans le domaine mdical, de la mme manire, il est simple de prvoir de la vre (lobservation) si lon sait que
lon a la grippe (ltat). Le raisonnement inverse est plus difcile car la vre peut correspondre plusieurs maladies.
X X X
Y Y Y
U U
t-1 t t+1
t-1 t
t-1 t t+1
FIG. 10.12: Illustration des dpendances considres pour la localisation dun robot partir
dune suite de perceptions et de dplacements. Une che indique que la valeur la pointe
dpend de la valeur lorigine.
Un modle de capteur P(y|x) qui donne, pour une position x donne, la probabilit de la
mesure y.
Un modle daction P(x|u, x
) qui donne la probabilit que le robot arrive en x si il excute

laction u en x
.
Une suite dactions et de perceptions u
1
, y
2
, ..., u
t1
, y
t
.
Une estimation initiale de la position P
0
(x), qui peut, par exemple, tre uniforme dans le cas
de la localisation globale ou qui peut tre une rpartition gaussienne si nous connaissons
la position initiale du robot.
Le ltre permet destimer la position en fonction des donnes mesures :
P(x
t
|u
1
, y
2
, ..., u
t1
, y
t
), que nous noterons Bel(x
t
) (de langlais Belief State). Une quation
de mise jour rcursive permet alors destimer Bel(x
t
) en fonction de Bel(x
t1
). Cette quation
se drive de la manire suivante :
Bel(x
t
) = P(x
t
|u
1
, y
2
, ..., u
t1
, y
t
)
(Bayes) = P(y
t
|x
t
, u
1
, y
2
, ..., u
t1
)P(x
t
|u
1
, y
2
, ..., u
t1
)
(Markov) = P(y
t
|x
t
)P(x
t
|u
1
, y
2
, ..., u
t1
)
(probtotales) = P(y
t
|x
t
)
Z
P(x
t
|u
1
, y
2
, ..., u
t1
, x
t1
)P(x
t1
|u
1
, y
2
, ..., u
t1
)dx
t1
(Markov) = P(y
t
|x
t
)
Z
P(x
t
|u
t1
, x
t1
)P(x
t1
|u
1
, y
2
, ..., u
t1
)dx
t1
= P(y
t
|x
t
)
Z
P(x
t
|u
t1
, x
t1
)Bel(x
t1
)dx
t1
Ainsi, lestimation de ltat par un ltre Baysien correspond lutilisation de lquation de
mise jour suivante, pour une perception y
t
et un dplacement u
t1
:
Bel(x
t
) = P(y
t
|x
t
)
Z
P(x
t
|u
t1
, x
t1
)Bel(x
t1
)dx
t1
(10.23)
Ce type de ltre regroupe un grand nombre dapproches connues sous des noms diffrents.
Le ltre de Kalman est par exemple une implantation de ce ltre avec des distributions de probabi-
lits gaussiennes et des modles linaires. Les Processus de dcision Markoviens Partiellement
Observables et les ltres particulaires que nous allons voir par la suite en font galement partie.
Reprsenter la position du robot par une telle distribution de probabilits permet dintgrer la
totalit des informations recueillies au cours du temps. Elle est mise jour, dune part chaque
dplacement du robot, et donc chaque nouvelle donne proprioceptive, et dautre part chaque
nouvelle perception. De manire image, les donnes proprioceptives permettent de dplacer
les probabilits dune position une autre pour reter le dplacement du robot. Les perceptions
permettent de moduler les probabilits de chaque position. Ainsi, les positions pour lesquelles
les perceptions prvues laide de la carte sont similaires aux donnes perues voient leurs
probabilits augmenter, tandis que les autres voient leurs probabilits diminuer.
Lorsquon utilise une telle distribution de probabilit, la position du robot calcule est en g-
nral donne par lhypothse ayant la plus forte probabilit [51, 53, 93, 95, 18, 39]. Cependant
dautres estimations telles que la moyenne des positions pondres par leurs probabilits peuvent
tre utilises [21]. Cette mthode est similaires au codage par population de vecteurs .
La distribution de probabilits obtenue contient donc implicitement toutes les hypothses pos-
sibles sur la position du robot. La probabilit de chacune des positions est, de plus, estime en
utilisant toutes les informations disponibles. Cette probabilit dpend faiblement des conditions
initiales et peut donc tre initialise une distribution uniforme lorsquaucune information nest
disponible sur la position du robot. La position sera alors retrouve, mme si le robot est soumis
un trs fort perceptual aliasing, assurant ainsi la localisation globale du robot dans tous les
environnements. Ces mthodes sont extrmement robustes en pratique et mettent en uvre un
systme de localisation compltement autonome, ne dpendant daucune intervention extrieure
[100].
Ces qualits reposent toutefois de manire importante sur le fait que la carte de lenviron-
nement est complte. En effet, les systmes de suivi de plusieurs hypothses ncessitent une
estimation correcte des crdibilits des diffrentes positions possibles. Or une carte partielle de
lenvironnement rend une telle estimation partir des perceptions difcile. Pour cette raison, ces
systmes sont en gnral utiliss pour la localisation sur des cartes construites dans une phase
pralable.
10.4.3 Filtrage Baysien dans le cas discret
Pour appliquer algorithmiquement le ltrage Baysien que nous avons prsent dans le cas
continu, il faut choisir une manire de reprsenter les distributions de probabilits. Une pre-
mire approche consiste discrtiser lenvironnement et donner chaque position discrte
une probabilit approximant la valeur de la distribution continue. Cette approche a t utilise
la fois avec des cartes topologiques o les nuds sont utiliss comme positions possibles,
[21, 51, 53, 59, 80, 82, 93, 95, 97] et avec des cartes mtriques, pour lesquelles il est possible de
discrtiser lensemble des positions, la manire des grilles doccupation [18, 39, 100].
Quelle que soit la discrtisation choisie, lalgorithme reste le mme. Il sagit dvaluer la pro-
babilit Bel(x
i
) que le robot soit situ sur ltat x
i
de la carte. Ceci est fait par deux procdures
diffrentes selon que lon cherche intgrer une perception ou des donnes proprioceptives. Pour
une perception, on utilisera la procdure de lalgorithme 10.1. Les probabilits P(y|x
i
) proviennent
10.1: Procdure UpdatePerception(Bel(x
i
),y) ;
1: = 0
2: for all x
i
do
3: Bel
(x
i
) = P(y|x
i
)Bel(x
i
)
4: = +Bel
(x
i
)
5: end for
6: for all x
i
do
7: Bel
(x
i
) = Bel
(x
i
)/
8: end for
9: Return Bel
(x
i
)
10.2: Procdure UpdateMouvement(Bel(x
i
),u) ;
1: for all x
i
do
2: Bel
(x
i
) =
x
k
P(x
i
|u, x
k
)Bel
(x
k
)
3: end for
4: Return Bel
(x
i
)
soit dun modle de capteur mtrique pour les grilles doccupation, soit dun modle comparant
une perception avec les donnes mmorises dans les nuds pour la carte topologique. Pour
un dplacement on utilisera lalgorithme 10.2. Limplantation nave de cet algorithme conduit
une mise jour quadratique en fonction du nombre dtats (O(N)), ce qui peut tre rapidement
lourd calculer. Cependant, le modle probabiliste de dplacement P(x|u, x
) est en gnral nul

ds que lon sloigne de la position spcie par la commande u depuis ltat x
. Si lon note p
le nombre dtats pour lequel le modle est non nul, on peut facilement crire un algorithme en
O(np), qui est donc linaire en le nombre dtats de la carte.
10.4.4 Filtrage particulaire
Il est galement possible dutiliser une autre mthode qui permette dapprocher une distri-
bution de probabilit continue sur lespace de la carte [38] sans discrtisation de la carte. Cette
mthode, le ltrage particulaire, constitue lune des mthodes actuellement les plus efcaces pour
la localisation.
Pour reprsenter la distribution de probabilit Bel(x), cette mthode utilise un chantillonage
en un ensemble de particules qui permet dapprocher la distribution. En effet, considrons que la
position du robot est la position moyenne dnie par la distribution de probabilit Bel(x) :
Position =
Z
x
x.Bel(x)dx
Supposons par ailleurs que lon soit capable de gnrer un ensemble de N chantillons de po-
sition
i
, que nous appellerons particules, selon la distribution de probabilit Bel(x) (Figure 10.13
P
X
P
X
f
w
FIG. 10.13: Gauche : Illustration de la mthode de reprsentation dune distribution de pro-
babilit par des particules. Les particules sont tires alatoirement selon la loi reprsenter.
Droite : Illustration de la mthode de reprsentation dune distribution de probabilit par des
particules tires selon une loi dimportance. Les particules sont tires alatoirement selon la
loi et ont chacune un poids associ w = f /.
gauche). Par la loi des grands nombres, on peut alors approcher la position par :
Position
1
N
i
Cest cet ensemble de particules qui va permettre de reprsenter la distribution de probabilits
de positions du robot. Tout le problme revient alors tre capable de gnrer rcursivement un
ensemble de particules rparties selon la loi Bel(x).
Dans notre cas, il est videment impossible a priori de gnrer de tels chantillons car Bel(x)
est une distribution inconnue que nous cherchons valuer. Pour pouvoir nanmoins approcher
cette fonction, nous allons introduire une fonction auxiliaire (x), appele fonction dimportance
selon laquelle nous allons tirer nos particules. En effet, avec des telles particules, rparties selon
la loi (x), il est galement possible dapprocher Bel(x). Pour cela, nous commenons par crire :
Bel(x) =
Bel(x)
(x)
(x) = w(x)(x)
avec
w(x) =
Bel(x)
(x)
et donc, si nous gnrons les chantillons alatoires
i
selon la fonction dimportance (connue
car nous lavons choisie), nous pouvons estimer la position par :
Position =
Z
x
x.Bel(x)dx =
Z
x
x.w(x)(x)
1
N
i
w(
i
)
i
Ainsi la distribution Bel(x) peut sapprocher sous la forme dun ensemble de particules tires
selon une loi (x), chaque particule ayant un poids associ w(x) (Figure 10.13 droite). La difcult
dchantillonner selon Bel(x) reste cache dans la difcult de calculer w(x), mais grce un
choix judicieux de (x) nous pouvons arriver rendre ce calcul possible en utilisant lquation de
mise jour du ltrage Baysien.
En effet, dans le cas qui nous intresse :
Bel(x
t
) = P(y
t
|x
t
)
Z
P(x
t
|u
t1
, x
t1
)Bel(x
t1
)dx
t1
(10.24)
en choisissant (x) =
R
P(x|u
t1
, x
t1
)Bel(x
t1
)dx
t1
, nous obtenons :
w() =
Bel
t
()
()
=
P(y
t
|)
R
P(|u
t1
, x
)
Bel
t1
(x)dx
R
P(|u
t1
, x
t1
)Bel(x
t1
)dx
t1
= P(y
t
|)
Cette valeur est simple calculer car elle ne dpend que de la carte et du modle de capteurs
pour la position dun chantillon .
w
U
FIG. 10.14: Illustration de la mise jour de lensemble des particules en utilisant les dplace-
ments.
Reste a voir comment il est possible dchantillonner selon la loi (x) =
R
P(x|u
t1
, x
t1
)Bel(x
t1
)dx
t1
. Comme nous utilisons une mthode rcursive, Bel(x
t1
)
est approche sous la forme dun ensemble de particules
t1
, chacune associe un poids
w
t1
. Lchantillonnage selon (x), se droule en deux tapes : une mise jour selon le modle
dvolution P(x|u
t1
, x
t1
), puis un chantillonage de particules suivant la loi Bel(x
t1
).
Les particules sont mises jour partir du modle de dplacement en tirant de manire
alatoire, pour chaque particule
i
, une particule
i
selon la loi P(x|u
t1
,
i
). Lensemble des
i
approche alors la distribution
R
P(x|u
t1
, x
t1
)Bel(x
t1
)dx
t1
, mais la fonction dimportance
selon laquelle ils sont rpartis nest pas la bonne (Figure 10.14).
w
1
w
2
w
N
w
i
w
3
w
4
v
1
v
2
v
i
v
1
w
1
v
2
w
2
v
3
w
3
v
4
w
4
v
5
w
4
v
6
w
5
=
=
=
=
=
=
.
.
.
FIG. 10.15: Illustration de la mthode dchantillonage. Lensemble de particules w est r-
chantillonn en lensemble v.
Pour maintenir un chantillonage selon la fonction dimportance
R
P(x|u
t1
, x
t1
)Bel(x
t1
)dx
t1
, il faut ensuite r-chantillonner, ce qui peut se faire selon
une mthode appele Stochastic universal sampling. Cette mthode consiste choisir N
particules
i
selon des points quirpartis sur un cercle sur lequel sont disposs lensemble
initial des particules et leur poids (Figure 10.15). Cette mthode permet dchantillonner plus
fortement aux positions qui ont des poids associs lev, et de rduire le nombre dchantillons
aux positions de poids faibles (Figure 10.16).
10.3: Procdure Filtrage Particulaire(
t1
i
,w
t1
i
,u,y) ;
1: for all i do
2: Tirer une particule
i
selon la loi P(x|u,
t1
i
)
3: end for
4: r-chantillonner les particules
i
selon les poids w
t1
i
.
5: = 0
6: for all i do
7: Calculer le poids w
t
i
= p(y|
i
)
8: = +w
t
i
9: end for
10: for all i do
11: Normaliser les poids w
t
i
= w
t
i
/
12: end for
13: Return
t
i
=
i
, w
t
i
En rsum, la localisation par ltrage particulaire seffectue selon lalgorithme 10.3, et est
illustr sur la gure 10.17. Cest un algorithme extrmement simple et particulirement robuste.
w
w
FIG. 10.16: Illustration de leffet de la mthode de r-chantillonnage.
Cette version de base demande cependant un rglage relativement prcis des paramtres,
notamment des modles probabilistes de perception et de lodomtrie pour donner des rsultats
satisfaisant. Le nombre de particules utiles pour approcher correctement la probabilit de position
peut galement tre relativement dlicat choisir. Il existe dailleurs de nombreuses variantes et
amliorations de la mthode, qui permettent par exemple de slectionner automatiquement le
nombre de particules optimal pour fournir une approximation correcte de la position.
Position t-1
Particules t-1
Position t
Mise jour par le
dplacement
R-chantillonage
Mise jour par les
perceptions
FIG. 10.17: Illustration du fonctionnement de lalgorithme de ltrage particulaire.
10.5 Comparaison des mthodes de localisation
Le tableau de la gure 10.18 rsume les grandes caractristiques et compare les diffrentes
mthodes de localisation prsentes dans ce cours.
Topologique Topologique Mtrique Mtrique Mtrique
hypothse hypothses Filtre de Multi Filtres
unique multiples Kalman Kalman particulaires
Modles
de Quelconque Quelconque Gaussien Gaussien Quelconque
senseur
Capacit
de Suivi Global Suivi Global Global
localisation
Consommation
Mmoire ++ ++ + + ++
Consommation
Calcul + ++ + ++ ++
Simplicit
dImplmentation ++ + + - ++
Prcision - - ++ ++ +
Robustesse + ++ - + ++
FIG. 10.18: Comparaison des mthodes de localisation.
Les mthodes topologiques sont en gnral assez simples implanter puisquil sagit essen-
tiellement de crer une procdure de comparaison de perceptions. Cependant, pour obtenir une
robustesse correcte, cette procdure doit nanmoins tre faite avec soin et peut devenir com-
plexe. La localisation directe a partir des seules perceptions est difcile envisager dans des
environnements non triviaux. Lajout de suivi multi-hypothses dans ce cadre permet cependant
damliorer la robustesse de manire assez simple. Les cartes topologiques conduisent cepen-
dant une localisation relativement imprcise et demandent un certain nombre de comporte-
ments sensori-moteurs efcaces pour les dplacements entre lieux. Un des gros inconvnients
des cartes topologiques, comme nous le verrons plus loin, se situe plutt au niveau de leur cra-
tion, qui peut tre complexe automatiser.
Concernant les mthodes mtriques, le ltre de Kalman connat un grand succs mais peut
tre difcile rgler et risque de diverger assez frquemment. Lutilisation de multi-Kalman permet
damliorer sensiblement les choses mais conduit des implantations complexes et difciles
matriser Les ltres particulaires sont une bonne solution, en particulier pour leur robustesse et
leur simplicit dimplantation, mais peuvent tre difciles rgler et lourds en temps de calcul.
10.5. COMPARAISON DES MTHODES DE LOCALISATION
CHAPITRE 11. CARTOGRAPHIE
Chapitre 11
Cartographie
11.1 Les problmes de la cartographie
11.1.1 Limitation des mthodes de localisation
Comme nous lavons expliqu dans le chapitre 8 la cartographie est indissociable de la locali-
sation, ce qui implique de disposer dune mthode de localisation robuste pour esprer avoir une
carte correcte. Ceci est le principal problme lors de la phase de cartographie, car une localisation
correcte repose en gnral sur une bonne carte de lenvironnement.
La tche de cartographie est donc intrinsquement plus complexe que celle de localisation. En
effet, la localisation revient rechercher, parmi les positions possibles reprsentes dans la carte,
celle qui correspond le mieux la position courante du robot. Cette recherche se droule donc
dans un espace ferm, car on postule que la position recherche se trouve parmi les positions
enregistres dans la carte. Cet espace est de plus de faible dimension (3 en gnral). Dans le
cas de la cartographie, une difcult importante provient du fait que lestimation de la position
du robot et la construction de la carte se droulent dans un espace de recherche ouvert et de
beaucoup plus grande dimension.
Lincompltude de la carte rend de plus la plupart des mthodes de localisation globale pr-
cdemment voques difciles utiliser car elles supposent une comparaison des probabilits
des diffrentes hypothses de position. Or avec une carte en cours de construction, le robot peut
se situer dans une zone qui nest pas encore cartographie et il sera donc impossible dvaluer
la probabilit de cette position. La plupart des systmes reposent donc sur une mthode de loca-
lisation qui ralise un suivi de position. En effet, si le robot atteint un lieu qui nest pas reprsent
dans la carte, il est possible, grce ces mthodes locales, de dnir sa position par rapport
une position prcdente connue au sein de la carte.
Lutilisation de systmes de localisation effectuant un suivi de position lors de la cartographie
pose cependant certains problmes car, comme nous lavons vu au chapitre prcdent, ces m-
thodes peuvent diverger et conduire une estimation errone de la position sans possibilit de
retrouver la position relle du robot. Ce problme est particulirement important au cours du pro-
cessus de cartographie car les erreurs de localisation conduisent des mises jour errones de
la carte, ce qui peut conduire des erreurs durables dans les futures tentatives de localisation.
11.1. LES PROBLMES DE LA CARTOGRAPHIE
FIG. 11.1: Un exemple simple denvironnement contenant un cycle.
Ces erreurs sont cruciales dans les environnements cycliques, cest--dire dans des environne-
ments contenant des boucles dont les diffrentes parties ne sont pas toutes visibles les unes
partir des autres (cf. gure 11.1). En effet, dans de tels environnements, les erreurs de cartogra-
phie durant le parcours du cycle peuvent empcher la reconnaissance de la fermeture du cycle
et conduire des cartes la topologie errone (cf. gure 11.2).
Carte topologique Carte mtrique Environnement rel
FIG. 11.2: Lorsque la position du robot est estime par une mthode de suivi de position,
les erreurs saccumulent pendant le parcours dun cycle. Lors de la fermeture de ce cycle, le
systme peut alors tre incapable de reconnatre la position initiale du robot, ce qui conduit
a une carte incorrecte, dans le cas topologique (partie gauche) comme dans le cas mtrique
(partie droite).
Un autre problme important de la cartographie est le choix de la reprsentation utilise pour
mmoriser les informations qui serviront par la suite au robot. Nous avons dj prsent les
rponses ce problme en prsentant les diverses structures de cartes, mais il faut garder
lesprit que le choix de cette structure a une grande inuence sur la qualit du processus de
cartographie. Le choix de la reprsentation va dterminer la possibilit de faire ou non des mises
jour globales et efcaces lorsque de nouvelles informations sont disponibles. Nous dtaillons
ce problme dans la section suivante.
11.1.2 Cartographie incrmentale et retour en arrire
On peut distinguer deux grandes catgories de mthodes de cartographie. La cartographie
incrmentale [101] constitue une premire mthode simple de construction de carte. Elle permet
simplement dajouter localement de nouvelles informations dans la carte partir de lestimation
courante de la position du robot. Cependant, si cette estimation se rvle fausse a posteriori, il
est impossible de revenir sur les modications qui ont t effectues. Cette limitation se rvle
problmatique dans les environnements contenant des cycles parce que la fermeture dun tel
cycle donne une information importante sur les erreurs des estimations prcdentes de la po-
sition du robot. Cette information est ignore par les systmes de cartographie incrmentale et
conduit, dans le casdenvironnements cycliques des cartes dans lesquelles les erreurs vont se
concentrer dans une petite zone (cf. gure 11.2).
La cartographie incrmentale constitue la mthode de base de nombreux systmes utilisant
des cartes topologiques. Cette mthode est galement utilise pour la cration de grilles doccu-
pation que nous dcriront plus loin.
La seconde catgorie de systmes de cartographie regroupe les systmes qui permettent
dintgrer des informations a posteriori sur les positions passes du robot. Il faut noter que lint-
gration de donnes a posteriori sur les positions passes est relativement simple dans les cartes
topologiques grce la sparation des donnes proprioceptives et des perceptions que cette
reprsentation implique. En effet, des erreurs dans lestimation de la position du robot ninuent
que sur les informations mmorises dans les liens de la carte, et non sur les perceptions qui
sont mmorises dans les nuds. Ainsi, revenir sur une modication passe de la carte, lorsque
des nouvelles informations sur la position du robot sont disponibles, requiert simplement de modi-
er les informations mmorises dans les liens et ne concerne pas les perceptions mmorises.
Dans le cas des cartes mtriques, la modication dune position passe va avoir des rpercus-
sions sur les perceptions (via le modle mtrique) et va donc rendre les modications dues aux
retours en arrire assez profondes. Pour permettre de tels retours en arrire, il faut alors utili-
ser un moyen de mmoriser les perceptions en les reliant la position depuis laquelle elles ont
t perues. Cela peut se faire en mmorisant les perceptions indpendemment (des scans la-
sers par exemple), mais nest pas possible pour certaines reprsentations (notamment les grilles
doccupation).
11.2 Cartographie incrmentale
Les modles de cartographie incrmentale utilisent donc une mthode de suivi de position
pour estimer la position du robot par rapport la carte existante. Au vu de cette position, si
la carte ne reprsente pas le lieu ou les objets perus par le robot, ceux-ci sont ajouts la
carte. En revanche, si ce lieu est dj reprsent, la carte est adapte en fonction des nouvelles
perceptions.
11.2. CARTOGRAPHIE INCRMENTALE
11.2.1 Cartes Topologiques
Pour construire une carte topologique, nous commenons donc par estimer la position du
robot. Dans les cartes topologiques sans perceptual aliasing [92, 19, 69, 40, 110, 43, 8], il suft
de comparer les perceptions courantes avec les donnes mmorises dans chacun des nuds
de la carte. Si aucun des nuds ne correspond sufsamment bien aux donnes courantes, cela
signie que le lieu nest pas reprsent dans la carte et quil devra donc tre ajout. Au contraire,
si la similitude des donnes courantes avec un nud de la carte est sufsante, ce nud sera
reconnu comme la position courante du robot. Le choix entre ces deux alternatives est le point
difcile du processus de cartographie. En effet, dans le cas de la simple localisation, il suft de
trouver le nud correspondant le mieux la situation courante pour trouver la position du robot.
Dans le cadre de la cartographie, il faut de plus utiliser un seuil pour dcider si le lieu le plus
similaire est la position courante du robot ou non : si la similitude est suprieure ce seuil, le
nud est reconnu, sinon un nouveau lieu est cr. Cette utilisation dun seuil rend le processus
de cartographie potentiellement plus instable que la localisation seule.
Lorsque le perceptual aliasing est pris en compte, percevoir un lieu diffrent de tous les lieux
mmoriss dans la carte permet toujours de conclure que ce lieu est nouveau. Mais des per-
ceptions qui correspondent un lieu dj mmoris ne sont pas sufsantes pour dterminer si
le lieu est nouveau ou sil est connu car un lieu nouveau peut tre similaire un lieu dj visit.
La position prcdente du robot doit donc tre prise en compte pour dterminer si un lieu est
nouveau ou sil correspond un nud mmoris. Si la position prdite par lodomtrie depuis le
lieu prcdent ne correspond pas au lieu dj mmoris, le lieu est considr comme nouveau et
ajout la carte [62, 35, 64, 27, 109, 63, 107, 79, 9]. Certains modles intgrent directement les
informations perceptuelles et la position pour la reconnaissance des nuds, se ramenant ainsi
au cas o il ny a pas de perceptual aliasing [4, 102, 26, 73].
Une fois le noeud reconnu ou cr, les perceptions sont utilises pour corriger les donnes
mmorises dans ce nud. Cela permet davoir une meilleure estimation des perceptions carac-
trisant le lieu grce au ltrage du bruit sur ces donnes. Les donnes proprioceptives recueillies
depuis le nud prcdent sont ensuite utilises pour crer ou modier larte qui joint le nud
prcdent au nud courant. Ce processus de cartographie est dcrit par lalgorithme 11.1
11.1: Algorithme de cartographie topologique pour un dplacement u et des perceptions
Y
1: if Il existe noeud
i
compatible avec u, Y et Position
t1
then
2: Position
t
= noeud
i
3: else
4: Position
t
= nouveau noeud
5: end if
6: Mettre jour donnes de Position
t
avec Y
7: Mettre jour la connexion Position
t1
- Position
t
avec u
Comme nous lavons mentionn prcdemment, dans le cas o des informations mtriques
sont mmorises entre les lieux, la carte obtenue peut alors se rvler incohrente. Dans les
mthodes de cartographie incrmentale, la cohrence peut tre assure par lassociation dune
position chacun des nuds de la carte [4, 102, 26, 73, 64, 27], ou par une adaptation locale
des valeurs des liens. Dans le cas o ces valeurs sont simplement utilises de manire locale,
sans chercher estimer les relations mtriques entre lieux distants, le maintien de la cohrence
peut tre simplement nglig [62, 35].
11.2.2 Cartes mtriques : corrlation de scan
Une premire mthode simple de cartographie mtrique consiste simplement utiliser une
mthode de corrlation de cartes locales. Lorsque le robot progresse dans une zone encore non
cartographie, la corrlation est simplement effectue entre la carte locale courante et la carte
locale prcdente. La nouvelle carte locale est ensuite ajoute la carte de lenvironnement sa
position estime (Figure 11.3).
Lorsque le robot revient ensuite dans une zone dj cartographie, la corrlation est faite entre
la nouvelle carte locale et la portion de la carte globale la plus proche de la position actuelle.
Cette mthode est en gnral sufsante lorsquelle est utilises avec les donnes dun tl-
mtre laser et dans un environnement de taille limite ne contenant pas de grands cycles. Lors
de la fermeture de grands cycles, par contre, elle montre rapidement ses limites car les erreurs de
localisation ne permettent pas de trouver la bonne portion de carte avec laquelle faire la corrla-
tion. La mthode choue alors, mais il est possible dajouter des procdures spciques qui font
une recherche globale lorsquun cycle semble tre ferm et permettent de rattraper ces checs.
11.2.3 Cartes mtriques : grilles doccupation
Rappelons que les grilles doccupation sont une reprsentation de lenvironnement dans la-
quelle lespace est discrtis en cellules rgulires et dont chaque cellule a une probabilit asso-
cie dtre occupe par un obstacle (Figure 11.4).
Dans les premiers travaux de leurs crateurs, Moravec et Elves [76, 98], la construction de
grilles doccupation supposait la position du robot connue. Dans des dveloppements ultrieurs,
toutefois, la grille en cours de construction est utilise pour estimer la position du robot. On utilise
pour cela des techniques de mise en correspondance de grilles similaires celles prsentes
dans le chapitre 10.
1
1
Ces mthodes de recalage permettent de limiter la drive de lodomtrie, mais ne sont en gnral pas sufsantes
pour garantir une cartographie correcte long terme. Pour rsoudre ce problme, de nombreux systmes utilisent
des mthodes supplmentaires de correction de lodomtrie, indpendantes du processus de localisation utilisant la
carte. Deux grandes catgories de mthodes sont utilises.
La premire catgorie regroupe les mthodes utilisant des capteurs supplmentaires ou plus prcis, tels que les
compas magntiques ou des senseurs inertiels [51, 79]. Ces capteurs sont utiliss principalement pour corriger les-
timation de la direction qui est souvent linformation la plus difcile estimer partir des donnes proprioceptives.
Lintrt des capteurs magntiques est quils fournissent une mesure directe de la direction, indpendante dun pro-
cessus dintgration. La qualit de cette mesure ne se dgrade donc pas au cours du temps et permet dobtenir une
meilleure estimation de la position du robot.
La seconde catgorie regroupe les mthodes qui se basent sur des hypothses sur lenvironnement, an de per-
mettre le recalage de lodomtrie. Lhypothse la plus couramment utilise suppose que les murs de lenvironnement
FIG. 11.3: Exemple de carte mtrique cre par corrlation de scans. Chacun des cercles
reli par une ligne indique le centre dun scan ajout la carte.
FIG. 11.4: Exemple de grille doccupation cre partir de mesures dun tlmtre laser.
Aprs avoir estim la position du robot, les valeurs des diffrentes cellules de la grille doc-
cupation sont mises jour en fonction des perceptions. Pour cela, nous disposons dun modle
P(occ
i
|s) qui, pour une perception s donne, nous fournit la probabilit doccupation des cellules
dans le champ de vision du capteur en fonction de la valeur renvoye par la capteur. Ce modle
probabiliste est en gnral similaire ceux prsents dans le chapitre 4 pour la distance au cap-
teur et utilise une erreur gaussienne pour lcart entre la direction de la cellule et la direction du
capteur.
Nous cherchons donc accumuler ces mesures pour estimer la probabilit pour la cellule i
dtre occupe en fonctions de toutes mesures prcdentes : P(occ
T
i
) = P(occ
i
|s
1
, ..., s
T
). Pour
cela, nous utilisons, comme souvent, la formule de Bayes pour extraire la probabilit fonction de
la dernire mesure :
sont rectilignes et orthogonaux [98, 63], ce qui permet de corriger facilement lestimation de la direction du robot.
P(occ
T
i
) =
P(s
T
|occ
i
, s
1
, ..., s
T1
)P(occ
i
|s
1
, ..., s
T1
)
P(s
T
|s
1
, ..., s
T1
)
En faisant lhypothse que le monde est statique, qui se traduit par le fait que toutes les
mesures sont conditionnellement indpendantes si lon connat la valeur dune cellule de la carte
(ce qui est faux en pratique et produit des limitations de la mthode), nous pouvons simplier :
P(occ
T
i
) =
P(s
T
|occ
i
)P(occ
T1
i
)
P(s
T
|s
1
, ..., s
T1
)
notre modle de capteur nous donnant P(occ
i
|s
T
), nous le faisons apparatre en utilisant
Bayes une nouvelle fois :
P(occ
T
i
) =
P(occ
i
|s
T
)P(s
T
)
P(occ
i
)
P(occ
T1
i
)
P(s
T
|s
1
, ..., s
T1
)
Dans cette quation nous ne connaissons pas P(s
T
) ni P(s
T
|s
1
, ..., s
T1
). Pour pouvoir esti-
mer P(occ
T
i
), nous allons utiliser le fait que la valeur doccupation est binaire. Nous commenons
par calculer la probabilit que la cellule soit vide P( occ
T
i
), ce qui se fait de la mme manire :
P( occ
T
i
) =
P( occ
i
|s
T
)P(s
T
)
P( occ
i
)
P( occ
T1
i
)
P(s
T
|s
1
, ..., s
T1
)
et nous permet en utilisant le rapport des deux valeurs, de se dbarrasser des termes g-
nants.
P(occ
T
i
)
P( occ
T
i
)
=
P(occ
i
|s
T
)
P( occ
i
|s
T
)
P( occ
T1
i
)
P(occ
T1
i
)
P( occ
i
)
P(occ
i
)
et en utilisant le fait que P( occ
i
) = 1P(occ
i
), nous obtenons :
P(occ
T
i
)
1P(occ
T
i
)
=
P(occ
i
|s
T
)
1P(occ
i
|s
T
)
1P(occ
T1
i
)
P(occ
T1
i
)
1P(occ
i
)
P(occ
i
)
il est alors possible dextirper P(occ
T
i
) de cette expression, mais il est plus simple de chercher
estimer directement la valeur l
i
dnie par :
l
T
i
= log
P(occ
T
i
)
1P(occ
T
i
)
qui se calcule simplement par :

l
T
i
= log
P(occ
i
|s
T
)
1P(occ
i
|s
T
)
+log
1P(occ
i
)
P(occ
i
)
+l
T1
i
ce qui nous fournit une rgle simple de mise jour incrmentale des valeurs l
T
i
en fonction
des valeurs prcdentes et du modle de capteur. La valeur P(occ
i
) est une valeur initiale de la
probabilit doccupation. Elle est en gnral choisie gale 0,5 mais peut tre plus faible ou plus
forte si lon souhaite intgrer un a priori sur le fait que lenvironnement contient une densit plus
ou moins grande dobstacles.
On retrouve ensuite la probabilit doccupation par :
p(occ
T
i
) = 1
1
e
l
T
i
Il existe galement des moyens plus simples de mise jour des grilles, qui consistent sim-
plement estimer la probabilit doccupation dune cellule en fonction du nombre de perceptions
de cette cellule qui ont eu lieu. Ainsi, si on note occ(x, y) le nombre de fois o un obstacle a t
dtect dans cette cellule et vide(x, y) le nombre de fois o cette cellule est apparue vide car le
faisceau du tlmtre a travers cette cellule, on peut simplement estimer la probabilit par :
P
occ
(x, y) =
occ(x, y)
vide(x, y) +occ(x, y)
Une variante encore plus simple pour crer une grille doccupation est une mise jour utilisant
un simple dcompte dans lequel on ajoute une certaine valeur xe la probabilit doccupation
dune cellule si un obstacle y est dtect et on retranche une autre valeur xe si la cellule a t
traverse par le faisceau [58] (voir aussi la section 6.2). Cette mthode, nomme "histogrammic in
motion mapping (HIMM)" prsente cependant linconvnient de ne pas converger vers une valeur
xe lorsque le nombre de perceptions dune cellule tend vers linni. Elle est de plus relativement
sensible au bruit et suppose des rglages dlicats de paramtres pour tre adapte un robot
spcique.
11.2.4 Stratgies dexploration
Pour limiter les erreurs de cartographie dans ce types de mthodes, il est possible dutiliser
une exploration active de lenvironnement, plutt que de passivement mmoriser les donnes re-
cueillies par le robot. Dans le cadre des cartes topologiques, il est par exemple possible, lorsquun
nud a t reconnu, de chercher atteindre un des nuds voisins mmoris dans la carte [62].
Si ce second nud est correctement dtect, il permet de conrmer la dtection du nud prc-
dent qui est alors mis jour. Dautre modles utilisent une exploration active de lenvironnement
pour diriger le robot vers les zones pour lesquelles lincertitude de la carte est grande [34]. Enn
certains modles sont capables de gnrer des hypothses sur des portions non visites de len-
vironnement qui sont ensuite vries grce une procdure qui dirigera le robot dans les zones
o de telles hypothses ont t faites [63]. Des stratgies dexplorations peuvent galement tre
utilises an de garantir un exploration rapide et exhaustive de lenvironnement [98, 63, 111].
Dune manire gnrale, de telles procdures permettent donc, dune part, de limiter les er-
reurs de cartographie en insistant sur les zones incertaines et en vitant que lestimation de la
position ne devienne trop mauvaise et, dautre part, de garantir une exploration exhaustive de
lenvironnement.
11.3. RETOUR SUR LES MODIFICATIONS PASSES
11.3 Retour sur les modications passes
Dans les mthodes de cartographie prcdentes, les modications apportes la carte au
cours du processus de cartographie se font donc en supposant que lestimation de la position
du robot au moment de cette modication est correcte. Or cette estimation se rvle en gnral
fausse, ou entache derreur, a posteriori. Dans ce cas, les modications de la carte ont t
effectues de manire incorrecte, et il serait souhaitable de pouvoir revenir sur ces modications
pour prendre en compte les nouveaux indices sur les positions passes du robot. La plupart des
modles de cartographie utiliss actuellement, que nous prsentons dans ce paragraphe, en sont
capables.
11.3.1 Simultaneous Localization And Mapping (SLAM)
La premire de ces mthodes de cartographie est une mthode utilisant le ltrage de Kalman
tendu. Ce ltrage est ici utilis non seulement pour estimer la position du robot, mais aussi
pour estimer la position des diffrents lments enregistrs dans la carte. Cette mthode est en
gnral utilise avec des cartes reprsentant lenvironnement sous forme dobjets gomtriques
simples tels que des points ou des segments. Elle va permettre dutiliser les relations mesures
entre le robot et ces objets pour estimer leurs diffrentes positions.
Plus gnralement, lide est donc dutiliser un ltrage Baysien estimant la fois les positions
du robot (x
t
) et des objets de la carte (c
t
) :
Bel(x
t
, c
t
) = p(y
t
|x
t
, c
t
)
Z Z
p(x
t
, c
t
|x
t1
, c
t1
, u
t1
)Bel(x
t1
, c
t1
)dx
t1
dc
t1
Cette quation peut tre simplie en utilisant lhypothse de monde statique, qui est utilise
dans la plupart des modles, et qui entrane donc que la carte de lenvironnement reste la mme
au cours du temps (c
t
= c
t1
). Il faut bien distinguer cette hypothse du fait que notre estimation
de la probabilit des diffrentes cartes (Bel(x
t
, c
t
)) volue au cours du temps, et donc que la carte
que nous supposons reprsenter lenvironnement (la plus probable en gnral) change au cours
du temps. En utilisant cette hypothse, lquation du ltrage devient alors :
Bel(x
t
, c
t
) = p(y
t
|x
t
, c
t
)
Z Z
p(x
t
|x
t1
, u
t1
)Bel(x
t1
, c
t1
)dx
t1
dc
t1
Comme pour la localisation, ce ltrage peut tre implment de diffrentes manires, par
exemple en utilisant un ltre de Kalman ou un ltrage particulaire. Il peut galement tre utilis
avec diffrentes formes de cartes, qui rendent son implantation plus ou moins aise. La technique
communment nomme SLAM consiste en limplantation de ce ltrage sous la forme dun ltre de
Kalman, en utilisant une carte contenant des amers qui peuvent tre des points ou des segments.
Cest historiquement la premire implantation de ce type de cartographie.
Dtaillons a titre dexemple une implantation de cette mthode utilisant une carte contenant
des amers ponctuels. Dans un tat o la carte contient N amers, on utilise un vecteur dtat
contenant la position du robot et des diffrents amers. Le vecteur dtat est donc de dimension
2N+3 :
Bel(x
t
, c
t
) =
x
y
x
a1
y
a1
.
.
.
x
aN
y
aN
La matrice de covariance associe permet de mmoriser les relations qui ont t perues
entre les amers et entre les amers et le robot. Cest lutilisation de ces covariances lors de la
mise jour qui permettra un retour sur les modications passes au sens ou elle permettra de
propager toute nouvelle information de position du robot vers les lments dont la position relative
avec le robot est connue (cd les lments avec lesquels la covariance est non nulle).
Supposons que lon commande les vitesses de rotation et de translation du robot u = (v, ),
lquation dvolution ne modiera que la position du robot et sera alors :
f (X
t
, u) =
x +v.dt.cos()
y +v.dt.sin()
+.dt
x
a1
y
a1
.
.
.
x
aN
y
aN
Ce qui donne la matrice jacobienne :

A =
1 0 sin() 0 . . . 0
0 1 cos() 0 . . . 0
0 0 1 0 . . . 0
0 . . . . . . . . . . . . 0
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
0 . . . . . . . . . . . . 0
enn si lon suppose que lors de la perception de lamer i, on mesure sa position relative dans
le repre li au robot en coordonnes polaires (r
i
,
i
), lquation dobservation sera :
h
i
(X
t
) =

(x x
ai
)
2
+(y y
ai
)
2
atan2(
y
ai
y
x
ai
x
)
la matrice jacobienne de lquation dobservation scrira alors :

H
i
=
(xx
ai
)
(xx
ai
)
2
+(yy
ai
)
2
(yy
ai
)
(xx
ai
)
2
+(yy
ai
)
2
0
(yy
ai
)
(xx
ai
)
2
+(yy
ai
)
2

(xx
ai
)
(xx
ai
)
2
+(yy
ai
)
2
1
Pour estimer la fois la position des amers et du robot, il sufra alors de drouler les quations
du ltrage de Kalman (tendu) :
Prdiction de ltat :
X
t
= f (

X
t1
, u
t
) (11.1)
et de la covariance :
P
t
= A.

P
t1
.A
T
+Q (11.2)
Prdiction de lobservation :
Y
t
= h(X
t
) (11.3)
Observation : on obtient une mesure Y, dont on estime le bruit P
Y
grce au modle du
processus de perception.
Correction de ltat prdit :
X
t
= X
t
+K(Y Y
t
) (11.4)
P
t
= P
t
KHP
t
(11.5)
ou K est le gain de Kalman :
K = P
t
H
T
.(H.P
t
.H
T
+P
Y
)
1
(11.6)
Cette mise jour suppose que lamer peru soit dj dans la carte et donc dans le vecteur
dtat. Si lamer dtect par le robot nest pas dans la carte, il est simplement ajout la n du
vecteur dtat et toutes les matrices sont agrandies de 2 lignes correspondantes.
Il reste un problme important dans la mthode dcrite car elle suppose que lon soit ca-
pable didentier les amers, cest dire de savoir quel amer i correspond un amer peru. Or,
en utilisant de simples points ou segments de droites, cela se rvle difcile cause du trs fort
perceptual aliasing. Comme pour la localisation, il y a deux mthodes possibles pour rsoudre ce
problme. La premire est de particulariser chaque amer, par exemple en utilisant une image de
lenvironnement autour de lamer an de pouvoir lidentier individuellement. Cette mthode est
rarement sufsante car avec laugmentation de la taille de lenvironnement on retombe en gnral
sur le problme de perceptual aliasing. La seconde solution repose sur des amers indistinguables
et slectionne lamer correct en se basant sur sa position estime. Pour cela, on estime la po-
sition absolue de lamer peru partir de la position estime du robot, puis on considre quil
correspond lamer de la carte dont la position est la plus proche. Cette mise en correspondance
peut galement utiliser une distance de Mahalanobis (voir section 10.3.3), ou utiliser des critres
supplmentaires qui caractrisent les amers. Si les amers sont des segments, par exemple, on
peut chercher le segment le plus proche qui ait la mme direction que le segment peru.
Lalgorithme 11.2 dcrit nalement le processus complet de cette mthode de cartographie.
Cette mthode est galement illustre graphiquement dans la gure 11.5.
1
2
3 4
1
2 2
1
4
A B C
FIG. 11.5: Illustration de lalgorithme de SLAM. Dans la partie A, le robot, dans sa position
initiale, peroit les amers 1 et 2 qui sont ajouts la carte. Dans la partie B, le robot sest
dplac (on dispose dune estimation bruite de sa position par lodomtrie) et il peroit les
deux amers 3 et 4. Dans la partie C, on a considr que les amers 2 et 3 taient le mme
amer, ce qui a permis de mieux estimer sa position et de corriger lestimation de la position
du robot. Lamer 4 a t ajout la carte.
11.2: Algorithme de SLAM pour un dplacement u et un amer peru Y
1: Prdiction de ltat X
t
= f (

X
t1
, u
t
)
2: Estimation de la position et de la variance de lamer peru x
Y
, y
Y
,
x
Y
,
y
Y
3: for all Amer i do
4: Calcul de la distance de Mahalanobis d
2
i
=
1
2
(Y Y
i
)
T
(P
Y
+P
Y
i
)
1
(Y Y
i
)
5: end for
6: Slection de lamer j de la carte tel que d
j
soit minimal
7: if d
j
< Seuil : lamer est dj dans la carte then
8: Prdiction de lobservation Y
j
t
= h
j
(X
t
)
9: Correction de ltat prdit

X
t+1
= X
t
+K(Y Y
j
t
)
10: else
11: ajout de lamer peru la carte
12: end if
La principale faiblesse de cette mthode rside dans la phase dappariement qui peut en-
traner une divergence de lalgorithme en cas derreur. En effet, dans ce cas, non seulement la
position de lamer appari par erreur sera mal estime, mais cette mauvaise estimation sera pro-
page aux autres amers, via la matrice des covariances, ainsi qua la position du robot. Cette
mauvaise estimation de la position du robot produira par la suite de nouvelles erreurs dapparie-
ment qui se succderont et entraneront la divergence complte de lalgorithme.
Un autre inconvnient est la complexit des calculs requis, qui augmente en O(N
2
) avec le
nombre damers de la carte. Ceci est li la taille de la matrice de covariances qui est N N.
Or cette matrice mmorise les interrelations entre les positions des amers et du robot et est
ncessaire la bonne estimation de ces positions.
Pour rduire la complexit des calculs, il est cependant possible de rduire la taille de cette
matrice en ngligeant certaines interrelations entre amers. Ceci peut se faire par exemple en ne
mmorisant les covariances quau sein de cartes locales, dont lassemblage couvre lensemble
de lenvironnement. Diverses mthodes existent, utilisant diffrentes manires de dcouper la
carte globale et de propager les informations entre cartes locales.
11.3.2 Fast SLAM
La mthode dappariement des amers utilise dans la mthode du SLAM est la source de
la plupart des problmes de cette mthode. Elle repose en effet sur lhypothse que lestimation
de la position du robot est approximativement correcte pour fournir un appariement correct. On
peut donc remarquer que si la position du robot est parfaitement connue, le problme se simplie
normment car la mise en correspondance ne pose plus de problme et il reste simplement
estimer correctement la position des amers, ce qui est relativement trivial (sous lhypothse de la
connaissance de la position du robot).
FIG. 11.6: Avant la fermeture dun cycle, un trs grand nombre de trajectoires sont values.
Aprs fermeture, le ltre particulaire sur les trajectoires slectionne automatiquement celle
correspondant effectivement au cycle.
Cette remarque a inspir la mthode de cartographie nomme Fast SLAM [75]. Dans cette
mthode, on mmorise un grand nombre de trajectoires possibles, dont on value la probabilit,
et pour ces trajectoires, on construit simplement la carte partir des perceptions. Cet ensemble
de trajectoires correspond en fait un chantillonage de la distribution de probabilit sur ces tra-
jectoires au moyen dun ltre particulaire. Pour la construction de la carte partir de lune de ces
trajectoires, on utilise le ltrage de Kalman, mais dans des conditions beaucoup plus favorables.
En effet, comme la trajectoire est connue, les perceptions successives des diffrents amers de-
viennent indpendantes et il nest plus ncessaire de mmoriser lensemble des covariances,
mais seulement les variances des amers individuels. On passe ainsi dune complexit en O(N
2
)
une complexit en O(N) pour le ltrage de Kalman. Il faut cependant y ajouter la complexit
du ltrage particulaire sur les trajectoires, mais globalement, lalgorithme est plus stable et moins
gourmand en calculs que le SLAM original.
Cette mthode de sparation du problme de SLAM et un ltre particulaire pour la partie non
gaussienne et en un ltre de Kalman pour une partie du sous problme et une mthode trs
gnrale connue sous le nom de Rao-Blackwellisation du ltre.
La force de ces mthodes est surtout apparente lors de la fermeture de grands cycles. En
effet, avant la fermeture, un grand nombre de trajectoires diffrentes sont mmorises, ce qui
permet davoir une forte probabilit que lune delle corresponde la trajectoire prcise du cycle.
Aprs la fermeture du cycle, le r-chantillonage du ltre particulaire slectionne naturellement
les trajectoires correctes et permet ainsi une cartographie correcte du cycle (Figure 11.6). Ce
r-chantillonage entraine cependant une forte perte dinformation, puisque la plupart des tra-
jectoires estimes avant la fermeture de boucle sont ignores (cest le problme classique de
rarfaction des particules des mthodes de ltrage particulaire). Cette perte dinformation de-
vient problmatique dans des environnements contenant plusieur cycles, notament dans le cas
de cycles imbriqus.
Une mthode de cartographie trs similaire au FastSLAM permet de construire une carte
mtrique directement partir des donnes laser [54]. Elle nutilise pas de ltre de Kalman, mais
repose sur un chantillonage des trajectoires possibles par un ltre particulaire et sur un algo-
rithme rapide de corrlation de scans pour lvaluation des probabilits des trajectoires. Cette
mthode permet de construire de trs grandes carte contenant plusieurs cycles (Figure 11.7).
11.4 Comparaison des mthodes de cartographie
Les mthodes de cartographie les plus simples sont les mthodes de cartographie incrmen-
tales topologiques, elles montrent cependant rapidement leurs limites en terme de robustesse et
demandent souvent une mise au point importante.
Concernant la cartographie mtrique, les mthodes de corrlation damers et de grille doccu-
pation sont galement simples mettre en oeuvre et sont sufsantes pour des environnements
de taille restreinte, ne contenant notamment pas trop de cycles. Elles sont donc trs populaires.
Les mthodes de SLAM seront en gnral plus efcaces, mais plus complexes mettre en
oeuvre. La version basique du SLAM utilisant un ltre de Kalman reste cependant assez simple,
mais au prix dun manque de robustesse en cas de mauvaises perceptions ou de mauvaise
11.4. COMPARAISON DES MTHODES DE CARTOGRAPHIE
FIG. 11.7: Exemple de carte construite par la mthode du FastSLAM.
odomtrie et dune grande sensibilit la qualit de lassociation de donnes. Le FastSLAM
quant lui est plus complexe mais apporte de rels gains de robustesse, il est cependant limit
par le problme de rarfaction des particules qui devient problmatique pour les environnements
de grande taille contenant plusieurs cycles.
Les archives de la "SLAM summer school" contenant de nombreux articles et tutoriaux :
http://www.cas.kth.se/SLAM/
Et lexcellent "Probabilitic Robotics" de Sebastian Thrun, Wolfram Burgard et Dieter Fox :
CHAPITRE 12. PLANIFICATION
Chapitre 12
Planication
Connaissant une carte de lenvironnement et la position du robot au sein de cette carte, il
est possible de calculer une trajectoire pour rejoindre un but. Nous dcrirons dans ce chapitre
quelques mthodes trs simples pour la planication restreinte des dplacements en 2D. Pour
un aperu plus large des techniques de planication, on pourra par exemple se reporter [67].
12.1 Espace des congurations
Dans le cadre de ce cours, nous considrons des robots capables de se dplacer dans un
espace 2 dimensions dont les commandes inuent directement sur la position dans cet espace
(via la vitesse et la direction). Le calcul des dplacements peut donc se faire directement dans
lespace de dplacement du robot. Dans un cadre plus gnral, la planication est plutt ralise
dans lespace des degrs de libert du robot appel espace des congurations (qui peut tre
beaucoup plus grand que lespace des mouvements, par exemple pour un bras manipulateur).
Les obstacles de lespace des dplacements sont alors traduits dans lespace des congurations
par des C obstacles, qui correspondent aux congurations des degrs de libert qui vont faire
percuter un obstacle au robot.
Dans le cas 2D pour un robot holonome , lespace des congurations que nous utiliserons
sera simplement lespace de travail auquel nous enlverons toutes les positions conduisant
percuter un obstacle, cest dire les obstacles euxmme, plus une marge de scurit autour des
obstacles correspondant au rayon du robot. En pratique nous confondrons souvent lespace des
dplacements et lespace des congurations.
12.2 Discrtisation de lespace de recherche
Les cartes topologiques fournissent directement une discrtisation de lenvironnement rel
utilisable par les techniques de planication. Dans le cas des cartes mtriques, qui reprsentent
lespace de manire continue, ces techniques ne sont utilisables quaprs discrtisation de les-
pace libre reprsent dans la carte. Pour ce faire, certains modles intgrent directement cette
12.3. RECHERCHE DE CHEMIN
dcomposition au niveau de la cartographie, en construisant une carte topologique paralllement
la carte mtrique [3, 23, 98, 16]. Dautres modles font appel des dcompositions de les-
pace libre spciques la planication. Cependant, diffrentes techniques, tels les champs de
potentiel analogues ceux dcrits dans le chapitre sur la navigation ractive[66, 30, 78], per-
mettent de calculer des chemins directement dans le domaine continu, sans phase pralable de
discrtisation.
Il existe deux catgories de mthodes pour discrtiser lespace de recherche des cartes m-
triques. Les mthodes de la premire catgorie font appel des dcompositions en cellules, de
diffrents types, qui permettent de reproduire la topologie de lespace libre [66, 78] (cf. gure
12.1). Les cellules obtenues sont alors utilises de manire similaire aux nuds des cartes to-
pologiques dans le processus de planication, les cellules adjacentes tant considres comme
relies par une arte.
Les mthodes de la seconde catgorie font appel au pr-calcul de chemins entre des points
rpartis dans lenvironnement [66, 67] (cf. gure 12.2). Les point seront utiliss comme les nuds
dune carte topologique, tandis que les chemins pr-calculs reliant les nuds seront utiliss
comme les artes de cette carte.
La planication du chemin entre deux points de lenvironnement se ralise alors en deux
tapes. La premire tape permet de calculer un chemin direct entre, dune part, le point de dpart
et le point le plus proche dans lespace discrtis et, dautre part, le point de lespace discrtis
le plus proche du but et le but en question. La seconde tape permet ensuite de calculer un
chemin entre ces deux points de lespace discrtis, en utilisant une des mthodes dcrites dans
le prochain paragraphe. Ces trois parties de trajectoires sont ensuite assembles pour obtenir
le chemin reliant le point de dpart au but. Une phase doptimisation supplmentaire peut tre
utilise pour limiter les effets de la discrtisation et lisser la trajectoire (cf. gure 12.3). Dans le cas
de la dcomposition de lespace libre en cellules, les points de lespace discrtis utiliss peuvent
tre les centres des cellules ou les milieux des cts des cellules. Dans le cas de lutilisation de
chemins pr-calculs, ces points sont simplement les points de passage de ces chemins.
12.3 Recherche de chemin
A partir dune carte mtrique discrtise ou dune carte topologique, il existe diffrentes m-
thodes pour calculer un chemin entre la cellule de dpart et la cellule but. Nous distinguons ici les
mthodes selon le type de plans quelles gnrent.
12.3.1 Deux types de plan
Le premier type de plan qui peut tre gnr contient une suite dactions effectuer par le
robot, ou une suite de points atteindre an de rejoindre le but. Les algorithmes classiques de
recherche dans les graphes, tels que lalgorithme de Dijkstra, A
, ou lune de ses nombreuses

variantes, peuvent tre utiliss pour calculer ce type de plan [69, 59, 61, 89, 80, 3, 30]. La taille
raisonnable des cartes topologiques classiquement utilises en robotique rend ces algorithmes
sufsamment efcaces en pratique. Ce type de plan pose toutefois des problmes lors de son
Dcomposition exacte Dcomposition en cellules rectangulaires
Dcomposition en cellules rguliree Dcomposition en quadtree
Carte mtrique de lenvironnement
x
y
FIG. 12.1: Exemples de dcompositions en cellules de lespace libre dans les cartes m-
triques. La dcomposition exacte permet de reprsenter lensemble de lespace libre, laide
de cellules de formes irrgulires. La dcomposition en cellules rectangulaires ne reprsente
quun sous-ensemble de lespace libre sufsant pour la planication. Ces cellules peuvent
tre de taille rgulire ou non. Enn une reprsentation hirarchique telle que le quadtree
permet dutiliser des cellules de taille variable en fonction de la complexit locale de lenviron-
nement.
Carte mtrique de lenvironnement Graphe de visibilit Diagramme de Vononoi
x
y
FIG. 12.2: Exemples de dcompositions en chemins pr-calculs dans les cartes mtriques.
Ces chemins relient des points particuliers utiles pour la navigation et rpartis dans lenvi-
ronnement. Diffrents choix de points sont possibles. Le graphe de visibilit utilise les angles
dobstacles qui sont les points que le robot devra contourner pour viter ces obstacles. Le
diagramme de Vorono utilise les points quidistants de plusieurs obstacles qui permettent de
gnrer des chemins passant le plus loin possible des obstacles.
Dpart
But
Planification en utilisant des chemins
Chemin optimis Chemin optimis
Carte mtrique de lenvironnement
Planification entre les cots des cellules Planification entre les centres des cellules
prcalculs
1
2
2
1
FIG. 12.3: Exemple de planication de chemin dans une carte mtrique. Deux portions de
trajectoire sont calcules pour relier le point de dpart et le but des points de lespace
discrtis (points 1 et 2 dans cet exemple). Un chemin est ensuite calcul dans lespace
discrtis entre ces deux points. La trajectoire rsultante peut ensuite tre optimise pour
supprimer les effets de la discrtisation.
excution si le robot ne parvient pas atteindre lun des points du chemin calcul, ou sil sloigne
de la trajectoire et que sa position correspond un nud qui ne fait pas partie du chemin plani.
La solution ces problmes est alors de recommencer le processus de planication en prenant
en compte la nouvelle position de dpart (ce qui peut mme se produire indniment en cas de
problme). Ce processus de replanication est souvent inutilement coteux en calcul car un grand
nombre des oprations ncessaires auront dj t effectues lors de la planication prcdente.
Un second type de plan, qui associe chacune des positions possibles du robot au sein
de la carte laction quil doit effectuer pour atteindre son but, peut tre utilis. Ce type de plan
est appel politique ou plan universel [90]. Le rsultat est alors une stratgie de dplacement
similaire la stratgie daction associe un lieu mentionne dans la section 2.1. Lenchanement
de reconnaissances de positions et de ralisations des actions associes ces positions permet
donc de gnrer une route joignant le but. Ce type de plan prsente lavantage de permettre au
robot datteindre le but, aussi longtemps quil possde une estimation correcte de sa position.
En effet, le chemin prcis rejoignant le but nest pas spci et le robot peut donc scarter du
chemin direct entre la position initiale et le but sans entraner de replanication.
Une politique est plus lourde calculer que les plans du type prcdent car toutes les positions
de la carte doivent tre envisages, sans utiliser les heuristiques des algorithmes prcdents qui
permettent de restreindre lexploration de lespace de recherche. Toutefois, cette augmentation
est rapidement compense si le robot scarte du chemin direct vers le but. Dans ce cas, en
effet, la planication doit tre reprise pour le premier type de plan, alors que cest inutile pour une
politique. Le calcul dune politique reste donc en gnral praticable pour les cartes de taille limite
typiques de la robotique mobile.
12.3.2 Calcul de politique
Pour calculer une telle politique, une simple recherche en largeur dans le graphe en partant du
but peut tre utilise. Cette mthode se retrouve sous le nom de breadth rst search, spreading
activation [73, 8] ou wavefront propagation [78]. Ces deux derniers noms viennent de lanalogie
entre lordre de parcours du graphe et la manire dont un uide progresserait sil schappait du
but pour se rpandre dans le graphe.
Plutt que dassocier directement une action chaque tat, le calcul dune politique passe
souvent par le calcul dun potentiel associ chaque tat qui augmente en fonction de la distance
ncessaire pour atteindre le but depuis ltat courant. A partir de ce potentiel, il est alors trs
simple de retrouver les actions effectuer par une simple descente de gradient.
Pour calculer ce potentiel, des cots lmentaires sont associs chaque nuds et chaque
lien entre les nuds. Les cots associs aux liens traduisent en gnral la distance entre nuds,
tandis que les cots associs aux nuds permettent de marquer des zones viter ou favoriser
pour les trajectoires du robot.
12.1: Algorithme de Dijkstra
1: S = ensemble vide ; R = ensemble de tous les nuds ;
2: for all Noeuds i do
3: d(i) = +;
4: end for
5: d(but) = 0 ;
6: while R nest pas vide do
7: u = Extract-Min-d(R)
8: S = S union u
9: for all Noeud v voisin de u do
10: if d(v) > d(u) + w(u,v) + w(v) then
11: d(v) = d(u) + w(u,v) + w(v)
12: end if
13: end for
14: end while
La mthode la plus simple pour calculer le potentiel est lalgorithme de Dijkstra (12.1), qui,
partant du but fait chaque tape la mise jour du nuds suivant de potentiel le plus faible. Cet
algorithme suppose que tous les cots utiliss sont positifs ou nuls.
Une seconde mthode pour calculer ces potentiels lorsque certains cots sont ngatifs est
lutilisation de lalgorithme de programmation dynamique de Bellman-Ford (12.2), aussi connu
sous le nom de value itration, notamment en apprentissage par renforcement [16, 98, 17]. Une
itration de cet algorithme utilise quasiment la mme mthode de mise a jour que lalgorithme
de Dijkstra mais sans utiliser le mme ordre dans les mises jour des nuds. En prsence de
cots ngatifs, cette itration doit tre rpte autant de fois quil y a de nuds pour garantir la
convergence. De plus il peut arriver quun cycle du graphe ait un poids total ngatif, ce qui ne
permet pas de trouver de chemin de cot minimal. Lalgorithme retourne FAUX dans ce cas.
FIG. 12.4: Propagation des valeurs de potentiel selon lalgorithme utilis. Les poids associs
aux noeuds (ici les cases dune grille doccupation) sont nuls, et les poids des liens sont
la distance entre deux noeuds. La range du haut montre les rsultats de lalgorithme de
Dijkstra, celle du bas ceux de Value Iteration.
La gure 12.4 permet de comparer lordre des mises jour des valeurs de potentiels pour
lalgorithme de Dijkstra et pour Value Iteration.
12.3.3 Calcul dun chemin
Si lon ne souhaite que calculer un chemin, il est par exemple possible demployer lalgorithme
A
. Cet algorithme utilise exactement le mme mcanisme que lalgorithme de Dijkstra, mais uti-
lise une heuristique pour choisir le nud suivant explorer au lieu dexplorer systmatiquement
les nuds voisins des nuds dj planis. Cette heuristique doit fournir une valuation la plus
rapide possible de la distance entre le nud courant et le but (par exemple simplement la distance
euclidienne en supposant quil ny a pas dobstacles). La mise en place dune bonne heuristique
assure de trouver trs rapidement un chemin vers le but, mais ne garantit pas forcement loptima-
lit (ce qui nest souvent pas trs important en pratique).
12.4 Exemples de politiques
FIG. 12.5: Potentiel et exemple de trajectoires avec des poids de liens gaux la distance
entre noeuds.
La gure 12.5 donne un exemple de champ de potentiel obtenu en utilisant un poids nul pour
les nuds et la distance entre nuds comme poids sur les liens. Avec ce type de carte, ce
choix pose le problme de gnrer des trajectoires trs proche des obstacles, qui peuvent tre
dangereuses pour le robot.
Pour viter ce problme, il est possible dassocier un poids dpendant de la distance lobs-
tacle le plus proche chacun des noeuds. Ceci a pour but de pnaliser les trajectoires proches
des murs et de guider le robot selon laxe des couloirs au lieu de longer un des murs. La gure
12.6 montre le poids associ aux noeuds et les trajectoires obtenues.
12.5 Choix de laction avec une position incertaine
Lorsque la position estime par le systme de localisation est non ambigu, lutilisation dune
politique se rsume simplement au choix de laction associe avec la position courante. Toutefois,
les systmes ralisant le suivi de plusieurs hypothses, fournissent galement une estimation de
la probabilit de prsence du robot en diffrentes positions. Il peut donc se rvler utile de tenir
compte de ces probabilits pour slectionner laction excuter.
Diffrentes mthodes permettent de prendre ces probabilits en compte. Une premire m-
thode consiste utiliser une mthode de vote [95, 21]. Pour cela, une action est simplement
associe chacun des nuds de la carte, en utilisant une des mthodes dcrites au paragraphe
prcdent. Un score est alors calcul pour chaque action. Ce score est la somme des probabilits
12.5. CHOIX DE LACTION AVEC UNE POSITION INCERTAINE
12.2: Algorithme de Bellman-Ford
1: {%} Retourne FAUX si il y a un cycle de cot total ngatif
2: for all Noeuds i do
3: d(i) = +;
4: end for
5: d(but) = 0 ;
6: for i=1 jusqu Nombre de sommets do
7: for all liens (u,v) du graphe do
9: d(v) = d(u) + w(u,v) + w(v)
10: end if
11: end for
12: end for
13: for all liens (u,v) du graphe do
15: return FAUX
16: end if
17: end for
18: return VRAI
FIG. 12.6: Poids associ aux noeuds et exemples de trajectoires obtenues en utilisant ces
poids.
Probabilit de prsence la position correspondante
0.1
0.1
0.1
0.1
0.1
0.1
0.1
0.1
0.2
FIG. 12.7: Exemple de lintrt dune procdure de vote dans le cas o la situation du robot
est incertaine. Si lon choisit laction associe la position la plus probable, le robot ira en haut,
ce qui correspondra laction correcte avec une probabilit 0, 2. En utilisant une mthode de
vote, laction choisie sera daller droite, ce qui sera correct avec une probabilit 0, 8.
des nuds auxquels chaque action est associe. Laction ayant le score le plus lev est alors
excute. Cette mthode est efcace dans les cas de grande ambigut dans la localisation, o
la probabilit de la position la plus probable est seulement trs lgrement suprieure aux autres.
Dans ce cas, en effet, si la direction associe la position la plus probable est incorrecte, cette
mthode permet de lignorer et de choisir une direction associe plusieurs autres hypothses
de position qui se rvlera correcte dans un plus grand nombre de cas (cf. gure 12.7).
La mthode prcdente tente de diriger le robot vers le but quelle que soit lincertitude de
lestimation de sa position. Or si cette estimation est trs incertaine, il est souvent plus judicieux
de chercher dabord mieux lestimer avant de chercher rejoindre le but. Il est ainsi possible
de mesurer la conance dans lestimation courante de la position pour choisir une action. Cette
conance peut tre simplement mesure par lentropie de la distribution de probabilit [21, 99].
Ainsi, si lentropie de la distribution de probabilit reprsentant la position est trop leve, une
action permettant de diminuer cette entropie sera slectionne. Lutilisation de telles stratgies
permet par exemple dviter des zones dans lesquelles lincertitude de localisation est plus grande
(par exemple les larges espaces ouverts), et de privilgier les zones plus favorables lestimation
de la position (par exemples les zones o se trouvent des points de repre ables).
Robot Motion Planning and Control de J.-P. Laumond. Lectures Notes in Control and Informa-
tion Sciences 229. Springer, 1998. Qui est maintenant disponible en ligne
INDEX
Index
Braitenberg, 19, 55
Carte mtrique, 87
Carte topologique, 87
Cartographie, 83, 129
Codage par population de vecteurs, 102, 107,
120
Distance de Mahalanobis, 112
FastSLAM, 143
Filtre de Kalman, 108, 138
Filtre de Kalman tendu, 110
holonome, 35, 37, 147
Informations proprioceptives, 27
Localisation, 83, 99
MDP, 65
Modle mtrique, 29, 30
Modle Probabiliste, 38, 45
Navigation mtrique, 21
Navigation par carte, 21
Navigation ractive, 21
Navigation topologique, 20
Perception/Dcision/Action, 9, 22
Perceptions, 28
Perceptual aliasing, 28, 88, 90, 101
Planication, 21, 83, 147
Politique, 66
Q-Learning, 73
Rao-Blackwellisation, 143
SLAM, 138
Snapshot Model, 56
Stratgies de navigation, 19
Variabilit perceptuelle, 28
BIBLIOGRAPHIE
Bibliographie
[1] R. Arkin. Towards the unication of navigational planning and reactive control. In Procee-
dings of the AAAI Spring Symposium on Robot Navigation, pages 15, 1989.
[2] Ronald Arkin. Behavior-Based Robotics. The MIP Press, 1998.
[3] A. Arleo, J. del R. Milln, and D. Floreano. Efcient learning of variable-resolution cognitive
maps for autonomous indoor navigation. In IEEE Transactions on Robotics and Automation,
volume 15, pages 9901000, 1999.
[4] A. Arleo and W. Gerstner. Spatial cognition and neuro-mimetic navigation : A model of
hippocampal place cell activity. Biological Cybernetics, Special Issue on Navigation in Bio-
logical and Articial Systems, 83 :287299, 2000.
[5] A. Arsenio and M. I. Ribeiro. Absolute localization of mobile robots using natural landmarks.
In Proceedings of the International Conference on Electronics, Circuits and Systems, 1998.
[6] N. Ayache and O. Faugeras. Maintaning representations of the environment of a mobile
robot. IEEE Transactions on Robotics and Automation, 5(6) :804 819, 1989.
[7] I. A. Bachelder and A. M. Waxman. Mobile robot visual mapping and localization : A view-
based neurocomputational architecture that emulates hippocampal place learning. Neural
Networks, 7(6/7) :10831099, 1994.
[8] I. A. Bachelder and A. M. Waxman. A view-based neurocomputational system for relational
map-making and navigation in visual environments. Robotics and Autonomous Systems,
16 :267298, 1995.
[9] K. Balakrishnan, O. Bousquet, and V. Honavar. Spatial learning and localization in rodents :
A computation model of the hippocampus and its implications for mobile robots. Adaptive
Behavior, 7(2) :173216, 1999.
[10] M. Betke and K. Gurvits. Mobile robot localization using landmarks. In Proceedings of the
IEEE International Conference on Robotics and Automation (ICRA-94), volume 2, pages
135142, 1994.
[11] G. Blanc, Y. Mezouar, and P. Martinet. Indoor navigation of a wheeled mobile robot along
visual routes. In Proceedings of the IEEE International Conference on Robotics and Auto-
mation, 2005.
[12] D. Boley, E. Steinmetz, and K. Sutherland. Robot localization from landmarks using recur-
sive total least squares. In Proceedings of the IEEE International Conference on Robotics
and Automation (ICRA-96), volume 4, pages 13811386, 1996.
BIBLIOGRAPHIE
[13] G. Borghi and D. Brugali. Autonomous map learning for a multi-sensor mobile robot using
diktiometric representation and negotiation mechanism. In Proceedings of the International
Conference on Advanced Robotics (ICAR-95), 1995.
[14] V. Braitenberg. Vehicles. MIT Press, Cambridge MA, 1984.
[15] R. A. Brooks. Intelligence without representation. Articial Intelligence, (47) :139159,
1991.
[16] J. Buhmann, W. Burgard, A. B. Cremers, D. Fox, T. Hofmann, F. Schneider, J. Strikos, and
S. Thrun. The mobile robot rhino. AI Magazine, 16(1), 1995.
[17] W. Burgard, A. B. Cremers, D. Fox, D. Hhnel, G. Lakemeyer, D. Schulz, W. Steiner, and
S. Thrun. The interactive museumtour-guide robot. In Proceedings of the Fifteenth National
Conference on Articial Intelligence (AAAI-98). The MIT Press, 1998.
[18] W. Burgard, D. Fox, D. Hennig, and T. Schmidt. Estimating the absolute position of a mobile
robot using position probability grids. In Proceedings of the Thirteenth National Conference
on Articial Intelligence (AAAI-96), pages 896901, 1996.
[19] N. Burgess, M. Recce, and J. OKeefe. A model of hippocampal function. Neural Networks,
7 :10651081, 1994.
[20] B. A. Cartwright and T. S. Collett. Landmark maps for honeybees. Biol. Cybern., 57 :8593,
1987.
[21] A. R. Cassandra, L. P. Kaelbling, and J. A. Kurien. Acting under uncertainty : Discrete
bayesian models for mobile-robot navigation. In Proceedings of IEEE/RSJ International
Conference on Intelligent Robots and Systems, 1996.
[22] J. A. Castellanos, J. M. M. Montiel, J. Neira, , and J. D. Tardos. The SPmap : A probabilistic
framework for simultaneous localization and map building. IEEE Transactions on Robotics
and Automation, 15(5) :948953, 1999.
[23] R. Chatila and J. Laumond. Position referencing and consistent world modelling for mobile
robots. In Proceedings of the IEEE International Conference on Robotics and Automation
(ICRA-85), pages 138170, 1985.
[24] F. Chaumette. La commande des robots manipulateurs, chapter Asservissement visuel.
Trait IC2, Herms, 2002.
[25] I. J. Cox. Blanche - an experiment in guidance and navigation of an autonomous robot
vehicle. IEEE Transactions on Robotics and Automation, 7(2) :193204, 1991.
[26] G. Dedeoglu, M. Mataric, and G. S. Sukhatme. Incremental, online topological map building
with a mobile robot. In Proceedings of Mobile Robots XIV - SPIE, pages 129139, 1999.
[27] J. Y. Donnart and J. A. Meyer. Spatial exploration, map learning, and self-positioning with
monalysa. In P. Maes, M. Mataric, J. A. Meyer, J. Pollack, and S. W. Wilson, editors, From
animals to animats 4. Proceedings of the Fourth International Conference on Simulation of
Adaptive Behavior (SAB-96). The MIT Press, 1996.
[28] T. Duckett and U. Nehmzow. Experiments in evidence based localisation for a mobile robot.
In D. Corne and J. L. Shapiro, editors, Proceedings of the AISB 97 workshop on Spatial
Reasoning in Animals and Robots. Springer, 1997.
BIBLIOGRAPHIE
[29] T. Duckett and U. Nehmzow. Mobile robot self-localization and measurement of perfor-
mance in middle scale environments. Robotics and Autonomous Systems, 1-2(24), 1998.
[30] G. Dudek and M. Jenkin. Computational Principles of Mobile Robotics. Cambridge Univer-
sity Press, 2000.
[31] G. Dudek and P. MacKenzie. Model-based map construction for robot localization. In
Proceedings of Vision Interface 1993, 1993.
[32] S. Egerton and V. Callaghan. From mammals to machines : Towards a biologically inspi-
red mapping model for autonomous mobile robots. In Procceding of the 6th International
Conference on Intelligent Autonomous Systems (IAS-6), 2000.
[33] T. Einsele. Real-time self-localization in unknown indoor environments using a panorama
laser range nder. In Proceedings of the IEEE/RSJ International Conference on Intelligent
Robots and Systems (IROS-97), pages 697703, 1997.
[34] S. P. Engelson. Continuous map learning for mobile robots. Extended Abstract for the 3rd
French-Israeli Symposium on Robotics, 1995.
[35] S. P. Engelson and D. V. McDermott. Error correction in mobile robot map learning. In
Proceedings of the IEEE International Conference on Robotics and Automation (ICRA-92),
1992.
[36] H. Feder, J. Leonard, and C. Smith. Adaptive mobile robot navigation and mapping. Inter-
national Journal of Robotics Research, 18(7) :650668, 1999.
[37] D. Filliat and J.-A. Meyer. Map-based navigation in mobile robots - i. a review of localisation
strategies. Journal of Cognitive Systems Research, submitted for publication, 2001.
[38] D. Fox, W. Burgard, F. Dellaert, and S. Thrun. Monte carlo localization : Efcient position es-
timation for mobile robots. In Proceedings of the Sixteenth National Conference on Articial
Intelligence (AAAI-99), 1999.
[39] D. Fox, W. Burgard, S. Thrun, and A. B. Cremers. Position estimation for mobile robots
in dynamic environments. In Proceedings of the Fifteenth National Conference on Articial
Intelligence (AAAI-98), pages 983988, 1998.
[40] M. Franz, B. Scholkopf, P. Georg, H. Mallot, and H. Bulthoff. Learning view graphs for robot
navigation. Autonomous Robots, 5 :111125, 1998.
[41] J. Gass and A. Martn. Mobile robot localization using fuzzy maps. In T. Martin and
A. Ralescu, editors, Fuzzy Logic in AI - Selected papers from the IJCAI 95 Workshop,
number 1188, pages 207224. Springer-Verlag, 1997.
[42] P. Gaussier, C. Joulain, J.P. Banquet, S. Lepretre, and A. Revel. The visual homing problem:
an example of robotics/biology cross-fertilisation. Robotics and autonomous systems, 30(1-
2) :155180, 2000.
[43] P. Gaussier, S. Leprtre, C. Joulain, A. Revel, M. Quoy, and Banquet J. P. Animal and robot
learning : experiments and models about visual navigation. In Proceedings of the Seventh
European Workshop on Learning Robots, 1998.
BIBLIOGRAPHIE
[44] A. P. Georgopoulos, A. B. Schwartz, and R. E. Kettner. Neuronal population coding of
movement direction. Science, (233) :14161419, 1986.
[45] J. Gomes-Mota and M. I. Ribeiro. Mobile robot localisation on reconstructed 3d models.
Robotics and Autonomous Systems, 31(1-2) :1730, 2000.
[46] S. Gourichon and J.-A. Meyer. Using colored snapshots for short-range guidance in mobile
robots. International Journal of Robotics and Automation, submitted for publication, 2001.
[47] R. Greiner and R. Isukapalli. Learning to select useful landmarks. IEEE Transactions on
Systems, Man, and Cybernetics-Part B,Special Issue on Learning Autonomous Robots,
26(3), 1996.
[48] L. J. Guibas, R. Motwani, and P. Raghavan. The robot localization problem. Algorithmic
Foundations of Robotics, pages 269282, 1995.
[49] J. Gutmann and K. Konolige. Incremental mapping of large cyclic environments. In Procee-
dingsof the IEEE International Symposium on Computational Intelligence in Robotics and
Automation (CIRA-2000), 2000.
[50] J. S. Gutmann and C. Schlegel. Amos : Comparison of scan matching approaches for
self-localization in indoor environments,. In Proceedings of the 1st Euromicro Workshop on
Advanced Mobile Robots. IEEE Computer Society Press, 1996.
[51] V. V. Hafner. Learning places in newly explored environments. In J. A. Meyer, A. Ber-
thoz, D. Floreano, H. L. Roiblat, and S. W. Wilson, editors, Sixth International Conference
on simulation of adaptive behavior : From Animals to Animats (SAB-2000). Proceedings
Supplement., pages 111120. ISAB, 2000.
[52] P. Hbert, S. Betg-Brezetz, and R. Chatila. Decoupling odometry and exteroceptive per-
ception in building a global world map of a mobile robot : The use of local maps. In Pro-
ceedings of the IEEE International Conference on Robotics and Automation (ICRA-1996),
pages 757764, 1996.
[53] J. Hertzberg and F. Kirchner. Landmark-based autonomous navigation in sewerage pipes.
In Proceedings of the First Euromicro Workshop on Advanced Mobile Robots. IEEE Com-
puter Society Press, 1996.
[54] D. Hhnel, D. Fox, W. Burgard, and S. Thrun. A highly efcient fastslam algorithm for
generating cyclic maps of large-scale environments from raw laser range measurements.
In Proceedings of the Conference on Intelligent Robots and Systems (IROS), 2003.
[55] P. Jensfelt and S. Kristensen. Active global localisation for a mobile robot using multiple hy-
pothesis tracking. In Proceedings of the IJCAI-99 Workshop on Reasoning with Uncertainty
in Robot Navigation, 1999.
[56] O. Karch and T. Wahl. Relocalization theory and practice. Discrete Applied Mathematics :
Special Issue on Computational Geometry, 93, 1999.
[57] D. Kirsh. Today the earwig, tomorrow man? Articial Intelligence, 47 :161184, 1991.
[58] Y. Koren and J. Borenstein. Histogramic in-motion mapping for mobile robot obstacle avoi-
dance. IEEE Transaction on Robotics and Automation, 7(4) :535539, 1991.
BIBLIOGRAPHIE
[59] D. Kortenkamp, M. Huber, F. Koss, W. Belding, J. Lee, A. Wu, C. Bidlack, and S. Rogers.
Mobile robot exploration and navigation of indoor spaces using sonar and vision. In Procee-
dings of the AIAA/NASA Conference on Intelligent Robots in Field, Factory, Service, and
Space (CIRFFSS 94), pages 509519, 1994.
[60] D. Kortenkamp and T. Weymouth. Topological mapping for mobile robots using a combi-
nation of sonar and vision sensing. In Proceedings of the Twelfth National Conference on
Articial Intelligence (AAAI-94), pages 979984, Seattle, WA, 1994.
[61] B. J. Kuipers. The spatial semantic hierarchy. Articial Intelligence, (119) :191233, 2000.
[62] B. J. Kuipers and Y. T. Byun. A robot exploration and mapping strategy based on a semantic
hierarchy of spatial representations. Robotics and Autonomous Systems, 8 :4763, 1991.
[63] C. Kunz, T. Willeke, and I. Nourbakhsh. Automatic mapping of dynamic ofce environments.
In In Proceedings of the IEEE International Conference on Robotics and Automation (ICRA-
97), volume 2, pages 16811687, 1997.
[64] A. Kurz. Alef : An autonomous vehicle which learns basic skills and construct maps for
navigation. Robotics and Autonomous Systems, 14 :172183, 1995.
[65] D. Lambrinos, R. Mller, T. Labhart, R. Pfeifer, and R. Wehner. A mobile robot employing
insect strategies for navigation. Robotics and Autonomous Systems, special issue : Biomi-
metic Robots, 30 :3964, 2000.
[66] J.-C. Latombe. Robot Motion Planning. Boston : Kluwer Academic Publishers, 1991.
[67] J.-P. Laumond. Robot Motion Planning and Control. Lectures Notes in Control and Infor-
mation Sciences 229. Springer, 1998.
[68] J. J. Leonard, H. F. Durrant-Whyte, and I. J. Cox. Dynamic map building for an autonomous
mobile robot. International Journal of Robotics Research, 11(4) :8996, 1992.
[69] T. S. Levitt and D. T. Lawton. Qualitative navigation for mobile robots. Articial Intelligence,
44 :305360, 1990.
[70] F. Lu and E. Milios. Globally consistent range scan alignment for environment mapping.
Autonomous Robots, 4 :333349, 1997.
[71] R. C. Luo and M. G. Kay. Multisensor integration and fusion in intelligent systems. IEEE
Transactions on Systems, Man, and Cybernetics, 19(5) :901931, 1989.
[72] C. Madsen, C. Andersen, and J. rensen. A robustness analysis of triangulation-based robot
self-positioning. In Proceedings of the 5th Symposium for Intelligent Robotics Systems,
1997.
[73] M. J. Mataric. Integration of representation into goal-driven behaviour-based robots. IEEE
Transactions on Robotics and Automation, 8(3) :304312, 1992.
[74] P. S. Maybeck. Stochastic Models, Estimation and Control. Academic Press, 1979.
[75] M. Montemerlo, S. Thrun, D. Koller, and B. Wegbreit. FastSLAM : A factored solution to
the simultaneous localization and mapping problem. In Proceedings of the AAAI National
Conference on Articial Intelligence, Edmonton, Canada, 2002. AAAI.
BIBLIOGRAPHIE
[76] H. Moravec and A. Elfes. High resolution maps from wide angular sensors. In Procee-
dings of the IEEE International Conference On Robotics and Automation (ICRA-85). IEEE
Computer Society Press, 1985.
[77] P. Moutarlier and R. Chatila. An experimental system for incremental environment modeling
by an autonomous mobile robot. In Experimental Robotics 1, pages 327346. Springer-
Verlag, 1990.
[78] R. R. Murphy. Introduction to AI Robotics. The MIT Press, 2000.
[79] U. Nehmzow and C. Owen. Robot navigation in the real world : Experiments with man-
chesters fortytwo in unmodied, large environments,. Robotics and Autonomous Systems,
33(4) :223242, 2000.
[80] I. Nourbakhsh, R. Powers, and S. Bircheld. Dervish, an ofce navigating robot. AI Maga-
zine, 16(2) :5360, 1995.
[81] C. F. Olson. Probabilistic self-localization for mobile robots. IEEE Transactions on Robotics
and Automation, 16(1), 2000.
[82] S. Oore, G. Hinton, and G. Dudek. A mobile robot that learns its place. Neural Computation,
9 :683699, 1997.
[83] M. Piasecki. Global localization for mobile robots by multiple hypothesis tracking. Robotics
and Autonomous Systems, 16 :93104, 1995.
[84] T. J. Prescott. Spatial representation for navigation in animats. Adaptive Behavior, 4(2),
1995.
[85] D. Radhakrishnan and I. Nourbakhsh. Topological localization by training a vision-based
transition detector. In Proceedings of the 1999 IEEE/RSJ International Conference on In-
telligent Robots and Systems (IROS-99), 1999.
[86] A. Remazeilles and F. Chaumette. Image-based robot navigation from an image memory.
Robotics and Autonomous Systems, 55(4), 2007.
[87] A. Safotti and L. P. Wesley. Perception-based self-localization using fuzzy locations.
In Reasoning with Uncertainty in Robotics, volume 1093 of Lecture Notes in Computer
Science. Springer-Verlag, 1995.
[88] B. Schiele and J. Crowley. A comparison of position estimation techniques using occupancy
grids. In Proceedings of the IEEE International Conference on Robotics and Automation
(ICRA-94), pages 16281634, 1994.
[89] B. Scholkopf and H. A. Mallot. View-based cognitive mapping and path planning. Adaptive
Behavior, 3(3) :311348, 1995.
[90] M. J. Schoppers. Universal plans for reactive robots in unpredictable environments. In
Proceedings of the 10th International Joint Conference on Articial Intelligence (IJCAI 87),
pages 10391046, Milan, Italy, 1987.
[91] A. C. Schultz and W. Adams. Continuous localization using evidence grids. In Proceedings
of the IEEE International Conference on Robotics and Automation (ICRA-98), pages 2833
2839, 1998.
BIBLIOGRAPHIE
[92] P. E. Sharp. Computer simulation of hippocampal place cells. Psychobiology, 19(2) :103
115, 1991.
[93] H. Shatkay and L. P. Kaelbling. Learning topological maps with weak local odometric infor-
mation. In Proceedings of the Fifteenth International Joint Conference on Articial Intelli-
gence, 1997.
[94] R. Sim and G. Dudek. Learning visual landmarks for pose estimation. In Proceedings of
the IEEE International Conference on Robotics and Automation (ICRA-1999), 1999.
[95] R. Simmons and S. Koenig. Probabilistic navigation in partially observable environments.
In S. Mellish, editor, Proccedings of IJCAI95. Morgan Kaufman Publishing, 1995.
[96] R. Smith, M. Self, and P. Cheeseman. Estimating uncertain spatial relationships in robotics.
In J. F. Lemmer and L. N. Kanal, editors, Uncertainty in Articial Intelligence, pages 435
461. Elsevier, 1988.
[97] G. Theocharous, K. Rohanimanesh, and S. Mahadevan. Learning hierarchical partially
observable markov decision processes for robot navigation. In Proceedings of the IEEE
Conference on Robotics and Automation, 2001.
[98] S. Thrun. Learning metric-topological maps maps for indoor mobile robot navigation. Arti-
cial Intelligence, 99(1) :2171, 1999.
[99] S. Thrun. Probabilistic algorithms in robotics. AI Magazine, 21(4) :93109, 2000.
[100] S. Thrun, M. Bennewitz, W. Burgard, A. B. Cremers, F. Dellaert, D. Fox, D. Haehnel, C. Ro-
senberg, N. Roy, J. Schulte, and D. Schulz. Minerva : A second generation mobile tour-
guide robot. In Proceedings of the IEEE International Conference on Robotics and Auto-
mation (ICRA-1999), 1999.
[101] S. Thrun, W. Burgard, and D. Fox. A real-time algorithm for mobile robot mapping with appli-
cations to multi-robot and 3d mapping. In Proceedings of the IEEE International Conference
on Robotics and Automation (ICRA-2000), 2000.
[102] D. S. Touretzky, H. S. Wan, and A. D. Redish. Neural representations of space in rats and
robots. In J. M. Zurada, R. J. Marks, and C. J. Robinson, editors, Computational Intelli-
gence : Imitating Life, pages 5768. IEEE Press, 1994.
[103] O. Trullier and J. A. Meyer. Biomimetic navigation models and strategies in animats. AI
Communications, 10 :7992, 1997.
[104] O. Trullier and J. A. Meyer. Animat navigation using a cognitive graph. Biological Cyberne-
tics, 83(3) :271285, 2000.
[105] O. Trullier, S. Wiener, A. Berthoz, and J. A. Meyer. Biologically-based articial navigation
systems : Review and prospects. Progress in Neurobiology, 51 :483544, 1997.
[106] I. Ulrich and I. Nourbakhsh. Appearance-based place recognition for topological localiza-
tion. In Proceedings of the IEEE International Conference on Robotics and Automation
(ICRA-2000), 2000.
[107] G. Von Wichert. Mobile robot localization using a self-organised visual environment repre-
sentation. Robotics and Autonomous Systems, 25 :185194, 1998.
BIBLIOGRAPHIE
[108] O. Wijk and H. I. Christensen. Localization and navigation of a mobile robot using natural
point landmarks extracted from sonar data. Robotics and Autonomous Systems, 31(1-
2) :3142, 2000.
[109] B. Yamauchi and R. Beer. Spatial learning for navigation in dynamic environments. IEEE
Transactions on Systems, Man, and Cybernetics-Part B,Special Issue on Learning Autono-
mous Robots, 26(3) :496505, 1996.
[110] B. Yamauchi and P. Langley. Place recognition in dynamic environments. Journal of Robotic
Systems, Special Issue on Mobile Robots, 14(2) :107120, 1997.
[111] B. Yamauchi, A. Schultz, and W. Adams. Integrating exploration and localization for mobile
robots. Adaptive Behavior, 7(2) :217230, 1999.

Robotique Mobile - ENSTA ParisTech

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Robotique Mobile - ENSTA ParisTech

Uploaded by

Copyright:

Available Formats

David FILLIAT

Ecole Nationale Suprieure de Techniques Avances

lorsque lagent effectue laction a dans ltat s,

) qui donne la rcom-

maximisant la rcompense long terme

(Figure 7.3) qui permet, pour une politique donne,

(s, a), pondres par la probabi-

67 Robotique Mobile - david.lliat@ensta.fr

Robotique Mobile - david.lliat@ensta.fr 68

Intuitivement, cette quation traduit par loprateur max

, il est trs simple de construire une politique

qui permettent de raliser le maximum

pour en dduire une

), il est possible de calculer directement V

an den dduire une

est le point xe de lquation de Bellman :

ainsi dnie nest pas meilleure que (cest dire si V

Dans ce processus, cependant, lvaluation de politique est elle-mme un processus itratif,

et qui converge vers V

il faut disposer dun modle de

Cet algorithme fait converger Q vers Q

indpendemment de la politique suivie, tant que cette

14: end for

, ainsi que de sa covariance P

Supposons enn que le systme de perception permette de mesurer directement la position,

et nous estimons un bruit constant sur cette mesure :

Les matrices Jacobiennes correspondant ces quations sont donc :

111 Robotique Mobile - david.lliat@ensta.fr

Lalgorithme du ltre de Kalman tendu se simplie alors :

) est un modle du dplacement du robot, qui donne la proba-

), est le fruit dune estimation ltape

) qui donne la probabilit que le robot arrive en x si il excute

) est en gnral nul

qui se calcule simplement par :

Ce qui donne la matrice jacobienne :

la matrice jacobienne de lquation dobservation scrira alors :

, ou lune de ses nombreuses

You might also like