You are on page 1of 49

Module : Apprentissage Automatique

LES RESEAUX DE NEURONES
ARTIFICIELS
Mr. Lakhmissi CHERROUN
Département de Mathématique et Informatique
Université de Djelfa
2011-2012
1

Introduction
Définition
Contexte Scientifique
Historique
Fondements Biologiques

2

Définition
Les réseaux de neurones artificiels sont des réseaux
fortement connectés de processeurs élémentaires
fonctionnant en parallèle.
Chaque processeur élémentaire (neurone artificiel)
calcule une sortie unique sur la base des informations
qu’il reçoit.
Parallel Distributed Processing :
– Calculs élémentaires et parallèles
– Données/informations distribuées dans le réseau

Inspiration naturelle : analogie avec le cerveau
3

Contexte Scientifique
Neuromimétisme et sciences de la cognition :
comprendre et simuler le fonctionnement du cerveau
reproduire les phénomènes cognitifs (I.A.)

Connexionisme :
outils d’ingénierie performants

Intelligence computationnelle :
une intelligence basée sur le calcul numérique
opposée à l ’intelligence artificielle (calcul symbolique)
réseau de neurones; logique floue; algorithmes génétiques; ...
4

Historique la préhistoire James [1890] : mémoire associative McCulloch & Pitts [1943] A logical calculus of the ideas immanent in nervous activities neurone formel  Les ordinateurs à codage binaire (Von Neumann)  L ’intelligence artificielle (calcul symbolique)  Les réseaux de neurones Hebb [1949] Organisation of behavior le conditionnement est une propriété des neurones loi d’apprentissage 5 .

adaptive linear element Minsky & Papert [1969] : impossibilité de classer des configurations non linéairement séparables abandon (financier) des recherches sur les RNA 6 . premier modèle opérationnel reconnaissance d ’une configuration apprise tolérance aux bruits Widrow [1960] : adaline.Historique les premiers succès Rosenblatt [1957] : le perceptron.

McClelland. .. Elles continuent sous le couvert de domaines divers.Historique l’ombre et le renouveau [1967 .1982] : Mise en sommeil des recherches sur les RNA. Hopfield [1982] : modèle des verres de spins Boltzmann [1983] : première réponse à Minsky et Papert [1985] : la rétro-propagation du gradient et le perceptron multicouche Rumelhart. … [1985] : le groupe Parallel Distributed Processing 7 .. Kohonen. Anderson. Grossberg.

Domaines d’application • Classification : répartir en plusieurs classes des objets données quantitatives  informations qualitatives reconnaissance des formes • Recherche Opérationnelle résoudre des problèmes dont on ne connaît pas la solution • Mémoire Associative restituer une donnée à partir d’informations incomplètes et/ou bruitées. 8 .

Bien qu’il existe une grande diversité de neurones. ils fonctionnent tous sur le même schéma.Fondements Biologiques Structure des neurones Le système nerveux est composé de 1012 neurones interconnectés. Ils se décomposent en trois régions principales : – Le corps cellulaire – Les dendrites – L ’axone 9 .

– L’excitation est propagée jusqu’aux autres neurones qui y sont connectés via les synapses. – Si elle est suffisante. – Le neurone évalue l’ensemble de la stimulation reçue. 10 . il est excité : il transmet un signal (0/1) le long de l ’axone.Fondements Biologiques Fonctionnement des neurones L’influx nerveux est assimilable à un signal électrique se propageant comme ceci : – Les dendrites reçoivent l’influx nerveux d ’autres neurones.

Fondements Biologiques Fonctionnement des neurones 11 .

Fondements biologiques Le cerveau Trois couches successives : – Le cerveau reptilien (la couche la plus ancienne) – L’hippocampe (cerveau archaïque) – Le cortex (la couche la plus récente) Découpage en régions : au niveau morphologique et fonctionnel Adaptation : renforcement de l’efficacité synaptique: renforcement des corrélations (loi de Hebb) 12 .

Les modèles Mathématiques Le neurone de McCulloch & Pitts Le neurone formel Architecture générale d ’un RNA Structure d ’Interconnexion 13 .

0 1 1.Le Neurone de McCulloch & Pitts 0 1 Inh Exc 1.0 2.0 1 Exc 14 .

discret.Le Neurone Formel Le neurone formel. se compose de deux parties : – évaluation de la stimulation reçue (fonction E) – évaluation de son activation (fonction f) Il est caractérisé par : – son état X (binaire. l’unité élémentaire d’un RNA. continu) – le niveau d’activation reçu en entrée U (continu) – le poids des connections en entrée 15 .

Le Neurone Formel La fonction d’entrée : somme pondérée des signaux d’entrée Le biais d’entrée (bias input): unité fictive dont le poids permet de régler le seuil de déclenchement du neurone 16 .

Le Neurone Formel Les fonctions d’activation : 17 .

Le Neurone Formel La fonction linéaire et la fonction à seuil : Output (sortie) Activation de la cellule Output (sortie) Activation de la cellule fonction linéaire du type y = x maximum maximum 0 minimum Input (entrées) Somme pondérée des entrées L'activation augmente en même temps que la somme pondérée des entrées. 18 . Elle varie entre un minimum et un maximum 0 minimum seuil Input (entrées) Somme pondérée des entrées L'activation passe brutalement de son minimum à son maximum. une fois atteint le seuil critique en entrée.

Le Neurone Formel La fonction sigmoïde : a t+1 i = 1 1+e − X i − Si avec t X i = Wij a j T 19 .

Architecture générale d’un RNA Pattern d'entrée Stimulus codage 0 1 0 1 1 1 0 0 Pattern de sortie Réseau 1 1 0 0 1 décodage 0 1 0 Réponse 20 .

Structure d’Interconnexion propagation avant (feedforward) couche d’entrée couche cachée couche de sortie réseau multicouche réseau à connections locales propagation des activations : de l ’entrée vers la sortie 21 .

Structure d’Interconnexion modèle récurrent (feedback network) propagation des activations : synchrone : toutes les unités sont mises à jour simultanément asynchrone : les unités sont mises à jours séquentiellement 22 .

Apprentissage Définition Apprentissage supervisé Apprentissage non supervisé Règles d ’apprentissage 23 .

Définition L ’apprentissage est une phase du développement d’un réseau de neurones durant laquelle le comportement du réseau est modifié jusqu’à l’obtention du comportement désiré. On distingue deux grandes classes d’algorithmes d’apprentissage : – L’apprentissage supervisé – L’apprentissage non supervisé 24 .

Apprentissage supervisé superviseur sortie désirée erreur réseau sortie obtenue 25 .

Apprentissage non supervisé réseau sortie obtenue 26 .

ai)aj – Règle de Grossberg : ∆wij=R(aj .Règles d’apprentissage L’apprentissage consiste à modifier le poids des connections entre les neurones. i Wij j Il existe plusieurs règles de modification : – Loi de Hebb : ∆wij=Raiaj – Règle de Widrow-Hoff (delta rule) : ∆wij=R(di .wij)ai 27 .

ai = -1 ai = 1 aj = -1 ∆Wij = R ∆Wij = -R aj = 1 ∆Wij = -R ∆Wij = R j i w ij ∆Wij = Rai a j 28 . le poids de leur connexion est augmenté ou diminué. R est une constante positive qui représente la force d'apprentissage (learning rate).Règles d’apprentissage Loi de Hebb : Si deux unités connectées sont actives simultanément.

Règles d’apprentissage Loi de Widrow-Hoff (delta rule) : ai activation produite par le réseau di réponse désirée par l'expert humain Par exemple si la sortie est inférieure à la réponse désirée.1}. il va falloir augmenter le poids de la connexion à condition bien sûr que l'unité j soit excitatrice (égale à 1). On est dans l'hypothèse d'unités booléennes {0. j i ai = 0 ai = 1 w di = 0 ∆Wij = 0 ∆Wij = -R di = 1 ∆Wij = R ∆Wij = 0 ij ∆Wij = R(di − a i )a j 29 .

pour les rapprocher du vecteur d'entrée aj.Règles d’apprentissage Loi de Grossberg : On augmente les poids qui entrent sur l'unité gagnante ai s'ils sont trop faibles. C’est la règle d’apprentissage utilisée dans les cartes auto-organisatrices de Kohonen ∆Wij = Rai (a j − Wij ) j i w ij 30 .

Différents modèles Le perceptron Limite du perceptron Le perceptron multicouche Le modèle de Hopfield Le modèle d ’Elmann Les réseaux ART 31 .

Il est composé de neurones à seuil. 32 .Le perceptron Le perceptron de Rosenblatt (1957) est le premier RNA opérationnel. C’est un réseau à propagation avant avec seulement deux couches (entrée et sortie) entièrement interconnectées. L ’apprentissage est supervisé et les poids sont modifiés selon la règle delta.

+1 } j=n aj {1.Le perceptron Traits significatifs Classification j=1 Rétine Entrée … Wij Sortie i ai {-1.0 } 33 .

Limite du perceptron Le perceptron est incapable de distinguer les patterns non séparables linéairement [Minsky 69] P input P input Q ET XOR 0 1 0 1 1 0 0 1 0 0 0 0 1 1 1 0 fonction ET logique fonction XOR (ou exclusif) P 1 0 1 1 0 0 0 0 1 0 0 0 Q patterns séparables linéairement 1 0 1 1 Q patterns non séparables linéairement 34 .

Le perceptron multicouche architecture Y S T E Environnement bias 1 M bias couche d'entrée couche (input) i cachée (hidden) j E 1 couche de sortie Environnement S (output) k 35 .

(1 − f (x )) f ′( x ) = (1 + f ( x )).(1 − f (x )) 36 .Le perceptron multicouche activation ai aj j W ji x j = ∑ w jiai a j = f (x j ) Wbias bias = 1 fonction sigmoïde fonction tangente hyperbolique 1 a = f (x ) = −x 1+ e e x − e− x a = f (x ) = x −x e +e f ′( x ) = f ( x ).

f ′(S j )  ak = f ( S k ) Calcul Erreur 3 entre sorties désirées et sorties obtenues Calcul de l'erreur 5 sur les unités cachées Calcul de l'erreur 4 sur les unités de sortie ek = d k − ak δ k = ek . f ′(S k ) 6 Ajustement des poids Apprentissage Apprentissage des unités de sortie des unités cachées ∆Wij = εδ j ai ∆W jk = εδ k a j 37 .Le perceptron multicouche apprentissage : retropropagation de l’erreur S j = ∑ aiWij S k = ∑ a jW jk i a j = f (S j ) j 1 Calcul activations 2 Calcul activations unités cachées unités de sortie Unités a d'entrée i  k Unités a de sortie k Unités a cachées j δ j =  ∑W jk δ k .

• La fonction d'une mémoire associative est de restituer une information en tenant compte de sa perturbation ou de son bruit. une information est retrouvée à partir d'une clé arbitraire. Par opposition. L'information doit alors se rapprocher d'une information apprise ou connue. une donnée entreposée dans une mémoire associative est accessible à partir d'informations qui lui sont associées. il existe aussi des mémoires hétéro-associatives qui en plus peuvent associer plusieurs informations entre elles.Le modèle de Hopfield les mémoires associatives • Dans une mémoire informatique classique. • Si les mémoires associatives restituent des informations qu'elles ont apprises à partir d'entrées incomplètes ou bruitées. 38 .

1) = 2. Les valeurs d’entrée sont binaires (-1. et les connexions sont symétriques. sinon Le réseau est complètement connecté. A(-1. 1) en utilisant une simple transformation.A(0. 1) mais peuvent être aisément remplacées par les valeurs binaires usuelles (0.1) . si x > 0 F(x) = -1.1 39 .Le modèle de Hopfield l’architecture du réseau Les neurones de Hopfield sont discrets et répondent à une fonction seuil. on considère une fonction seuil très simple : 1. Pour des commodités d’utilisation.

Le modèle de Hopfield principe de fonctionnement Apprentissage (loi de Hebb): 1 Wij = W ji = P Utilisation : p p s ∑ i sj p∈ ∈P P Wii = 0 un vecteur est présenté au réseau les neurones calculent leurs sorties les sorties sont propagées et on itère jusqu ’à la convergence 40 .

s j .si ∑ 2 i . s < 0 alors s i = −1  ∑ ij j  j∈N t −1 t  si ∑Wij . j∈N 41 .s j > 0 alors si = 1  j∈N t −1 t t −1 si ∑Wij .Le modèle de Hopfield principe de fonctionnement Modification de l’état d’un neurone  t −1 t si W .s j = 0 alors si = si  j∈N Energie du réseau E=− 1 Wij .

Le modèle de Hopfield application : reconnaissance de caractère 42 .

input f(x) Unités de contexte (retour des unités cachées) 43 .Le modèle d’Elman le modèle récurrent de rétro-propagation apprentissage : rétropropagation application : reconnaissance de série temporelle output Fréquence etc. Unités cachées etc.

le réseau peut interpoler cette dernière 44 .Le modèle d’Elman le modèle récurrent de rétro-propagation • Phase d’apprentissage – – – – On présente une série temporelle au réseau (f(x)=sin(F*x)) La sortie désirée est fixée (F) Pour chaque élément de la série : rétropropagation On recommence pour deux ou plus valeurs de F • Reconnaissance – Lorsqu’on présente une fonction de fréquence apprise. le réseau réussi à la reconnaître • Généralisation – Lorsqu’on présente une fonction de fréquence non apprise. après quelques itérations.

Dans cette couche : les neurones réagissent différemment aux entrées un neurone est élu vainqueur le gagnant à le droit de modifier ses poids de connexion Type d ’apprentissage : supervisé / non supervisé 45 .Les réseaux concurrentiels présentation Un réseau concurrentiel comporte une couche de neurone dite compétitive.

aj = 1 Sinon aj = 0 Apprentissage – La somme des poids arrivant sur une unité compétitive reste constante et égale à 1 – Seule l’unité gagnante a le droit de modifier ses poids.Les réseaux concurrentiels fonctionnement Fonction d’activation S j = ∑Wij ai i Si Sj est le max sur toute la couche compétitive. afin qu’ils se rapprochent encore plus du vecteur d’entrée (mais ils restent normalisés) Compétition par inhibition – Il est possible de simuler la compétition par des connections inhibitrices entre les unités compétitives 46 .

ce qui permet de définir un voisinage pour le neurone. L ’apprentissage est non supervisé. 47 . La couche compétitive possède une structure topologique.Les réseaux concurrentiels les cartes topologique de Kohonen Un réseau de Kohonen est composé d ’une couche d ’entrée et d ’une couche compétitive.

Les réseaux concurrentiels les cartes topologique de Kohonen Les voisins proches du gagnant modifient positivement leurs poids Les voisins éloignés du gagnant modifient négativement leurs poids Après l’apprentissage. les poids décrivent la densité et la structure de la répartition des vecteurs d’entrée Application : Classification non supervisée Réduction du nombre de dimension Analyse en composantes principales 48 .

49 . grâce aux deux couches de neurones F1 et F2 : F1 qui détecte les caractéristiques des patterns étudiés.Les réseaux ART [Carpenter & Grossberg 87] Les réseaux ART sont utilisés comme détecteurs de caractéristiques pour classer des patterns présentés au système. F2 qui classe ces patterns en catégories. C’est un apprentissage non supervisé qui fait appel simultanément aux deux aspects de la mémoire : la mémoire à long terme (LTM) qui gère les interactions entre les couches F1 et F2 et s’enrichit pendant la phase d’apprentissage. la mémoire à court terme (STM) qui décrit l’état interne des couches FI et F2 et se modifie à chaque cycle du système. tels qu’ils arrivent et sans autre information que leur description interne.