Formation IA

Journée de l’IA
30/09/2023
De Intelligence Artificielle à l’apprentissage automatique
Salah Zidi
Maitre de conférences à l’ISSIG
Salah Zidi
1
IA & Knowledge Economy
Salah Zidi 2
Salah Zidi 3
 GAFAM
(Google, Amazon, Facebook, Apple et
Microsoft)
 NATU
(Netflix, Airbnb, Tesla, Uber)
Salah Zidi 4
Intelligence Artificielle
de la théorie à la pratique
1. Comprendre la théorie
 Principe théorique
 Algorithme (étapes)
2. Pratiquer
 Programme (Python, Matlab, …)
 Évaluation
 Utilisation des bibliothèques
3. Appliquer
 Préparation de données
 Extraction et sélection de variables
 Application des programmes
4. Utiliser
 Profiter de la technologie
 Etre consommateur
 Sans être obliger de comprendre
Salah Zidi 5
PLAN
1 INTRODUCTION: Qu’est ce que l’IA?
2 APPRENTISSAGE AUTOMATIQUE
3 APPRENTSSAGE SUPERVISE
4 APPRENTISSAGE NON SUPERVISE
5 APPRENTISSAGE PROFOND
6 APPRENTISSAGE FEDERE
Salah Zidi 6
PLAN
Salah Zidi 7
Qu’est ce que l’IA?
 Reproduction d’un raisonnement par des moyens
informatiques.
 Imitation de l’intelligence naturelle.
 Ingénierie de fabrication des machines et programmes

intelligents.
 Concevoir des systèmes capables de reproduire le

comportement de l’humain.
 Traitement des connaissances (informations symboliques).
Salah Zidi 8
• Optimisation • Perception
Meta Traitement
heuristiques d’image
Machine Logique
learning Floue
• Apprentissage
• Raisonnement
Salah Zidi 9
Salah Zidi 10
Deux ou trois vagues de l’IA?
1. IA faible ou descendante
 Imitation fidèle d'un comportement observé.
 Un programme informatique.
 Très performant mais sans possibilité d’évoluer.
2. IA forte (ascendante)
 Comportement humain mimé par suite d'apprentissage et accumulation de connaissances.
3. IA Générative ?
 Machine capable de générer une réponse: exp NLP Transformers
 Machine dotée d'une sorte de conscience.
 Algorithmes évoluent et échappent progressivement au cadre fixé.
Salah Zidi 11
PLAN
Salah Zidi 12
APPRENTISSAGE AUTOMATIQUE
 Formulation de l’expertise sous la forme d’un
modèle.
 Le modèle peut être mathématique et/ou graphique.
 Technique d’aide à la prise de décision.
 Prévision des résultats de prise de décision.
 Classification des données connus au profil de

données de prévision inconnus.
Salah Zidi 13
 La science des données (“Data science”): approche(s)
pluridisciplinaire pour l’extraction de connaissances à
partir de données hétérogènes.
 Les données massives (“Big data”) : mettant l’accent

sur les problématiques “4V” (Volume, Variété,
Vélocité, Véracité) et des éléments de solutions issus
du stockage/calcul distribué.
 Aide à la prise de décision à partir de l’analyse

intelligente de données massives.
 Prédiction des états et de bonnes décision.

Salah Zidi 14
 Supervisé : à partir d’un ensemble d’objets et leurs
valeurs cibles associées.
 Non supervisé: à partir d’un ensemble d’objets sans

aucune valeur cible associée.
 Semi-supervisé : à partir d’un petit ensemble d’objets

avec pour chacun une valeur cible associée et d’un plus
grand ensemble d’objets sans valeur cible.
Salah Zidi 15
 Par renforcement : à partir d’un ensemble de séquences de
décisions dans un environnement dynamique, et pour chaque
action de chaque séquence une valeur de récompense. il faut
apprendre un modèle capable de prédire la meilleure décision à
prendre étant donné un état de l’environnement.
 Actif : à partir d’un petit ensemble d’objets avec pour chacun

une valeur cible associée ; il faut interagir avec l’utilisateur et lui
demander de donner la valeur cible d’un nouvel objet afin de
mieux apprendre le modèle de prédiction.
Salah Zidi 16
Salah Zidi 17
La préparation des Séparation de L’ingénierie des Apprentissage
données données caractéristiques (Feature
Engineering)
•Récolte des données •Données •Visualisation des •Modèle
•Réconciliation (Data apprentissage données mathématique ou
Wrangling) •Données test •Extraction graphique
•Enrichissement des données •Données validation •sélection
Test Utilisation
•Mise en production
• Vérification de la
pertinence des •Suivi des résultats
résultats avec les •Suivi de
données de test l’apprentissage si
évolutif
Salah Zidi 18
Salah Zidi 19
PLAN
Salah Zidi 20
APPRENTSSAGE SUPERVISE
‒ Par analogie
 K Plus Proches Voisin (KPPV)
‒ Par combinaison de tests élémentaires
 Arborescence: Arbre de Décision; Forêts Aléatoires (Random Forests)
 Vote pondéré: boosting (dopage)
‒ Par approche probabiliste (avec hypothèses sur distribution des classes):
 Méthodes bayésiennes
‒ Par maximisation de la « marge »
 Séparateurs à Vaste Marge ou Support Vector Machines (SVM)
‒ Par minimisation de l’erreur (descente de gradient, etc..)
 Réseaux de neurones (MLP), etc…
Salah Zidi 21
KPPV (K Plus Proche Voisins)
KNN (K Nearest Neighbor)
Salah Zidi 22
KPPV
‒ On dispose d'une base de données d'apprentissage
constituée de m couples «entrée-sortie».
‒ Pour estimer la sortie associée à une nouvelle entrée x,
la méthode consiste à prendre en compte les k
échantillons d'apprentissage dont l'entrée est la plus
proche de la nouvelle entrée x, selon une distance à
définir.
‒ Il s’agit de retenir la classe la plus représentée parmi
les k sorties associées aux k entrées les plus proches de
la nouvelle entrée x. Salah Zidi 23
Arbre de décision
Decision Tree
Salah Zidi 24
ARBRE DE DÉCISION Prêt bancaire
 Permet d'extraire des règles logiques de cause à
effet (des déterminismes)
 Construction d’un arbre de décision comme
modèle prédictif .
 Ce modèle prédit la valeur d'une variable-cible
depuis la valeur de plusieurs variables d'entrée.
 Les feuilles représentent les valeurs de la variable-
cible et les embranchements correspondent à des
combinaisons de variables d'entrée qui mènent à
ces valeurs.
 Une fois l’arbre construit, classer un nouvel
candidat se fait par une descente dans l’arbre, de la
racine vers une des feuilles (qui encode la décision
ou la classe). Salah Zidi 25
ARBRE DE DÉCISION
Construction de l’arbre
 Si Variable catégorielle : génère une branche (un
descendant) par valeur de l’attribut.
 Si Variable numérique : test par intervalles (tranches)
de valeurs.
 Au départ, les points de la base d’apprentissage sont
tous placés dans le nœud racine.
 L’arbre est construit par partition récursive de chaque
nœud en fonction de la valeur de l’attribut testé à
chaque itération.
 Les feuilles de l’arbre spécifient les classes.
 Le processus s’arrête quand les éléments d’un nœud
ont la même valeur pour la variable cible (homogénéité).
Salah Zidi 26
ARBRE DE DÉCISION
Algorithme ID3 (Iterative Dichotomiser 3): Implémentation
Quel variable (attribut) choisir pour un nœud S?
 On Partitionne S sur les valeurs de chaque attribut a en k sous-groupes (k est le nombre
de valeurs distinctes de l’attribut a),
 On calcule le gain d’information sur l’attribut a
 pi: la probabilité qu’un élément de S appartient à Si

 Si on suppose que la variable cible a m valeurs distinctes (les étiquettes de classe)
 On choisi l’attribut a de gain d’information maximal
Salah Zidi 27
ARBRE DE DÉCISION
Salah Zidi 28
ARBRE DE DÉCISION
Si on choisit l’attribut Temp pour le
nœud racine
Salah Zidi 29
ARBRE DE DÉCISION
Salah Zidi 30
ARBRE DE DÉCISION
L’attribut « Pif » est l’attribut gagnant pour le nœud racine sur car il offre le plus
grand gain d’information (par rapport à la cible)
Salah Zidi 31
Classification Naïve Bayésienne
Naive bayezian classification
Salah Zidi 32
NAÏVE BAYESIENNE
 Une classification probabiliste simple (dite naïve).
 En se basant sur le théorème de Bayes.
 Estimation de la probabilité d’appartenance à chaque classe.
 La classe gagnante est la classe dont la probabilité est maximale.
 P(B) ne dépend pas de la classe.
Salah Zidi 33
NAÏVE BAYESIENNE: Exemple
Lorsque les valeurs des caractéristiques sont discrètes, on utilise la loi multinomiale
Couleur Type Origine Volé Couleur
P( Rouge⁄Oui)=3/5 P( Rouge⁄Non)=2/5
Rouge Sport Domicile Oui
P( Jaune⁄Oui)=2/5 P( Jaune⁄Non)=3/5
Rouge Sport Domicile Non
Rouge Sport Domicile Oui Type
Jaune Sport Domicile Non P( Sport⁄Oui)=4/5 P( Classique⁄Oui)=1/5
Jaune Sport Importation Oui P( Sport⁄Non)=2/5 P( Classique⁄Non)=3/5
Jaune Classique Importation Non Origine
Jaune Classique Importation Oui P( Domicile⁄Oui)=2/5 P( Importation⁄Oui)=3/5
Jaune Classique Domicile Non P( Domicile⁄Non)=3/5 P( Importation⁄Non)=2/5
Rouge Classique Importation Non
Rouge Sport Importation Oui P( Oui)=5/10 P( Non)=5/10
Salah Zidi 34
NAÏVE BAYESIENNE
Soit un nouveau élément à classer
Salah Zidi 35
NAÏVE BAYESIENNE
Lorsque les valeurs des caractéristiques sont continues, on utilise la loi normale (loi gaussienne).
Loi gaussienne Loi Normale
Espérance variance
Lorsque les valeurs des caractéristiques sont binaires, on utilise la loi de Bernoulli.
Salah Zidi 36
SVM (Séparateur à Vaste Marge)
Support Vector Machines
Salah Zidi 37
SVM
SVM est un algorithme d’apprentissage statistique basé sur la maximisation des marges.
SVM linéaire
 Pour un échantillon d’apprentissage,
il existe plusieurs solutions (droite) pour une
classification (séparation) linéaire entre deux
classes.
 L’une des solutions passe entre les deux
classes (milieu) et maximise la marge de part
et d’autre.
Salah Zidi 38
SVM
 Pour une classification linéaire, il en existe une infinité
de droite séparatrice.
 On veut sélectionner celui dont la distance au plus

proche exemple des deux classes est maximum.
 Il s’agit d’un classifieur de marge maximale.

 Une satisfaction des contraintes des points
d’apprentissage avec le plus de robustesse aux
variations.
 On peut tolérer des violations de contraintes jusqu’à
une certaine limite fixée par une constante C.
Salah Zidi 39
SVM
Le paramètre C contrôle le compromis de tolérance (C petit= sévère; C grand = laxiste). Il sera
fixé par validation croisée
Le problème peut être amené à un problème d’optimisation:
1. Maximisation de la marge en jouant sur l’équation de l’hyperplan
2. En normalisant W
3. Sous contrainte que tous les exemples d’apprentissage soient bien classés
La marge normalisée =
Il s’agit d’un problème d’optimisation quadratique sous contraintes linéaires. La solution est
le vecteur w* et l’offset W0*. Et on trouve la fonction décision:
Salah Zidi 40
SVM
On passe par le Lagrangien:
Alors:
Salah Zidi 41
SVM
D’après les conditions de Karush-Kuhn-Tuker, seul les points sur les hyperplans
frontières 𝑤 ∗ 𝑥𝑖𝑡 + 𝑤0∗ = ±1 jouent un rôle. Ces points sont appelés vecteurs support, ou
points support ou points critiques.
Et si on veut tolérer quelques violations de contraintes le problème devient:

1.Maximisation de la marge en jouant sur l’équation de l’hyperplan
2.En normalisant W
3.Sous contrainte que tous les exemples d’apprentissage soient à peux près bien classés
4.Sans dépasser un seuil de tolérance total C
Salah Zidi 42
SVM
Ce qui revient à minimiser
Sous les contraintes
C est un paramètre de l’algorithme à déterminer (généralement par validation croisée).
La solution devient
Salah Zidi 43
SVM
SVM Non linéaire
 Impossible de trouver une séparation linéaire entre la classe rouge
et la classe bleu.
 La seule séparation possible est circulaire.
 On souhaite un changement de représentation pour permettre une
séparation linéaire entre les classe.

Salah Zidi 44
SVM
Dans le nouveau espace l’équation de l’hyperplan séparatrice est:
Pour trouver les coefficients α, il faut résoudre le problème d’optimisation
Le produit scalaire dans l’espace hermitien Φ(X) peut être remplacer par une fonction
noyau.
Salah Zidi 45
SVM
Le problème d’optimisation quadratique devient:
L’équation de l’hyperplan devient:
Salah Zidi 46
PLAN
Salah Zidi 47
K-MOYEN
K-MEANS
Salah Zidi 48
K-MOYEN
1. On commence par déterminer k (nombre de classes). Dans notre exemple k=3
2. On tire aléatoirement 3 individus. Ces 3 individus correspondent aux centres initiaux des 3 classes.
1 2
3. On calcule la distance entre les individus et chaque centre.
Salah Zidi 49
K-MOYEN 5. On calcule les centres de gravité des groupes qui
4. On affecte chaque individu au centre le plus proche.
deviennent les nouveaux centres
3
4
6. On recommence les étapes 3, 4 et 5 tant que les individus sont réaffectés à de nouveaux groupes après une itération.
Salah Zidi 50
RESEAUX DE NEURONES ARTIFICIELS
ANN: ARTIFICIAL NEURAL NETWORK
Salah Zidi 51
Modèle biologique
L’influx nerveux est assimilable à un signal électrique se
propageant comme ceci :
 Les dendrites reçoivent l’influx nerveux d’autres
neurones.
 Le neurone évalue l’ensemble de la stimulation reçue.
 Si elle est suffisante, il est excité : il transmet un signal
(0/1) le long de l’axone.
 L’excitation est propagée jusqu’aux autres neurones qui
y sont connectés via les synapses.
Salah Zidi 52
Principe des neurones Formels
 Pas de notion temporelle.
 Coefficient synaptique : coefficient réel.
 Sommation des signaux arrivant au neurone.
 Sortie obtenue après application d’une fonction de
transfert
Le modèle
• Le neurone reçoit les entrées x1, …, xi, …, xn.
• Le potentiel d’activation du neurone p est défini
comme la somme pondérée (les poids sont les
coefficients synaptiques wi) des entrées.
• La sortie o est alors calculée en fonction du seuil θ.
Salah Zidi 53
Perceptron linéaire à seuil
 n entrées x1, …, xn
 n coefficients synaptiques w1, …, wn
 Une sortie o
 Un seuil θ
Salah Zidi 54
 On ajoute une entrée supplémentaire x0 (le biais), avec le coefficient synaptique suivant:
w0 = − θ
 On associe comme
fonction de transfert la
fonction de Heavyside :
f(x) = 1 si x > 0
f(x) = 0 sinon
Salah Zidi 55
Algorithme de perception
On note S la base d’apprentissage. Initialiser aléatoirement les coefficients wi.

Répéter :
S est composée de couples (x, c) où : Prendre un exemple (x, c) dans S
 x est le vecteur associé à l’entrée (x0, x, 1 …, xn) Calculer la sortie o du réseau pour
l’entrée x
 c la sortie correspondante souhaitée Mettre à jour les poids :
Pour i de 0 à n :
On cherche à déterminer les coefficients (w0, w1, …, wn). wi = wi + μ ∗ (c − o) ∗ xi
Fin Pour
Fin Répéter
Salah Zidi 56
Salah Zidi 57
μ=1
x0 vaut toujours 1
Initialisation :
w0 = 0 ; w1 = 1 ; w2 = − 1
Donc : w0 = 0 ; w1 = 1 ; w2 = 1
Ce perceptron calcule le OU logique pour tout couple (x1 ; x2)
Salah Zidi 58
 μ bien choisi, suffisamment petit.

 Si μ trop grand : risque d’oscillation autour du minimum.
 Si μ trop petit : nombre élevé d’itérations.
 En pratique : on diminue graduellement ε au fur et à mesure des itérations.
 Si l’échantillon n’est pas linéairement séparable, l’algorithme ne converge pas.
 L’algorithme peut converger vers plusieurs solutions (selon les valeurs initiales des
coefficients, la valeur de μ, l’ordre de présentation des exemples).
 La solution n’est pas robuste : un nouvel exemple peut remettre en cause le perceptron
appris.
Salah Zidi 59
Apprentissage: règle de delta généralisée
 Somme pondérée des signaux
reçus (en tenant compte du biais).
 Puis application d’une fonction
de transfert (ou d’activation):
sigmoïde, log, sigmoïde tangente
hyperbolique, linéaire.
Salah Zidi 60
Apprentissage: règle généralisée
Apprentissage globale
Initialiser aléatoirement les coefficients wi.
Répéter :
Pout tout i :
∆wi = 0
Fin Pour
Pour tout exemple (x, c) dans S
Calculer la sortie o du réseau pour l ’entrée x
Pout tout i :
∆wi = ∆wi + μ ∗ (c − o) ∗ xi ∗ σ’(x.w)
Fin Pour
Fin Pour
Pour tout i :
wi = wi + ∆wi
Fin Pour
Fin Répéter
Salah Zidi 61
Apprentissage: règle généralisée
Apprentissage point par point

On ne calcule pas les variations de coefficients en sommant sur tous les exemples de
S mais on modifie les poids à chaque présentation d’exemple.
Initialiser aléatoirement les coefficients wi.
Répéter :
Prendre un exemple (x, c) dans S
Calculer la sortie o du réseau pour l ’entrée x
Pout i de 1 à n :
wi = wi + μ ∗ (c − o) ∗ xi ∗ σ’(x.w)
Fin Pour
Fin Répéter
Salah Zidi 62
Apprentissage par rétropropagation
Salah Zidi 63
Salah Zidi 64
Salah Zidi 65
Salah Zidi 66
Salah Zidi 67
Salah Zidi 68
Salah Zidi 69
Salah Zidi 70
Salah Zidi 71
Salah Zidi 72
MESURE DE PERFORMANCES
Salah Zidi 73
PLAN
Salah Zidi 74
DEEP LEARNING
Salah Zidi 75
APPRENTISSAGE PROFOND
Principe: Apprentissage profond vs Apprentissage automatique
Salah Zidi 76
Salah Zidi 77
CNN: Architecture
Salah Zidi 78
Réseau de Neurone Convolutif « CNN »
 Convolution : trouver les caractéristiques et appliquer des filtres Max

 Pooling : réduire la taille de l'image et garder les caractéristiques importantes.
 Flattening : convertir les informations prise de max pooling en un tableau a 1 dimension (vecteur).
 Full connection (connexion pleine) : établir toutes les connexions nécessaires(les couches cachées).
Salah Zidi 79
Convolution
 Une couche de convolution correspond à un filtre balayant l’image.
 En sortie on obtient une “image” appelée une “activation map”.
 En général, on applique un ensemble de k filtres.
Salah Zidi 80
Convolution
Salah Zidi 81
Paramètres de la couche de convolution
• Profondeur de la couche : nombre de noyaux de convolution

La Profondeur (ou nombre de neurones associés à un même champ récepteur)
• Le pas contrôle le chevauchement des champs récepteurs. Plus

Le Pas le pas est petit, plus les champs récepteurs se chevauchent et
plus le volume de sortie sera grand.
• La marge (à 0) ou zero padding : parfois, il est commode de

La Marge mettre des zéros à la frontière du volume d'entrée. Cette marge
permet de contrôler la dimension spatiale du volume de sortie.
Salah Zidi 82
ReLu(Rectified Linear unit)
Salah Zidi 83
Pooling
 Réduire la taille d’une images
 Pallier le phénomène d’ "overfitting".
Tout comme pour la convolution, on applique un filtre qu’on fait glisser sur l’image
Salah Zidi 84
Pooling
Salah Zidi 85
Couches entièrement connectées
 Chaque neurone est connecté à toutes les entrées
 Réseau neuronal multicouche standard
 Apprend des combinaisons non linéaires des caractéristiques pour créer des prédicats
Salah Zidi 86
Couches optionnelles
 Désactiver aléatoirement certains neurones sur la passe avant

 Empêche le débordement
Couche de Normalisation Dropout

Salah Zidi 87
CNN: Exemple réel
Alexnet Architecture - 2012
Salah Zidi 88
CNN: Exemple réel
 LeNet – C’est la première architecture réussie des réseaux convolutifs. Elle a été
développé par Yann LeCun en 1990 et elle était utilisé pour lire des codes postaux,
des chiffres simples, etc.
 Average pooling
 Sigmoid or tanh nonlinearity
 Fully connected layers at the end
 Trained on MNIST digit dataset
with 60K training examples
Salah Zidi 89
CNN: Exemple réel
 AlexNet – C’est le réseau qui a été présenté dans le défi de l’ImageNet en 2012.
C'est en fait le réseau qui a popularisé les réseaux Convolutional, car il a de loin surpassé
tous les autres concurrents. Il a été développé par Alex Krizhevsky, Ilya Sutskever,
et Geoff Hinton.
 Similar framework to LeNet but:
 Max pooling, ReLU nonlinearity
 More data and bigger model (7 hidden layers,
650K units, 60M params)
 GPU implementation (50x speedup over
CPU)
 Trained on two GPUs for a week
 Dropout regularization
Salah Zidi 90
CNN: Exemple réel
 GoogLeNet – Le vainqueur de l'ILSVRC 2014 était un réseau convolutif de Google. Ils ont
utilisé des couches de mise en commun moyennes pour réduire considérablement le nombre
de paramètres dans le réseau. Il y a plusieurs versions de suivi au GoogLeNet.
Salah Zidi 91
CNN: Exemple réel
 VGGNet – Réseau de neurones convolutionnels de Karen Simonyan et Andrew
Zisserman qui est devenu connu sous le nom de VGGNet. Ce réseau a prouvé que la
profondeur du réseau qui est essentiel pour de bonnes performances. Il a 16 couches
convolutives.
Salah Zidi 92
CNN: Exemple réel
 ResNet – Développé par Kaiming He et al. était le gagnant de ILSVRC 2015.
Salah Zidi 93
Recurrent Neural Network« RNN »
 Réseaux de neurone récurrents

 Trois couches au minium
 Des connexions récurrentes.
 Apprentissage à travers des
anciens états
 Problème de disparition de
gradient
Salah Zidi 94
Long Short-Term Memory LSTM
 C’est une architecture RNN

 Une des solutions du Problème
de disparition de gradient
Salah Zidi 95
PLAN
Salah Zidi 96
APPRENTISSAGE FEDERE
Apprentissage Centralisé vs Apprentissage Fédéré
Salah Zidi 97
Salah Zidi 98
Salah Zidi 99
ET SI ON VEUT RÉCAPITULER …
KPPV
Salah Zidi 100

ARBRE DE DECISION 2
1 KPPV
Salah Zidi 101

3 NAIVE BAYESIENNE
ARBRE DE DECISION 2
1 KPPV
Salah Zidi 102

SVM 4
3 NAIVE BAYESIENNE
ARBRE DE DECISION 2
1 KPPV
Salah Zidi 103

MLP 5
4 SVM
NAIVE BAYESIENNE 3
2 ARBRE DE DECISION
KPPV 1
Salah Zidi 104
6 K-MOYEN
MLP 5
4 SVM
NAIVE BAYESIENNE 3
2 ARBRE DE DECISION
KPPV 1
Salah Zidi 105
APPRENTISSAGE PROFOND 7
APPRENTISSAGE AUTOMTIQUE
6 K-MOYEN
MLP 5
4 SVM
NAIVE BAYESIENNE 3
2 ARBRE DE DECISION
KPPV 1
Salah Zidi 106
APPRENTISSAGE PROFOND 7
APPRENTISSAGE AUTOMTIQUE
6 K-MOYEN
MLP 5
4 SVM
NAIVE BAYESIENNE 3
2 ARBRE DE DECISION
KPPV 1
Salah Zidi 107
A completer …..
APPRENTISSAGE PAR RENFORCEMENT
PREPARATION DE DONNEES
1 EXTRACTION DE DONNEES
2 SELECTION D’ATTRIBUTS
Salah Zidi 108

Merci
Salah Zidi 109

IA Generative et Alors ?!!!
Salah Zidi 110

Formation IA

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Formation IA

Uploaded by

Copyright:

Available Formats

Journée de l’IA

4 APPRENTISSAGE NON SUPERVISE

4 APPRENTISSAGE NON SUPERVISE

 Imitation de l’intelligence naturelle.

 Ingénierie de fabrication des machines et programmes

 Concevoir des systèmes capables de reproduire le

 Traitement des connaissances (informations symboliques).

4 APPRENTISSAGE NON SUPERVISE

 Le modèle peut être mathématique et/ou graphique.

 Technique d’aide à la prise de décision.

 Prévision des résultats de prise de décision.

 Classification des données connus au profil de

 Les données massives (“Big data”) : mettant l’accent

 Aide à la prise de décision à partir de l’analyse

 Prédiction des états et de bonnes décision.

 Non supervisé: à partir d’un ensemble d’objets sans

 Semi-supervisé : à partir d’un petit ensemble d’objets

 Actif : à partir d’un petit ensemble d’objets avec pour chacun

4 APPRENTISSAGE NON SUPERVISE

 pi: la probabilité qu’un élément de S appartient à Si

 On choisi l’attribut a de gain d’information maximal

 On veut sélectionner celui dont la distance au plus

 Il s’agit d’un classifieur de marge maximale.

Et si on veut tolérer quelques violations de contraintes le problème devient:

Ce qui revient à minimiser

Sous les contraintes

C est un paramètre de l’algorithme à déterminer (généralement par validation croisée).

Pour trouver les coefficients α, il faut résoudre le problème d’optimisation

L’équation de l’hyperplan devient:

4 APPRENTISSAGE NON SUPERVISE

3. On calcule la distance entre les individus et chaque centre.

On note S la base d’apprentissage. Initialiser aléatoirement les coefficients wi.

 μ bien choisi, suffisamment petit.

Apprentissage point par point

4 APPRENTISSAGE NON SUPERVISE

 Convolution : trouver les caractéristiques et appliquer des filtres Max

 En sortie on obtient une “image” appelée une “activation map”.

 En général, on applique un ensemble de k filtres.

• Profondeur de la couche : nombre de noyaux de convolution

• Le pas contrôle le chevauchement des champs récepteurs. Plus

• La marge (à 0) ou zero padding : parfois, il est commode de

 Pallier le phénomène d’ "overfitting".

 Réseau neuronal multicouche standard

 Désactiver aléatoirement certains neurones sur la passe avant

Couche de Normalisation Dropout

Alexnet Architecture - 2012

 Réseaux de neurone récurrents

 C’est une architecture RNN

4 APPRENTISSAGE NON SUPERVISE

Salah Zidi 100

Salah Zidi 101

Salah Zidi 102

Salah Zidi 103

APPRENTISSAGE PAR RENFORCEMENT

Salah Zidi 108

Salah Zidi 109

Salah Zidi 110

You might also like