You are on page 1of 12

CHAPITRE 1

Introduction à
l’Analyse des Données
(AD)
1
Des données aux connaissances
Données : 100
Abstraction Information : l’eau bout à 100° Celsius
Connaissances : lorsque l’eau bout à 100°, les microbes seront éliminés
Complexité Compétences : maîtriser les conditions d’ébullition de l’eau pour qu’il soit stérilisé

Compétences

Informatique décisionnelle
Connaissances Produit : système d’intéligent
Niveau : Master

Information Informatique transactionnelle


Produit : système d’information
Niveau : Licence
Données
Compréhension 2
Zoom Out de la formation LMD inf
SI
Modélisation
Système (Conception)
d’information AD, RDF, FDD, APS, WM, SIG, MF
BD, DSS
Données
Implémentation ED-BDA
Software
(réalisation) TL-COMP, GL-IHM ASD, POO, DAW
Système Système Traitements
informatique Décisionnel (logiciel, Site web)
AAC, SMA PWA-W3D
SE LM PL TG
Autres
SR IA ROA (Optimisation) Réseau/Optimisation
Hardware ADO, …
Abstraction
Complexité

Compétences Informatique décisionnelle


Produit : système d’intéligent
Connaissances Niveau : Master

Information Informatique transactionnelle


Produit : système d’information
Niveau : Licence
Données
Compréhension 3
Zoom Out de la formation LMD inf
1+4 = 5
2+5 = 12
3+6= 21
8+11= ? 96

On cherche un modèle mathématique caché !!!


A+BA+A*B

DONNEES + PROGRAMME  RESULTAT

Le Machine Learning
L’informatique classique
Analyse des Données
L’AD est un ensemble de méthodes statistiques descriptives basées
sur le calcul matriciel et la géométrie.
C’est un « apprentissage parfois non supervisé (ACP, AFC, ACM, ACI)
et parfois supervisé (AFD)»

Chaque problème (données à analyser) a :


 Des points de vue (on essaye de choisir le meilleur)
 Des dimensions (on essaye de les réduire)

L’AD aide à faire ressortir les


«relations cachées» dans un grand
volume de données,
Ensuite «synthétiser» (regrouper (la flèche rouge))
ces dimensions (les flèches bleus) suivant ce qui les
rend homogènes, pour mieux les comprendre.
5
Les principaux objectifs de l’AD
Réduction des dimensions (nombre de
variables (colonnes)) : création de
nouvelles variables (artificielles) qui
synthétises les variables réelles
Corrélation = Cosinus

Cela permet de projeter ces données


(lignes) dans un espace réduit pour les
visualiser via le meilleur point de vue à fin
de les comprendre mieux

Quantité d’information dans un axe = sa variance = son inertie6


C’est une compression des données avec
un minimum de perte
Compression : réduire le nombre de colonnes (variables
(dimensions)) pas le nombre de lignes (expériences)
7
8
Principes de base l’AD
Poussée par « l’explosion du volume de données à manipuler » et « le
développement de l'informatique et des technologies stockage des données », les
4 principes de l’AD sont :

o « Trop de données tue la données » : il vaut mieux perdre quelques


détails pour gagner la clarté

o Il faut coupler la puissance du « traitement automatique » de


l’informatique et la « logique mathématique »

o Comme on dit expliquer par un graphe es mieux qu’expliquer par un


paragraphe, « un graphe fait parler les données »

o Aussi, « Le modèle doit suivre les données et non l'inverse »


9
CHAPITRE 2
Analyse Factorielle
(AF)

10
11
• Parce que les inconnues sont X1, X2, …,
Xp et λ, ce n’est pas un système linéaire !
• C’est un « système linéaire homogène »
dont on
• Cherche les « solutions non nulles ».
• Pour que ce système ait une solution
non nulle, il faut et il suffit que le
déterminant de A-λI

12

You might also like