Professional Documents
Culture Documents
Fiche 03 - Les Données Structurées
Fiche 03 - Les Données Structurées
Problématique : Comment peut-on organiser les données numériques brutes pour les
exploiter (par des tables de données et des formats de lecture et d'enregistrement) et
comment peut-on les stocker (en particulier aujourd'hui dans le cloud).
Un professeur demande à ses élèves de différentes classes de faire des devoirs à la Définition :Une donnée est une
maison. Il les récupère, les corrige et les note. Il se retrouve avec plein de valeur (ou une information) se
«données» : des classes, des noms (ou prénoms ), des notes. Ces «données», il va rapportant à un objet .
chercher à les «exploiter» (faire des tableaux de notes pour une classe, regrouper les
informations concernant un seul élève, faire des moyennes par élève ou par Définition :Une donnée est
classe...). Avant, il avait un cahier (de notes) qui organisait déjà ces données avec structurée est une donnée
une table par classe mais maintenant il est possible de «traiter» ces données compréhensible par une
numériquement. Mais il va falloir les «structurer» pour les rendre lisibles et machine numérique (un
exploitables par une «machine» ( un ordi et des programmes de traitement de ordinateur le plus souvent). Elle
données). Les entreprises , les administrations disposent de masses colossales de s'exprime dans différents
données. Pensez simplement au lycée qui a collecté cette année (et tous les jours en formats d'écriture et
fait) une grande quantité de données sur ses élèves et son personnel. d'enregistrement(.csv...)
Voici une liste de données sur des élèves et qui concerne les résultats aux deux devoirs du trimestre 1
Paul, seconde 5, 10 au devoir 1, 8 au devoir 2, Sofia, seconde 5, 14 au devoir 1, 14 au devoir 2, Antoine, seconde
7, 17 au devoir 1, 18 au devoir 2, Léa, seconde 7, 20 au devoir 1, 18 au devoir 2
Ajoutez (et imaginez) deux séries de données pour deux autres élèves .
Un tableau ou table de données décrit une collection de données. La première ligne décrit les propriétés des éléments
de la table. Ce sont les descripteurs de la table (on dit aussi les champs). Les lignes suivantes sont appelées les objets
de la table et elles contiennent pour chaque case les données ( ou valeurs) .
Dans la liste d’élèves et de notes du début, combien il y a Dans la table en dessus, combien il y a
- de descripteurs ? (lesquels) - de descripteurs ?(lesquels)
- d'objets ? - d'objets ?
Vous avez écrit en CSV mais vous êtes dans un fichier de traitement de texte. Il faut donc réécrire votre
production CSV et l'enregistrer, toute seule, dans un fichier de ce format (avec cette extension : «.csv» )
Donc vous allez - Ouvrir l'application «bloc note» (un petit logiciel de traitement de texte qui doit être
dans les «accessoires» de Windows )
- Copiez-collez votre script (et éventuellement corrigez-le )
- Enregistrez-le sous le nom «resultats.csv» et n'oubliez pas d'écrire explicitement
l'extension.csv. car Bloc Note va vous proposer d'office un format d'enregistrement de
type .txt car c'est un traitement de texte et il suppose donc a priori que c'est ce format
que vous voulez.
- Ouvrez maintenant ce fichier avec un tableur (Calc de préférence ou Excel) et
regardez ce qui se passe ….
Vous avez produit des données structurées mais aussi commencé à «traiter» ces données structurées en faisant
apparaître une table de données. Dans une autre activité, on va faire des « opérations » sur une table (avec un
tableur): trier les descripteurs ou les objets, faire des opérations sur les données, des calculs ou des graphes si elles
sont des chiffres...
Cours sur les formats
Doc 1 – Quelques formats de données plus ou Doc 2 – Un cas particulier : les formats libres ou
moins connus ... ouverts (qui favorisent l'interopérabilité des fichiers)
Nous n'utiliserons surtout le format CSV. Et il faut faire attention au fait que la virgule est le séparateur standard pour
les données anglo-saxonnes, mais pas pour les données aux normes françaises puisque, en français, la virgule est le
séparateur des chiffres décimaux ( = "nombres à virgule"). C’est pourquoi on utilise un autre séparateur : le point-
virgule (;). Dans certains cas, le fait d'avoir comme séparateur une virgule ou un point-virgule peut engendrer quelques
problèmes. Il faut donc être vigilant sur le type de séparateur utilisé. Un tableur tel que "Calc" (de Libre Office) est
capable de lire sans défaut les fichiers au format CSV mais d'autres tableurs (comme Excel) gèrent moins bien le
séparateur CSV "point-virgule".
1. Aller sur ce site des données publiques de l'État français et dans le moteur de recherche tapez le mot
secours afin d'obtenir la dernière table de données sur les "Interventions réalisées par les services
d'incendie et de secours".
2. Télécharger le fichier le plus récent (au format CSV)
3. Ouvrir ce fichier avec Calc de LibreOffice.
Une fenêtre de prévisualisation s'ouvre si l'extrait de tableau – en bas- n'est pas lisible , changez le jeu de
caractères en passant à "Latin 3 (ISO-8859-3)". (premier menu déroulant). Vérifier si les séparateurs
( virgule et point virgule) sont cochés . Si vous les décochez vous pouvez voir l'effet sur la lecture des
données.
Vous devez voir apparaître au final dans Calc, quelque chose de proche de cela :
Vous pouvez compter les descripteurs (colonnes), Autre exemple pour ceux qui aime plutôt le football..
les objets (lignes) et les données de cette collection.
https://www.data.gouv.fr/fr/datasets/histoire-de-
lequipe-de-france-de-football/#