Welcome to Scribd. Sign in or start your free trial to enjoy unlimited e-books, audiobooks & documents.Find out more
Download
Standard view
Full view
of .
Look up keyword or section
Like this
42Activity

Table Of Contents

À qui s’adresse ce livre
Avant-propos
Ce que ce livre n’est pas
Progression dans le livre et ordre de lecture
Les différentes parties
Guide de lecture
Remerciements
Être alerté en temps réel
Les problèmes sont inévitables
Intérêt de la supervision et de la métrologie
Les utilisateurs: un moyen de supervision peu fiable et pas toujours agréable
Pouvoir remonter à la source des problèmes
Éviter l’effet domino
Un historique pour remonter à la source des problèmes
Être proactif face aux problèmes
Les signes annonciateurs
Les problèmes n’attendent pas les utilisateurs
Une demande fréquente de la direction
Améliorer la disponibilité effective des applications
Les différents ressentis vis-à-vis des performances
Gérer les priorités: la production avant tout
Tailler au plus juste le système d’information
Surveiller plus que le système d’information
Un ordonnanceur?
Supervision physique d’une salle machine
En un mot
Plus qu’un outil: un projet à part entière
Revoir ses processus
Une répartition de la charge de travail
La supervision doit évoluer avec le SI
Un outil faisant le lien entre les services
Une mise en place progressive
La tentation de tout superviser
Faire accepter le projet de supervision à ses supérieurs
Faire accepter l’outil par le plus grand nombre
Intérêt de faire adhérer toute l’équipe à l’outil
Limiter le nombre d’alertes et les hiérarchiser
L’abandon face à un trop grand nombre d’alertes: une réaction naturelle
Rendre très clair le niveau d’importance de chaque alerte
Alerter uniquement les bonnes personnes
Pour un problème donné, une alerte, et une seule
L’automatisation complète: régler automatiquement les problèmes?
Des indicateurs aussi simples et clairs que possible
Le problème du messager
Big Brother is watching you ?
La conduite du changement
Beaucoup d’indicateurs de performance, est-ce utile?
Le nombre d’indicateurs est important
Quelle durée de conservation des données?
Des échelles simples
Superviseur mais également hyperviseur
La dure réalité de la supervision
Une seule console de supervision
Méthodes d’obtention des informations
La modularité: réduire si possible le nombre de superviseurs
Choix d’une licence open source
Le besoin d’adaptabilité et de modularité
Transparence du mécanisme de remontée d’alerte
De très bonnes performances
Mise en commun des expériences
Critères de sélection d’un projet open source
Un monde particulier, avec ses propres règles
Importance de la communauté
Assistance aux entreprises
Le choix de Nagios
Histoire de Nagios
Nagios ne fait rien sans ses plug-ins
Position de Nagios par rapport à la métrologie
Atouts de Nagios par rapport aux autres outils open source
Zabbix: la supervision simplement
Cacti: la métrologie avec SNMP
OpenNMS: la supervision très SNMP
Ganglia: la métrologie des clusters
Zenoss: très bonne supervision, mais pas complètement libre
Orientation vers une totale modularité: tout est plug-in
La modularité de Nagios: le rôle des plug-ins
Des plug-ins pour avertir ou réagir
Capacité à gérer un parc important de machines
Performances de Nagios
Gestion de la configuration
Pertes massives: la solution des dépendances
Architecture générale
Méthodes d’obtention d’informations
Méthode active – les alertes à l’initiative de Nagios
Obtention sans rebond
Obtention avec rebond
Méthode passive: les alertes à l’initiative des éléments distants
Données à définir dans Nagios
Commandes de vérification
Arguments des commandes
Périodes de temps
Définition des périodes de temps
Version simple
Version plus complète
Commandes de notification
De simples commandes
Une grande liberté
Hôtes
États d’un nœud
Définition d’un hôte
Exemple de définition
Services
États des services
Définition d’un service
Importance des services
Contacts: qui et comment ?
Définition d’un contact
Exemple de définition de contact
Plus d’une manière de notifier un même contact
Groupes de contacts
Plug-ins d’obtention d’informations: les sondes
Intérêt des codes retour
Une vérification simple du bon fonctionnement d’un programme
Exemple de code retour
Codes retour recommandés
Positionner nos propres codes retour
Aspect supervision de Nagios
Interprétation des codes retour par Nagios
Affichage des informations de retour
Conception d’un script de vérification
Étapes d’un script de vérification
Codes retour non prévus
Éléments complexes des plug-ins de vérification
Communication entre les Nagios
Partie métrologie
Spécifier des données de performances dans les plug-ins
Exemple de données de performances
Arguments, macros et variables d’environnement
Macros
Variables d’environnement
Ordonnancement des vérifications et des notifications
Ordonnancement initial des vérifications
Étaler la charge sur les machines
Étaler les vérifications sur le serveur Nagios
Étaler les vérifications sur les machines distantes
Types d’état SOFT et HARD
Exemple de changement de type d’état
Un état SOFT un peu particulier: SOFT-RECOVERY
Notifications de problèmes
Notifications: le but des types d’état SOFT et HARD
Renvoi de notifications
Exemple d’ordonnancement des notifications
Notifications: la configuration des contacts prime
En cas de problème persistant: l’escalade des notifications
Lorsque les problèmes perdurent: on appelle un ami
Bien penser à l’aspect psychologique d’une telle mise en place
Définition dans Nagios
Exemple d’escalade
Cas des notifications de type recovery
Destination de toutes les informations récoltées
Informations d’état, d’alerte et de notification
En cas de redémarrage: le fichier status.sav
Un module d’export de données: NDOUtils
Comment donner un ordre à Nagios
Fonctionnement de la communication
Ce qu’on peut lui demander
Prise en compte d’un état
Forcer un résultat de vérification d’un service
Tests directs sur le réseau
Premier niveau de test: réponse d’un nœud sur le réseau
Tests applicatifs simples
Test des ports réseau
Un test simple et léger
Test d’un port TCP
Un test suffisant pour la disponibilité d’un hôte
Test des services web
Principe des tests HTTP
Le plug-in check_http
Cas des services web à accès sécurisés : authentification, HTTPS
Jouer un scénario plus complexe avec Webinject
Test des services DNS
Méthode de supervision des DNS
Exemple de test DNS
Test des annuaires LDAP
Méthode de supervision
Exemple d’interrogation LDAP
Supervision du DHCP
Un élément indispensable pour les clients
Sonde check_dhcp
Problèmes de droits
La commande sudo
Le bit SUID
Supervision de la messagerie
Supervision d’une base MySQL ou PostgreSQL
Lorsque de simples vérifications réseau ne suffisent pas: les agents
Rôle des agents
Principaux agents disponibles
NRPE: lancer des plug-ins à distance
Fonctionnement de NRPE
Fichier de configuration principal
Gérer les exceptions de configuration
Lancement de l’agent
Exemple d’interrogation
SSH peut également faire l’affaire
Lancement de commandes à travers SSH
Problème de l’authentification
Utilisation de SSH à la place de NRPE
SNMP: une liste de données exportées
Le protocole SNMP et les OID
Exemple d’interrogation SNMP
SNMP sur les serveurs
NSClient++: des plug-ins et des données
Mise en place
Un peu plus que des valeurs immédiates
Importance de WMI
Objectifs de cette mise en place
Première installation: simplicité
Choix du système
Installation par le gestionnaire de paquetages
Avantages de l’installation par paquetage
Quelques désavantages
Installation des paquetages
Principaux fichiers de configuration de Nagios
Mise en place de la vérification
Description de l’environnement supervisé
Commandes d’envoi d’e-mails
Configuration des périodes
Configuration des contacts dans contacts.cfg
Commande de vérification des hôtes
Configuration des services
Commande de vérification des services web
Configuration des services web
Définition des fichiers de configuration dans nagios.cfg
Lancement de Nagios
Test de détection d’un problème
Complexifions un peu l’architecture
Supervision des systèmes
Importance de la supervision système
Supervision du serveur de supervision
Prise en compte de localhost par Nagios
Supervision des systèmes distants
Mise en place de la console de supervision
Une brique utile dans la solution de supervision
Une interface qui évolue
Mise en place de l’interface web
Implications d’une augmentation du nombre d’éléments
Une augmentation inévitable du nombre de nœuds
Une augmentation dangereuse du nombre de notifications
Une lourdeur croissante de la configuration
Options avancées de Nagios
De l’intérêt de filtrer correctement les alertes
Trier les alertes et améliorer leur pertinence
Concision des alertes
Concision et précision
Exemple d’e-mail d’alerte
Exemple de SMS
Bien choisir le niveau d’erreur
Criticité
Difficulté de définir les niveaux de criticité
Des niveaux évoluent amenés à évoluer
Une seule alerte par erreur
Diminuer encore le nombre d’alertes
Les différentes supervisions
Réaction de Nagios
Dépendances réseau
Problématique des pertes réseau
Solution: les dépendances réseau
Définition d’une relation de supervision
Dépendances applicatives
Dépendances entre services
Plusieurs dépendances pour un même service
Héritage des dépendances
Se concentrer sur les vraies alertes: la production
Les notifications: réservées à la production
Les différents environnements
Astreintes
Du rouge dans la console de supervision: à réserver à la production
Tirer avantages des périodes
Des alliées précieuses
Périodes de supervision
Périodes de notification
Que faire dans le cas de simples pertes de connexion?
Des pertes inévitables
Dans la peau d’un utilisateur
Des sur-couches pour éviter la prolifération de plug-ins
Moins de plug-ins, plus de choix
Diminuer de niveau d’alerte
Pour se limiter à la métrologie
Supprimer la métrologie
Comment obtenir le résultat inverse d’une commande
Égayer (un peu) les alertes
Le fond et la forme
Un peu de couleur dans un monde de brutes
Alertes en flux RSS
Un vecteur d’information très employé et pratique
Mise en place de rss-multiuser
Exemple de flux
Alertes par SMS
Canaux d’alerte non conventionels
Des moyens d’alerte originaux
Lecture d’un son
Alerte sur l’écran LCD du clavier
Le lapin qui chante et qui danse
Le lance-roquettes USB
Les réactions sur alertes, ou comment régler automatiquement les problèmes
Une solution séduisante à double tranchant
Gestionnaires d’événements
Définition
Gestion de l’effet «yoyo»
Une tempête de messages
Méthode de détection
Exemple de détection
Gestion des périodes de maintenance
Comment vérifier les fichiers journaux
Méthode de vérification des journaux
Services particuliers : journaux, alertes SNMP
Une supervision primordiale
Une analyse par morceaux
Exemple de plug-in de vérification des journaux
Problème des tests consécutifs
Tests suivants
Test en état OK
Erreur de moindre importance
Erreur de même criticité
Configuration au sein de Nagios: la volatilité
Quand chaque changement est important
Lorsque la volatilité est de trop
Suivi précis des états
Exemple de paramétrage
Services passifs: exemple de gestion des alertes SNMP (traps)
Intérêt des services passifs
Les vérifications actives ne peuvent pas tout
Donner l’information d’état à Nagios
Notion de «fraîcheur» d’un état
Limites des alertes passives simples
Comme pour le poisson, la fraîcheur est importante
Un plug-in toujours en erreur pour prévenir les administrateurs
Exemple de configuration
Positionnement correct du seuil de fraîcheur
Comment gérer les traps SNMP
Configuration de SNMPTRAPD
Configuration de SNMPTT
Configuration du service TRAP pour la réception des alertes
Exemple de réception d’une alerte SNMP
Réception et traitement des alertes passives distantes
Un moyen efficace de récolter les états distants: NSCA
Son fonctionnement
Configuration du démon
Configuration du client
Lancement du démon et du client
Exemple d’application: traitement des journaux par un service distant
Un type de vérification particulier: surveiller un cluster
Des clusters variés
Supervision des services réels
En actif/actif
En actif/passif
Avoir une vue agrégée du cluster
Plug-in check_cluster
Macros à la demandes
Exemple de tests du cluster
Ne pas oublier la vue utilisateur
Techniques de gestion de configuration
Factoriser pour traiter les nœuds similaires
L’héritage de configuration pour les grands environnements
Gérer les exceptions
Gérer simplement une configuration complexe
Héritage de même type: définition de modèles
Factorisation simple
Factorisation par modèle
Mise en place dans Nagios
Héritage sur les services et les contacts
Cascade d’héritages
Arbre d’héritage
Exemple d’arbre d’héritage
Héritages multiples
Avoir plus d’un modèle
Définition au sein de Nagios
Ordre d’héritage entre modèles
Priorité à la première valeur assignée
Exemple d’ordre d’héritage
Réduction de la configuration: application des services sur les groupes de nœuds
Groupes de machines
Ajout de services à un groupe
Définir un service sur un groupe de nœuds
Définition et exemple
Gestion des exceptions
Héritage implicite: hériter d’un autre type
Problèmes soulevés par l’association des services aux groupes
À chaque problème sa solution
Rechercher les informations dupliquées
Exemple d’héritage implicite
Une solution à ne pas utiliser systématiquement
Héritages des macros variables: généralisation de l’héritage implicite
L’intérêt des macros variables
Exemple d’utilisation
Héritage additif: ajouter une valeur au lieu de l’écraser
Limites des modèles simples et solution de Nagios
Héritage additif sur héritage implicite
Héritages: ordre de succession
Impact de cette puissance de configuration
Les performances: une problématique complexe
Des besoins divers
Pousser Nagios dans ses derniers retranchements
Un ordonnancement coupable
Une rétention trop élevée
Observer les performances de Nagios
Latence: Nagios nous montre s’il tourne au ralenti
Latence des ordonnanceurs
Mesure de la latence: nagiostats
Exemple de sortie de nagiostats
Supervision de la latence
Méthodologie de test de performances
Une myriade de services sur un nœud
Configuration nécessaire
Une situation idéale
Exemple d’utilisation d’ePN
Tester un script avec l’interpréteur intégré
Spécifier à Nagios d’utiliser ou non ePN
Mise en place progressive d’ePN
NRPE ou SSH
Des vérifications actives aux passives
La virtualisation malheureusement encore déconseillée
Options de configuration augmentant les performances
Mécanismes de cache de Nagios
Vérifications supplémentaires
Réutilisation des états en mémoire
Performances contre précision
Trouver un bon cache hit ratio
Options spécifiques aux environnements très étendus
Suppression des variables d’environnement
Nettoyage de l’espace mémoire des plug-ins
Suppression de la double duplication
Utilisation conjointe des trois techniques
Positionnement des fichiers intermédiaires
Systèmes de fichiers en mémoire
Fichier status.dat
Répertoire checkresults
Impact des fichiers temporaires en mémoire
Consommation de RAM de Nagios
Architectures distribuées
Haute-disponibilité
Un Nagios dans l’ombre d’un autre: la voie active/active
Haute-disponibilité et répartition de charge
Deux Nagios actifs à la fois
Superviser un Nagios
Réaction face à la perte du Nagios maître
Limiter la période de brouillard
Synchroniser les deux Nagios
Un Nagios dormant de secours: la méthode active/passive
Un seul Nagios actif à la fois
Problème des états précédents
Relais par le Nagios secondaire
Éparpillement des données de métrologie
Répliquer NSCA
Répartition de charge: à chaque Nagios sa tâche
Centraliser les informations, pas la charge
Une architecture distribuée avec les commandes externes
Simplification de la répartition avec NDO
NDOMOD: un nouveau type de module
Le module Ndomod: exporter les données
Ndo2db: recevoir les données et les placer dans une base
Architecture de supervision distribuée avec NDOUtils
Répartition de charge par Worker (DNX)
Une nouvelle utilisation de l’event broker
Module serveur
Clients DNX
Avantages et inconvénients
Utilisation de DNX et NDO
Répartition de charge à haute-disponibilité
Le besoin accru de disponibilité
À chaque Nagios son ombre
Haute-disponibilité pour NDO2DB
Un service important à doubler
Mise en place de HeartBeat
Adresse virtuelle pour NSCA
Supervision de HeartBeat
Écosystème de Nagios et mise en place de la solution
Intérêt de tels outils
Une configuration longue et fastidieuse
Outils d’aide à la configuration: l’exemple de Centreon
La gestion simultanée des aspects de métrologie
La solution Centreon
Mise en garde: limites des outils de gestion de configuration
Les outils ne font pas tout
Nagios avance vite
Des fonctionnalités à utiliser avec parcimonie
Centreon, le meilleur ami de votre Nagios
Un outil incontournable
Une évolution constante
Une nouvelle gestion de la métrologie
Une gestion simple des alertes SNMP (traps)
Des architectures distribuées enfin simples
Aspect configuration: le cœur de Centreon
Les configurations passées ne sont pas oubliées
Des possibilités de configuration bien connues
D’autres un peu plus particulières
Moins d’utilisation du shell
Aspect supervision des alertes
Une console très pratique
Obtention de toutes ces informations
Un historique des alertes
Restrictions d’accès
Des informations privées
Diminuer le nombre d’éléments affichés
Des accès en modification à surveiller
Gestion des accès selon Centreon
Centreon, gestionnaire de la métrologie
CentStorage: le gestionnaire des données de performances
Destination des informations
Accès aux courbes
Des informations sur les performances de Nagios
Centreon facilite la gestion des alertes SNMP
Un chargement et une compilation automatique
Remontée d’alertes de SNMPTT vers Nagios
Centreon pour gérer Nagios en distribué
Une configuration complexe
Les Nagios distants: des pollers
Associations poller/hôtes
Envoi des configurations
Des Nagios presque indépendants
Métrologie issue des satellites
Des notifications à repenser
Agrégation de vues avec NagVis
Mise en relief des informations importantes
Au-delà de la supervision: cartographie et reporting
Des consoles qui ne se vident pas
Des alertes plus ou moins critiques
Écrans publics et écrans privés
Choisir les informations à afficher
Sélection des alertes sur les écrans publics
Sélection des alertes sur les écrans privés des administrateurs
Lutter contre la tentation de multiplier les indicateurs
Des vues hiérarchisées d’indicateurs
Vues de différents types: logique, physique, géographique
Représenter graphiquement la prise en compte des erreurs
Localiser et illustrer les erreurs
Fonctionnement de NagVis pour cartographier les erreurs
Disposition des indicateurs sur une carte de supervision
Choix des images par l’administrateur
Images des éléments supervisés
Bibliothèque d’images libres
Récupération des états
Ndomy: lecture depuis une base MySQL (ndo2db)
Ndo2fs: lecture depuis des fichiers plats
Rotation des vues dans NagVis
Mise à jour automatique des cartes à l’ajout d’un noeud
Reporting dans Nagios
De l’importance d’une analyse plus globale et dans le temps
Définir les indicateurs : une mission délicate
Le module de reporting de Centreon
Les différentes possibilités de mise en place
Installation à partir de paquets
Compilation et installation de Nagios, Centreon et NagVis
Compilation depuis les sources
Mise en place complète automatique avec FAN
Installation manuelle complète – à titre didactique
Compilation et installation de Nagios
Récupération du programme Nagios
Pré-requis de Nagios
Phases de l’installation de Nagios
Compilation de NDOUtils
Récupération et compilation de NDOUtils
Création de la base pour NDO
Installation de NDO
Installation des sondes de Nagios
Installation de Centreon
Pré-requis à l’installation
Récupération et installation de Centreon
Configuration de Centreon
Mise en place de NagVis pour l’agrégation de vues
Installation de NagVis
Configuration de NagVis
Configuration des droits sur NagVis
Mise en place de la base de connaissances
Un wiki comme gestionnaire de base de connaissance
Installation de MediaWiki
Mise en place de la sauvegarde avec mysqldump
Obtention des indicateurs
Sur les systèmes Linux
Aide à l’interprétation des indicateurs classiques
Informations globales
Informations relatives aux processus
Analyse des informations
Sur les systèmes Windows
L’existence d’un indicateur de charge globale
Une question récurrente
Définition de la charge moyenne, ou load average
Processus pris en compte
Moyennes exponentielles
Exemples de courbes
Représentation visuelle du load average
Systèmes typiques
Système sous-dimensionné
Système bien dimensionné
Système sur-dimensionné?
Changement de point de vue
Analyse contradictoire
Attentes des utilisateurs
Une analyse variable de la charge
Deux indicateurs valent mieux qu’un
Limites du load average considéré seul
Analyse du load average
Charge des processeurs
Un indicateur important
Éléments réseau
Le reste de la supervision système
Espace disque
Une ressource importante
Seuils d’alerte
Sondes de supervision
Montages NFS
Agrégats réseau
État des imprimantes
Services lancés automatiquement
Redémarrage des machines
Indicateurs physiques
Alertes prioritaires
Température et humidité
La température: une valeur très variable
L’humidité: variable suivant la saison
Consommation électrique
Récupération des informations sur le système à superviser
Configuration appliquée à un système imaginaire
Conception de l’architecture de supervision
Regroupement par type: système, réseau, applicatifs
Procéder par étape
Groupes d’administrateurs et contacts
Groupes de machines à superviser
Packs de sondes à mettre en place
L’indispensable base de connaissances
Configuration de Nagios dans Centreon
Un ou plusieurs Nagios
Configuration d’un Nagios
Fichiers journaux et autres
Options de vérification
Options de timeout
Interaction avec NDO
Options de performances
Pages de débogage
Configuration de NDO dans Centreon
Accès à la base de données (NDO2DB)
NDOMOD
Application des techniques d’héritage dans Centreon
Choix de la méthode de configuration
Configuration des commandes et des contacts
Des commandes déjà configurées
Facilités de configuration apportées par Centreon
Configuration des sondes check_nrpe et check_nt
Commande d’envoi des e-mails
Choix des indicateurs représentés
Une hiérarchie de cartes à respecter
Des exemples de cartes pour les administrateurs
Une solution pleinement fonctionnelle
Conclusion et perspectives
Nagios, une solution en constante évolution
Supervision des ressources système locales
Les principales sondes
La supervision de l’état physique de la machine
La supervision des applications locales
La supervision des services distants
La supervision des systèmes distants
Les sondes utilitaires pour Nagios
Déclaration des fichiers
Options de configuration de nagios.cfg
Configuration de la supervision
Chargement des modules
Options de journalisation
Configuration de l’ordonnancement
Options de localisation
Options de débogage et de performances
Index
0 of .
Results for:
No results containing your search query
P. 1
Nagios Supervision

Nagios Supervision

Ratings: (0)|Views: 6,083|Likes:
Published by Nicolas

More info:

Published by: Nicolas on Oct 13, 2010
Copyright:Attribution Non-commercial

Availability:

Read on Scribd mobile: iPhone, iPad and Android.
download as PDF, TXT or read online from Scribd
See more
See less

05/15/2013

pdf

text

original

You're Reading a Free Preview
Pages 11 to 275 are not shown in this preview.
You're Reading a Free Preview
Pages 286 to 427 are not shown in this preview.
You're Reading a Free Preview
Pages 439 to 461 are not shown in this preview.
You're Reading a Free Preview
Pages 472 to 512 are not shown in this preview.

Activity (42)

You've already reviewed this. Edit your review.
1 hundred reads
1 thousand reads
Zakaria Qarrouti liked this
Kane Ka liked this
bouhaiji liked this
Mouelhi Omar liked this
White21 liked this
Mouelhi Omar liked this

You're Reading a Free Preview

Download
scribd
/*********** DO NOT ALTER ANYTHING BELOW THIS LINE ! ************/ var s_code=s.t();if(s_code)document.write(s_code)//-->