1. Introduction au Scénario
Thème : Messagerie HybrideGestion d'une interruption de service de messagerie
Dans ce scénario, vous allez simuler une crise d'infrastructure majeure. Un serveur Exchange ou relais SMTP sur site (on-premise) sature brusquement. Plus aucun courriel interne ou externe ne peut être acheminé, paralysant l'ensemble de l'entreprise.
Les Personnages
- Claire (Dir. Commerciale) : Bloquée car elle doit envoyer d'urgence une proposition de réponse à un appel d'offres stratégique.
- (Support N1) : Enregistre et qualifie l'incident. Applique une procédure d'urgence pour temporiser.
- (Admin N2 Sys/Réseau) : Diagnostique la cause profonde liée à la sauvegarde défectueuse du serveur Exchange.
- Le CAB (Comité) : Arbitre l'achat immédiat de stockage supplémentaire et valide le changement de l'agent de sauvegarde.
Objectifs de ce Travail Pratique
- Créer un incident critique avec une matrice d'impact réaliste.
- Ouvrir un problème pour traquer le bug sous-jacent (erreur de sauvegarde bloquant la purge des logs).
- Gérer une demande de changement d'urgence avec le CAB.
Le dysfonctionnement (Profil : Self-Service)
Contexte : Claire, directrice commerciale, tente d'envoyer l'offre finale d'un marché public à 11h. Outlook affiche en boucle l'erreur "Envoi/Réception - Erreur interne au serveur (0x80040115)". Plusieurs de ses commerciaux l'alertent qu'ils ne reçoivent plus aucun mail sur leurs téléphones.
Actions à réaliser dans GLPI :
- Passez sur l'interface Self-Service de GLPI.
- Allez dans Assistance > Créer un ticket.
- Saisissez les informations de l'incident :
- Type : Incident
- Catégorie : Réseaux & Télécoms > Messagerie
- Urgence : Très haute (Incapacité d'envoyer les offres commerciales)
- Titre : Panne générale de messagerie - Erreur Outlook bloquante
- Description : "Bonjour, plus personne au service commercial ne peut envoyer ou recevoir de mails. Outlook affiche une erreur de connexion. Nous devons déposer un dossier d'appel d'offres avant 14h, c'est critique !"
- Cliquez sur Soumettre le message.
- Prenez note du numéro d'incident qui servira d'identifiant pour la suite.
Traitement de premier niveau (Profil : Technicien N1)
Contexte : N1 reçoit le ticket au Helpdesk. En moins de 10 minutes, elle reçoit également 4 appels téléphoniques et 3 autres tickets d'autres services signalant le même blocage de messagerie.
Actions à réaliser dans GLPI :
- Revenez sur l'interface **Technicien** de GLPI.
- Ouvrez l'incident de Claire et assignez-le vous.
- Changement d'impact : Modifiez l'Impact à "Très élevé" car la panne est globale (tous les utilisateurs sont privés de mail). GLPI met automatiquement à jour la Priorité à Majeure / Critique.
- Contournement d'urgence : Publiez un **Suivi public** pour avertir les utilisateurs :
"Bonjour, nous constatons un dysfonctionnement général sur le serveur de messagerie. Nos équipes d'infrastructure sont mobilisées. Veuillez utiliser Teams pour toute communication urgente."
- Escalade : Ne pouvant rien faire au niveau de l'administration système du serveur physique, modifiez l'attribution en assignant le ticket au groupe **Support N2 - Système**.
Analyse de la cause profonde (Profil : Administrateur N2)
Analyse ITIL :(N2) se connecte à la console de virtualisation. Le serveur de messagerie (SVR-EXCH-01) est allumé, mais ses bases de données de boîtes aux lettres sont démontées. Le disque `E:\` (dédié aux journaux de transaction) affiche **0 octet libre**.
Actions à réaliser dans GLPI :
- Pour ne pas polluer l'incident de Claire avec des détails techniques complexes, créez un **Problème** lié.
- Allez dans **Assistance > Problèmes** et cliquez sur le bouton **Ajouter**.
- Remplissez le formulaire de problème :
- Titre : Saturation disque E:\ Journaux Exchange - Échec Sauvegarde
- Description : "Le serveur de messagerie a arrêté l'intégration de nouveaux messages car le disque des logs est plein à 100%. L'agent de sauvegarde Veeam n'a pas purgé les fichiers logs car la sauvegarde externe de cette nuit a échoué suite à un bug de l'agent."
- Impact : Majeur
- Allez dans l'onglet **Tickets** du problème fraîchement créé, et liez l'incident de Claire ainsi que les autres incidents similaires signalés.
- Contournement temporaire (Workaround) : N2 purge manuellement les journaux de transaction très anciens (uniquement ceux d'avant-hier) via une commande PowerShell sécurisée pour libérer quelques gigaoctets et remonter temporairement la base.
-> Notez cette action comme "Tâche" dans le Problème GLPI.
La Demande de Changement (RFC - Request for Change)
Justification : Afin de fiabiliser définitivement l'infrastructure, N2 décide qu'il faut mener deux actions majeures : d'une part **étendre le disque virtuel `E:\` de 200 Go** sur le SAN de production, et d'autre part **mettre à jour l'agent de sauvegarde défaillant**. Ces opérations présentent un risque d'interruption temporaire et requièrent l'approbation du CAB.
Actions à réaliser dans GLPI :
- Dans le menu de gauche de votre **Problème**, accédez à l'onglet **Changements**.
- Cliquez sur **Créer un changement** pour l'associer au Problème.
- Configurez les données du Changement :
- Titre : Extension disque Exchange Logs et correctif Agent Sauvegarde
- Catégorie : Systèmes > Stockage
- Description : "1. Extension du LUN Exchange sur le SAN de 200 Go. 2. Réinstallation de l'agent de sauvegarde Veeam pour corriger le bug de purge des logs transactionnels."
- Dans la section **Analyse** du changement :
- Plan de déploiement : Extension du disque à chaud sous vSphere puis extension de partition sous Windows Server. Arrêt temporaire des services Exchange (5 minutes) pour mettre à jour l'agent.
- Plan de retour arrière (Rollback) : Restauration de l'ancienne version de l'agent si la mise à jour échoue.
Approbation du CAB & Clôture du Cycle
Fin de crise : Le comité d'approbation (CAB) doit statuer immédiatement pour valider l'opération qui évitera une rechute de la messagerie.
Actions à réaliser dans GLPI :
- Dans l'onglet **Validations** de votre Demande de Changement, cliquez sur **Ajouter une validation**.
- Sélectionnez le groupe **CAB** (ou l'administrateur délégué) comme validateur.
- Simulez la décision : Passez la validation au statut **Accordé** en ajoutant le commentaire : "Changement approuvé. Extension autorisée à chaud immédiatement. Interruption de 5 min pour l'agent de sauvegarde validée pour ce soir 19h00."
- Traitement de la solution :
- L'extension du disque est réalisée et l'agent est réinstallé à 19h00.
- Passez le statut du **Changement** à **Clos**.
- Allez sur le **Problème**, décrivez la solution appliquée et passez le statut à **Résolu**.
- Automatisation : Clôturez le ticket d'incident initial de Claire. Les notifications de résolution lui sont automatiquement envoyées.
Bilan pédagogique ITIL :
Dans ce scénario, vous avez évité l'erreur classique qui consiste à fermer le ticket d'incident dès le nettoyage des disques. En traitant l'événement sous forme de Problème, vous avez mis en lumière l'échec de la sauvegarde, ce qui a permis au Changement de sécuriser définitivement l'infrastructure.