1. Introduction au Scénario

Thème : Messagerie Hybride
Scénario de Production

Gestion d'une interruption de service de messagerie

Dans ce scénario, vous allez simuler une crise d'infrastructure majeure. Un serveur Exchange ou relais SMTP sur site (on-premise) sature brusquement. Plus aucun courriel interne ou externe ne peut être acheminé, paralysant l'ensemble de l'entreprise.

Les Personnages

  • Claire (Dir. Commerciale) : Bloquée car elle doit envoyer d'urgence une proposition de réponse à un appel d'offres stratégique.
  • (Support N1) : Enregistre et qualifie l'incident. Applique une procédure d'urgence pour temporiser.
  • (Admin N2 Sys/Réseau) : Diagnostique la cause profonde liée à la sauvegarde défectueuse du serveur Exchange.
  • Le CAB (Comité) : Arbitre l'achat immédiat de stockage supplémentaire et valide le changement de l'agent de sauvegarde.

Objectifs de ce Travail Pratique

  • Créer un incident critique avec une matrice d'impact réaliste.
  • Ouvrir un problème pour traquer le bug sous-jacent (erreur de sauvegarde bloquant la purge des logs).
  • Gérer une demande de changement d'urgence avec le CAB.

Le dysfonctionnement (Profil : Self-Service)

Contexte : Claire, directrice commerciale, tente d'envoyer l'offre finale d'un marché public à 11h. Outlook affiche en boucle l'erreur "Envoi/Réception - Erreur interne au serveur (0x80040115)". Plusieurs de ses commerciaux l'alertent qu'ils ne reçoivent plus aucun mail sur leurs téléphones.

Actions à réaliser dans GLPI :

  1. Passez sur l'interface Self-Service de GLPI.
  2. Allez dans Assistance > Créer un ticket.
  3. Saisissez les informations de l'incident :
    • Type : Incident
    • Catégorie : Réseaux & Télécoms > Messagerie
    • Urgence : Très haute (Incapacité d'envoyer les offres commerciales)
    • Titre : Panne générale de messagerie - Erreur Outlook bloquante
    • Description : "Bonjour, plus personne au service commercial ne peut envoyer ou recevoir de mails. Outlook affiche une erreur de connexion. Nous devons déposer un dossier d'appel d'offres avant 14h, c'est critique !"
  4. Cliquez sur Soumettre le message.
  5. Prenez note du numéro d'incident qui servira d'identifiant pour la suite.

Traitement de premier niveau (Profil : Technicien N1)

Contexte : N1 reçoit le ticket au Helpdesk. En moins de 10 minutes, elle reçoit également 4 appels téléphoniques et 3 autres tickets d'autres services signalant le même blocage de messagerie.

Actions à réaliser dans GLPI :

  1. Revenez sur l'interface **Technicien** de GLPI.
  2. Ouvrez l'incident de Claire et assignez-le vous.
  3. Changement d'impact : Modifiez l'Impact à "Très élevé" car la panne est globale (tous les utilisateurs sont privés de mail). GLPI met automatiquement à jour la Priorité à Majeure / Critique.
  4. Contournement d'urgence : Publiez un **Suivi public** pour avertir les utilisateurs :

    "Bonjour, nous constatons un dysfonctionnement général sur le serveur de messagerie. Nos équipes d'infrastructure sont mobilisées. Veuillez utiliser Teams pour toute communication urgente."

  5. Escalade : Ne pouvant rien faire au niveau de l'administration système du serveur physique, modifiez l'attribution en assignant le ticket au groupe **Support N2 - Système**.

Analyse de la cause profonde (Profil : Administrateur N2)

Analyse ITIL :(N2) se connecte à la console de virtualisation. Le serveur de messagerie (SVR-EXCH-01) est allumé, mais ses bases de données de boîtes aux lettres sont démontées. Le disque `E:\` (dédié aux journaux de transaction) affiche **0 octet libre**.

Actions à réaliser dans GLPI :

  1. Pour ne pas polluer l'incident de Claire avec des détails techniques complexes, créez un **Problème** lié.
  2. Allez dans **Assistance > Problèmes** et cliquez sur le bouton **Ajouter**.
  3. Remplissez le formulaire de problème :
    • Titre : Saturation disque E:\ Journaux Exchange - Échec Sauvegarde
    • Description : "Le serveur de messagerie a arrêté l'intégration de nouveaux messages car le disque des logs est plein à 100%. L'agent de sauvegarde Veeam n'a pas purgé les fichiers logs car la sauvegarde externe de cette nuit a échoué suite à un bug de l'agent."
    • Impact : Majeur
  4. Allez dans l'onglet **Tickets** du problème fraîchement créé, et liez l'incident de Claire ainsi que les autres incidents similaires signalés.
  5. Contournement temporaire (Workaround) : N2 purge manuellement les journaux de transaction très anciens (uniquement ceux d'avant-hier) via une commande PowerShell sécurisée pour libérer quelques gigaoctets et remonter temporairement la base.
    -> Notez cette action comme "Tâche" dans le Problème GLPI.
⚠️
Attention : Le nettoyage manuel permet de relancer le service quelques heures (Workaround), mais le problème de fond demeure. La prochaine sauvegarde va encore échouer et le disque saturera à nouveau sous 24h. Il faut une action corrective définitive.

La Demande de Changement (RFC - Request for Change)

Justification : Afin de fiabiliser définitivement l'infrastructure, N2 décide qu'il faut mener deux actions majeures : d'une part **étendre le disque virtuel `E:\` de 200 Go** sur le SAN de production, et d'autre part **mettre à jour l'agent de sauvegarde défaillant**. Ces opérations présentent un risque d'interruption temporaire et requièrent l'approbation du CAB.

Actions à réaliser dans GLPI :

  1. Dans le menu de gauche de votre **Problème**, accédez à l'onglet **Changements**.
  2. Cliquez sur **Créer un changement** pour l'associer au Problème.
  3. Configurez les données du Changement :
    • Titre : Extension disque Exchange Logs et correctif Agent Sauvegarde
    • Catégorie : Systèmes > Stockage
    • Description : "1. Extension du LUN Exchange sur le SAN de 200 Go. 2. Réinstallation de l'agent de sauvegarde Veeam pour corriger le bug de purge des logs transactionnels."
  4. Dans la section **Analyse** du changement :
    • Plan de déploiement : Extension du disque à chaud sous vSphere puis extension de partition sous Windows Server. Arrêt temporaire des services Exchange (5 minutes) pour mettre à jour l'agent.
    • Plan de retour arrière (Rollback) : Restauration de l'ancienne version de l'agent si la mise à jour échoue.

Approbation du CAB & Clôture du Cycle

Fin de crise : Le comité d'approbation (CAB) doit statuer immédiatement pour valider l'opération qui évitera une rechute de la messagerie.

Actions à réaliser dans GLPI :

  1. Dans l'onglet **Validations** de votre Demande de Changement, cliquez sur **Ajouter une validation**.
  2. Sélectionnez le groupe **CAB** (ou l'administrateur délégué) comme validateur.
  3. Simulez la décision : Passez la validation au statut **Accordé** en ajoutant le commentaire : "Changement approuvé. Extension autorisée à chaud immédiatement. Interruption de 5 min pour l'agent de sauvegarde validée pour ce soir 19h00."
  4. Traitement de la solution :
    • L'extension du disque est réalisée et l'agent est réinstallé à 19h00.
    • Passez le statut du **Changement** à **Clos**.
    • Allez sur le **Problème**, décrivez la solution appliquée et passez le statut à **Résolu**.
    • Automatisation : Clôturez le ticket d'incident initial de Claire. Les notifications de résolution lui sont automatiquement envoyées.

Bilan pédagogique ITIL :

Dans ce scénario, vous avez évité l'erreur classique qui consiste à fermer le ticket d'incident dès le nettoyage des disques. En traitant l'événement sous forme de Problème, vous avez mis en lumière l'échec de la sauvegarde, ce qui a permis au Changement de sécuriser définitivement l'infrastructure.