Constituer une équipe de gestion des incidents informatiques de premier ordre

Une erreur humaine - une erreur très basique - a fait souffrir British Airways. une panne informatique le 27 mai 2017qui a dû annuler plus de 400 vols et laisser 75 000 passagers en rade. Un ingénieur avait débranché une alimentation électrique dans un centre de données, et lorsqu'elle a été rebranchée, une surtension a causé des dommages importants. Coût net pour la compagnie aérienne : 80 millions de livres sterling. (environ $102 millions).

Cela peut sembler beaucoup d'argent - et c'est le cas - mais selon StatistaCe n'est pas inhabituel. Le coût moyen par heure d'indisponibilité pour 86% des entreprises est supérieur à $300 000. Et les heures s'additionnent rapidement.

Le site Étude d'impact des pannes informatiques en 2019 a constaté que l'organisation type a subi 10 pannes brunes (lorsque l'infrastructure ou le logiciel fonctionne à un niveau dégradé) ou pannes totales au cours des trois dernières années. Ces 10 incidents représentent facilement des millions de dollars.

Il n'est donc pas surprenant que 80% des entreprises déclarent que les performances et la disponibilité de leur infrastructure informatique figurent en tête de leur liste de préoccupations. Plus de la moitié d'entre elles craignent de subir une panne si dévastatrice qu'elle fera la une des journaux. Et si un tel événement se produit, 53% s'attendent à ce que des têtes tombent et que quelqu'un perde son emploi.

Et même s'il serait agréable de pouvoir simplement automatiser les réponses aux problèmes informatiques, "la réponse aux incidents a besoin de personnes, parce qu'une réponse réussie aux incidents exige de la réflexion", écrit Bruce Schneier, dans son blog, Schneier on Securityen 2014. Ce dont vous avez besoin : une équipe de gestion des incidents informatiques (majeurs) avec des rôles et des responsabilités clairement définis, formée pour assumer ces responsabilités en suivant un processus éprouvé en cas de crise tout en communiquant efficacement avec les responsables, les clients et les experts en la matière.

Le côté humain des pannes

C'est là que réside le problème. Près de la moitié (47%) des répondants à une enquête sur le SAN ont déclaré que le manque de personnel et de compétences était leur plus grand défi pour répondre efficacement aux incidents. En effet, l'étude 2019 de l'Uptime Institute qualifie désormais de crise le problème du personnel informatique. Soixante et un pour cent (61%) des personnes interrogées ont déclaré avoir des difficultés à conserver ou à recruter du personnel, contre 55% l'année précédente.

C'est important car 60% des organisations pensent que leur plus récent événement d'indisponibilité significative était évitable. Si elles avaient eu une meilleure gestion, de meilleurs processus ou de meilleures configurations, la panne aurait pu être évitée, disent-elles. Pour les pannes dont le coût est supérieur à $1 million, ce chiffre grimpe à 74%.

"En sous-investissant dans la formation, en ne faisant pas appliquer les politiques, en laissant les procédures devenir obsolètes et en sous-estimant l'importance d'un personnel qualifié, la direction prépare le terrain pour une cascade de circonstances qui conduisent à des temps d'arrêt", a écrit Kevin Heslin, rédacteur en chef de l'Uptime Institute Journal dans un article de septembre 2019. article de blogà propos de l'enquête.

Recrutement de l'équipe de gestion des incidents informatiques

Un incident est tout événement inattendu qui perturbe le fonctionnement normal d'un service informatique. La gestion des incidents informatiques est un domaine de la gestion des services informatiques (ITSM) où le service est ramené à la normale dès que possible. De nombreuses équipes de gestion des incidents informatiques utilisent des cadres ITSM établis, tels que la bibliothèque d'infrastructure informatique (ITIL) ou COBIT. D'autres utilisent une combinaison de meilleures pratiques exclusives établies au fil du temps.

Voici quelques-unes des fonctions de gestion des incidents informatiques les plus courantes pour lesquelles il faut recruter et former.

Gestionnaires d'incidents (majeurs)

Ces personnes doivent être "aux commandes". Lorsque quelque chose ne va pas, elles fournissent une structure immédiate, une direction et sont en fin de compte responsables du retour à la normale des services.

  • Agit en tant que commandement central pour un incident
  • Facilite le processus, de bout en bout
  • Gérer la participation des ressources
  • Diriger le processus de résolution des problèmes et confier aux PME des analyses spécifiques.
  • Produire des rapports d'incidents
  • Effectuer un post-mortem sur des incidents critiques
  • Ajoute les incidents à une base de connaissances permanente des incidents et des solutions.
  • Supervise tous les processus impliqués dans le flux de travail de la gestion des incidents désignés.
  • Veiller à ce que les incidents soient résolus de manière à ce que les accords de niveau de service désignés soient respectés.

Propriétaires de processus

Cette personne est responsable de l'ensemble du processus de réponse aux incidents, y compris de sa modification si nécessaire pour s'assurer qu'il est conforme aux objectifs de l'entreprise.

  • Définit les indicateurs clés de performance (ICP) pour déterminer comment les opérations doivent fonctionner normalement.
  • S'assurer que les indicateurs clés de performance répondent aux objectifs de l'entreprise
  • Concevoir, documenter, réviser et améliorer les processus.
  • Apprendre continuellement des incidents pour ajuster tout aspect du processus afin d'atteindre les objectifs généraux de l'entreprise.

Personnel du service desk de niveau 1

En tant que premier point de contact lorsqu'un utilisateur, un client, un responsable ou toute autre personne de l'organisation signale un incident, le service d'assistance de niveau 1 est composé de personnes ayant une connaissance de base mais étendue des problèmes informatiques les plus courants, tels que les réinitialisations de mot de passe ou les problèmes d'imprimante, ainsi que des solutions aux problèmes connus.

  • Effectue la collecte initiale des données, l'évaluation et le diagnostic de tout rapport de service.
  • Agir immédiatement pour rétablir un service informatique défaillant dans les meilleurs délais.
  • Transférer tout problème qui ne peut être résolu immédiatement au service d'assistance de niveau 2.
  • Enregistre toutes les demandes de service et les mesures de résolution prises
  • Permet à la personne qui a signalé l'incident de rester informée de son statut

Personnel de soutien de niveau 2

Ce niveau est généralement composé de personnes qui ont une connaissance avancée de systèmes spécifiques. Les demandes arrivent généralement lorsque le personnel de niveau 1 remonte un problème qu'il ne peut pas résoudre.

  • Agir en tant qu'expert sur un système, un logiciel ou une technologie particulière.
  • Diagnostiquer le problème
  • Effectuer des RCA (analyse des causes profondes)
  • Enregistrez tout ce qui a été fait pour résoudre l'incident dans la base de connaissances.
  • Si l'incident est résolu, confirmez la résolution avec la personne qui l'a signalé.
  • Si l'incident n'est pas résolu, le transmettre au niveau 3 et/ou à l'ingénierie.
  • Fournir une expertise en la matière

Conclusion

Selon le Étude d'impact des pannes informatiques en 2019Les deux principales occasions manquées d'éviter les pannes sont l'absence d'identification des systèmes proches de leur capacité et l'absence d'identification de la dégradation lente mais constante des performances des composants matériels, logiciels ou réseau critiques.

Il s'agit principalement de problèmes humains, qui peuvent être résolus en mettant en place des processus/pratiques robustes mais évolutifs et en formant votre personnel informatique à leur application. Les questions à se poser lors de la constitution de votre équipe de gestion des incidents sont les suivantes :

  • Développez-vous votre capacité informatique plus rapidement que vous ne recrutez les ressources nécessaires pour la gérer ?
  • Avez-vous des difficultés à recruter et à conserver des travailleurs qualifiés en informatique ?
  • Vos programmes de formation et d'éducation en informatique souffrent-ils d'un manque de budget ?

Les systèmes devenant de plus en plus complexes, notamment avec l'arrivée du cloud, les pannes vont se poursuivre. Mais nombre d'entre elles peuvent être évitées, et les autres réparées beaucoup plus rapidement, si l'on consacre des ressources à la mise en place d'employés qualifiés aux bons postes, en suivant les meilleures pratiques et processus éprouvés.

À propos de Kepner-Tregoe

Depuis plus de 60 ans, Kepner-Tregoe est le leader du secteur en matière de processus de résolution de problèmes et d'excellence du service. Les experts de KT ont aidé les entreprises à améliorer leur niveau de performance en matière de gestion des incidents et des problèmes grâce à des outils, des formations et des conseils, ce qui a permis de mettre en place des équipes de gestion des services très efficaces, prêtes à répondre aux problèmes les plus critiques de votre entreprise.

Image du blog 1
Principes essentiels en cas d'incident majeur : Communication et action efficace. Aidez-nous ! Que faisons-nous maintenant ?
Image du blog 1
Gestion des incidents majeurs - Être prêt lorsqu'un changement tourne mal

Nous contacter

Pour tout renseignement, information complémentaire ou un devis !