fra

La planification est essentielle en cas de panne de système à New York : 10 éléments essentiels de votre manuel de gestion des incidents

Récemment, d'importants centres d'opérations critiques, dont la Bourse de New York et United Airlines, ont connu des pannes de système à grande échelle qui ont été rapportées à l'échelle nationale. La confusion, la frustration et les pertes financières engendrées par ces pannes n'ont pas été calculées, mais je ne peux que supposer qu'elles seront astronomiques et qu'elles resteront gravées dans les esprits pendant longtemps.

Selon les communiqués de presse, la panne de quatre heures au NYSE était apparemment due à une mise à niveau du logiciel. Bien que la mise à niveau ait été planifiée pendant une fenêtre de maintenance en dehors des heures de travail, elle a commencé à faire des ravages lorsque les traders se sont connectés pour reprendre leurs activités habituelles à 7 heures le lendemain matin et ont constaté qu'ils avaient des difficultés à se connecter. On ignore à l'heure où nous écrivons ces lignes quand la mise à niveau a été achevée, mais il est évident qu'avec un peu plus de planification, ce problème aurait pu être évité.

Bien qu'il soit un peu rétrospectif d'identifier le manque de planification ou l'incapacité à appliquer la pensée préventive et contingente comme la cause de ce problème, je voudrais plutôt examiner la gestion de l'incident après l'événement.

La difficulté de la gestion des incidents est qu'elle se déroule en direct et qu'elle requiert de solides compétences en matière de facilitation et une direction intense. En plus de cela, tout le monde a une visibilité, et il y avait sûrement plus de 100 personnes sur une conférence téléphonique, beaucoup suppliant simplement qu'une action rapide soit prise pour sauver une ouverture tardive de l'échange. Pendant ce feu d'artifice, il est très facile pour un leader en puissance de prendre l'action potentielle la plus facile qui lui est présentée. Dans le cas de la Bourse de New York, les actions initiales visant à rétablir les services n'ont fait que créer une situation connue sous le nom de panne secondaire, où le problème n'a fait qu'empirer malgré les tentatives d'amélioration.

La véritable victoire dans cette situation est que la planification antérieure - qui devrait se produire lorsque les choses fonctionnent bien - a été mise en œuvre et a permis la reprise des transactions plus tard dans la journée. Les ordres ont été correctement suspendus et annulés, conformément au plan, et un centre de données situé à Mahwah, dans le New Jersey, a été mis en ligne pour permettre la reprise des transactions. Le problème a été résolu à 15 h 10 le même jour.

Lorsque nous travaillons avec nos clients qui ont des difficultés dans le domaine de la gestion des incidents, nous abordons ces incidents en combinant le développement des compétences, le coaching, l'intégration d'outils et un changement de culture ciblé. Une équipe solide de gestion des incidents doit avoir des rôles et des responsabilités définis bien à l'avance et, comme un pilote de chasse ou un équipage d'hélicoptère de sauvetage, utiliser une série de listes de contrôle et un "livre de jeu" général pour aider les équipes à rester calmes et à bien fonctionner sous pression.

Un livre de jeu doit au moins permettre de définir les éléments suivants :

1. Méthodes de compréhension et de validation de la dégradation du service.

2. Méthodes systématiques pour clarifier et comprendre les symptômes et les erreurs signalées par les utilisateurs, afin que les bonnes personnes puissent être impliquées.

3. Des outils pour aider à gérer l'implication, y compris les numéros d'astreinte actuels, les sauvegardes et les représentants de l'engagement des fournisseurs.

4. Outils et lieux normalisés pour les informations des conférences téléphoniques, les salles de crise, l'utilisation de tableaux de bord ou d'outils en direct.

5. Méthodes permettant de déterminer rapidement et précisément la priorité, notamment en comprenant l'impact actuel, l'impact futur et le calendrier.

6. Une méthodologie de prise de décision et des objectifs par application qui sont développés à l'avance.

7. Un cadre de gestion des risques utilisé pour soumettre une documentation précise et utile à la gestion des changements ainsi qu'aux agents de correction.

8. Un plan pour valider que les systèmes ont été restaurés et vérifier qu'une panne secondaire n'a pas été créée.

9. Exigences de transfert pour mettre à jour la documentation et transférer l'incident à la gestion des problèmes.

10. Cadre pour susciter et exécuter des projets afin de prévenir de futurs incidents.

Chez KT, l'expérience nous a montré que la mise en place préventive de ce cadre et de cette structure de type livre de jeux permet d'obtenir des résultats plus rapides et de renforcer la confiance et l'autonomie des équipes, en particulier au niveau junior. C'est incroyable ce qu'un plan structuré peut faire lorsque votre organisation est sous le feu des critiques et que vous devez compter sur votre équipe de gestion des incidents pour réfléchir sous pression.

Image du blog 1
La gestion de la chaîne d'approvisionnement est une question de collaboration et de travail d'équipe.
Image du blog 1
Comment les services en nuage favorisent l'efficacité de la chaîne d'approvisionnement
Image du blog 1
Se décoincer - Plus facile à dire qu'à faire
Image du blog 1
Planifier lorsque l'avenir est incertain. Trois actions pour gérer l'incertitude

Nous sommes experts en :

Nous contacter

Pour tout renseignement, information complémentaire ou un devis