fra

Les crocodiles latents qui rôdent

Les crocodiles latents qui rôdent

Qu'est-ce qui empêche une gazelle de dormir la nuit ? C'est peut-être la pensée des crocodiles latents qui rôdent dans les rivières et les points d'eau, prêts à bondir sans prévenir. Et si votre vie de gazelle n'était pas de visiter le point d'eau une fois par jour, ou de traverser une rivière seulement pendant une longue migration ? Et si elle consistait à marcher 24 heures sur 24 et 7 jours sur 7 au milieu d'une rivière infestée de crocodiles ? Cela vous garderait sûrement alerte, mais pas à l'aise, et vous ne pourriez dormir sans repos que pendant de très courtes périodes.

Si vivre dans la rivière est votre vie, alors il serait dans votre intérêt en tant que gazelle de maintenir le nombre de crocodiles aussi bas que possible, et de ne pas vous exposer aux risques d'être attrapé en vous attardant en bordure du troupeau.

L'instinct du troupeau

Être au milieu du troupeau est important pour la survie. Nous reconnaissons l'effet de cet instinct de survie lorsqu'une entreprise lance un nouveau système d'exploitation. Les adeptes précoces le chargeront et joueront avec, mais peu l'utiliseront immédiatement comme outil de base de l'entreprise. Les gazelles intelligentes attendent que les eaux aient été testées en premier. Les gazelles intelligentes savent aussi suivre le rythme et ne pas se laisser distancer. Nous connaissons des applications encore en production critique pour lesquelles le fournisseur a cessé d'assurer le support depuis de nombreuses années.

Comment les gens se retrouvent-ils accidentellement au bord du troupeau ?

Aller de l'avant sans une gestion claire des risques :

  • Chargement de code nouvellement publié et non testé sur les équipements de production.
  • Installation et mise en service de matériel non testé et venant d'être mis sur le marché dans un environnement de production.
  • Chargement de la charge de travail de production sur des configurations non testées
  • Contrôles de changement d'urgence pendant le dépannage de style fusil de chasse

Prendre du retard en ne changeant pas les systèmes actuels :

  • Utilisation de logiciels de base qui ne sont plus pris en charge
  • Utilisation de matériel en production qui n'est pas pris en charge

Configuration de solutions exotiques :

  • Système intégrant le matériel et les logiciels afin de rendre le système unique en son genre.
  • Modification du code central pour rendre le système unique

Configuration de charges ou de profils exotiques :

  • Surcharge du système au-delà de ses capacités
  • Réglage extrême des paramètres du logiciel et du microprogramme pour une application donnée
  • Atteindre un point de saturation où le système passe d'un écoulement linéaire à une turbulence.

Diagramme 1

Crocodiles_Diagramme_1

Une fois que vous êtes au bord du troupeau, les crocodiles latents peuvent vous attraper plus facilement.

Lutte contre les parasites

Lorsqu'un technicien informatique a reformaté un disque dur au ministère du Revenu de l'Alaska dans le cadre de travaux de maintenance de routine, un petit miracle de mauvais aloi s'est produit. Le technicien a accidentellement supprimé les informations relatives à un compte financé par le pétrole - l'un des principaux avantages des résidents de l'Alaska - et a également reformaté par erreur le disque de sauvegarde.

Il y avait encore de l'espoir, jusqu'à ce que le service découvre que sa troisième ligne de défense, les bandes de sauvegarde, étaient illisibles. Si les bandes de sauvegarde avaient fonctionné, il n'y aurait pas d'histoire - dans ce cas, il n'est pas fait mention de l'existence de problèmes connus et non résolus avec le système de sauvegarde - mais avez-vous vérifié que vous pouvez restaurer vos données ? Cet échec leur a coûté $200 000 en coûts supplémentaires et un préjudice de réputation inconnu. Y a-t-il un crocodile latent qui vous attend ?

Le fait d'être au milieu du troupeau - en faisant le même genre de choses que les autres entreprises, en utilisant des configurations et des logiciels standard, en les maintenant à jour et en respectant les tolérances de performance - n'est toujours pas une garantie de survie.

Les pires incidents informatiques que nous voyons en tant que consultants en AC sont une combinaison d'un certain nombre de problèmes latents, visibles et non diagnostiqués et de changements mal réalisés qui ont conspiré pour provoquer un miracle. Souvent, les miracles sont considérés comme des événements étonnants ou merveilleux. Je pense que le fait de réunir des problèmes non diagnostiqués de manière à provoquer une panne catastrophique peut également être considéré comme un miracle, mais dans le mauvais sens du terme.

Prenons l'exemple d'une entreprise mondiale du classement Fortune 500 qui utilise des systèmes informatiques comme tout le monde : pour recevoir des commandes, planifier la fabrication, programmer les livraisons et émettre des factures sur du matériel courant et des logiciels très populaires. Le département informatique a perdu la capacité de savoir ce qu'il fallait fabriquer, expédier et facturer pendant environ trois semaines. L'incident n'a pas atteint les médias car il a été bien géré et l'entreprise continue de prospérer. Cependant, au cours de ces trois semaines, les crocodiles se sont retrouvés au milieu des gazelles et ont agi de manière désordonnée pour faire tomber les systèmes informatiques du cœur de métier.

Crocodile_Diagramme_2

Pouvons-nous prédire la probabilité que les crocodiles dormants latents s'en prennent à votre entreprise ? Si vous étiez une gazelle marchant au milieu de la rivière, entourée d'autres gazelles, certaines devant, d'autres derrière, certaines près de la rive gauche de la rivière et d'autres près de la rive droite, préféreriez-vous remonter une rivière avec beaucoup de crocodiles ou très peu ?

Lutte contre les nuisibles - réduire le nombre de crocodiles ne ferait que réduire le nombre d'occasions où ils peuvent conspirer pour vous nuire. Où trouver ces crocodiles... dans votre arriéré de problèmes informatiques non diagnostiqués.

Plus le nombre de problèmes informatiques non diagnostiqués est élevé, plus le risque est grand qu'un, deux ou plusieurs d'entre eux interagissent de manière intéressante, avec une modification innocente, pour faire tomber votre système. Les entreprises où les causes profondes des problèmes informatiques sont généralement trouvées ont mathématiquement plus de chances de survie que celles qui ont un grand nombre de problèmes non diagnostiqués : des problèmes à la fois latents (vous les connaissez - ils sont dans une file d'attente quelque part, ou ils sont dans une masse de changements incontrôlés ou se cachent dans un mauvais entretien) et latents (ils n'affectent pas la production pour le moment).

Permettez-moi d'être précis quant aux types de problèmes qui peuvent se conjuguer au hasard pour provoquer des pannes informatiques prolongées.

Imaginons que vous modifiez le nombre de produits que votre infrastructure prévoit de traiter parce que vous avez racheté une autre société et que vous devez intégrer leurs lignes de produits.

Vous avez travaillé avec les fournisseurs pour spécifier le matériel et les logiciels nécessaires, et un plan de projet a été créé pour mettre en œuvre le changement - la gestion du changement était à bord, tout allait bien.

Ce que vous ne saviez pas, c'est qu'enfouies profondément dans votre arriéré de problèmes non diagnostiqués se trouvaient quatre failles dans le système de production, dont aucune ne causait de problèmes de production et qui n'étaient donc pas dans l'esprit du personnel de soutien :

  • Un traitement lent de la file d'attente de la base de données au cours des six derniers mois
  • Lenteur des entrées/sorties logiques vers votre périphérique de stockage de données partagé sur d'autres systèmes qui ne sont manifestement pas liés à celui-ci - un problème enregistré auprès d'une autre partie de l'organisation de l'infrastructure il y a plusieurs semaines.
  • Une mise à jour du micrologiciel de l'interconnexion de stockage des données qui ne s'est pas appliquée correctement il y a quelques semaines.
  • Outils de surveillance des bases de données qui, depuis un an, cessaient occasionnellement d'enregistrer.

Ces problèmes avaient été enregistrés et attendaient une action de la part du fournisseur ou de votre personnel.

Vous ajoutez ensuite la mise à niveau du logiciel et le matériel nécessaire pour améliorer les performances du système et obtenir une certaine surcharge de traitement. Ce changement fonctionne parfaitement (du point de vue de la gestion du changement) ; le système reprend la production, mais personne ne vérifie la surcharge de performance que l'application du changement était censée produire. C'est un très gros crocodile.

Diagramme 3_Lurking Crocs

Vous ajoutez ensuite la charge accrue au système, une usine à la fois (pour vous assurer que chaque étape est bonne). Environ deux semaines après le début de ce processus, un "point de basculement" est atteint et le système passe de la "fluidité" à la turbulence - de 20 heures à 60 heures par jour pour traiter une journée de travail. Les directeurs d'entreprise commencent à crier que l'entreprise est en train de mourir. Vous devez séparer de nombreuses usines des travaux par lots et reprogrammer les cycles de production de tous les jours à une fois par semaine. Certains dépôts doivent inventer par expérience ce que les clients sont susceptibles de vouloir commander à partir des commandes précédentes et l'entreprise n'est maintenue que par les actions héroïques d'un grand nombre d'employés qui gèrent l'entreprise sans vos systèmes.

Le retour à la configuration précédente n'est possible que si l'entreprise est prête à perdre deux semaines de factures. La décision est prise d'aller de l'avant en utilisant la nouvelle configuration, et c'est au cours de ce processus que les crocodiles cachés latents sont découverts.

Tous les Crocodiles n'étaient pas immédiatement malveillants - l'outil de surveillance de la base de données s'était tout simplement arrêté deux semaines auparavant, et l'effort de résolution du problème a donc été prolongé par l'absence de cette information.

Les crocodiles latents sont là, attendant, sans être observés, de se rassembler en un seul événement qui pourrait être catastrophique.

Comment survivre

Il y a manifestement des leçons à tirer des erreurs des autres. Rester au milieu de la foule informatique est une décision stratégique que vous et vos clients devez prendre : soit vous restez en sécurité, soit vous vivez une vie "intéressante".

Mais qu'en est-il de la réduction de la probabilité que les défauts non diagnostiqués conspirent contre vous ? Combien de cas non diagnostiqués se trouvent dans l'arriéré de votre bureau d'assistance informatique ? Si vous les éliminez rapidement et efficacement, et si vous avez des plans pour gérer les corrections provisoires et les actions correctives pour ceux qui sont vraiment difficiles à résoudre, tout va bien.

Si vous avez un grand nombre de problèmes dans votre arriéré, ou si vous avez systématiquement fermé les cas les plus anciens juste pour maintenir l'arriéré à une taille gérable, vous êtes en train de tapisser votre avenir de crocodiles.

Dans le cadre de nos engagements avec les clients qui ont initialement un arriéré important, nous travaillons avec eux pour effectuer une analyse de l'état actuel, calculer les économies anticipées en termes de temps et d'argent, identifier les points de levier et réaliser une mise en œuvre structurée et bien gérée de processus de traitement des cas de bonne qualité. Non seulement ils disposent d'une meilleure organisation de support, avec des processus de travail plus efficaces et des ingénieurs plus motivés, mais ils dorment aussi plus tranquillement la nuit, sachant qu'il y a moins de crocodiles qui attendent de bondir sans prévenir.

À propos de Kepner-Tregoe

Kepner-Tregoe est le leader de la résolution de problèmes. Depuis plus de six décennies, Kepner-Tregoe a aidé des milliers d'organisations dans le monde entier à résoudre des millions de problèmes grâce à une analyse des causes profondes et à des compétences décisionnelles plus efficaces. Kepner-Tregoe s'associe aux organisations pour réduire considérablement les coûts et améliorer les performances opérationnelles grâce à
des services de formation, de technologie et de conseil en matière de résolution de problèmes.

À voir aussi

Remettre en question la culture de la gestion des incidents

De la satisfaction à la fidélisation des clients

Nous contacter

Pour tout renseignement, information complémentaire ou un devis !