nld

De latente krokodillen van IT Support

Door Steve White

Wat houdt een gazelle 's nachts wakker? Het kan de gedachte zijn aan de krokodillen die op de loer liggen in rivieren en waterpoelen en wachten om zonder waarschuwing toe te slaan. De verstandige gazelle blijft niet aan de rand van de kudde hangen en hoopt dat het aantal krokodillen laag is.

In het midden van de kudde blijven is belangrijk om te overleven. In IT-ondersteuning herkennen we het effect van dit overlevingsinstinct wanneer een nieuw stuk software wordt uitgebracht. Early adopters zullen het laden en ermee spelen, maar weinigen zullen het onmiddellijk gebruiken als een core business tool. De slimme gazellen wachten tot de wateren zijn getest. Slimme gazellen weten ook bij te blijven en geen achterblijvers te worden. De treuzelende gazellen lopen risico's en gebruiken bedrijfskritische applicaties die de leverancier niet meer ondersteunt.

Zonder waakzaamheid is het gemakkelijk kwetsbaar te zijn en zich af te scheiden van de kudde. Vooruitlopen zonder duidelijk risicobeheer verhoogt de kwetsbaarheid: laad pas vrijgegeven en ongeteste code op productieapparatuur of ongeteste hardware in een productieomgeving en de krokodillen beginnen te cirkelen. Achterop raken gebeurt door systemen niet te updaten en exotische oplossingen te gebruiken: software of hardware die niet langer wordt ondersteund is penny-wise and pound-foolish. Bovendien kan systeemintegratie van hardware en software om het uniek te maken en het veranderen van kerncode om het uniek te maken, u beroven van de bescherming van "de kudde". Kwetsbaarheid neemt toe bij exotische belastingen of profielen die het systeem bovenmatig belasten of bij extreme afstemming van software- en firmwareparameters voor een bepaalde toepassing.

Diagram 1 illustreert hoe deze riskante acties IT-organisaties kwetsbaar maken. Eenmaal aan de rand van de kudde, is het gemakkelijk om te worden weggeplukt door de latente krokodillen die op de loer liggen.


Diagram 1: Risicovolle acties die organisaties van de kudde scheiden

Helaas is het nog steeds geen garantie om te overleven als men zich in het midden van de kudde bevindt, standaardconfiguraties en -software gebruikt, up-to-date blijft en binnen de prestatietoleranties blijft. Het verminderen van het aantal hongerige krokodillen is de echte sleutel tot overleven.

De ergste IT-incidenten die we vanuit ons perspectief als consultants zien, zijn het gevolg van ongediagnosticeerde problemen en slecht afgeronde wijzigingen. Het samenbrengen van ongediagnosticeerde problemen op precies de juiste manier kan wonderen doen - een slechte manier kan catastrofale mislukkingen veroorzaken.

Een voorbeeld: een wereldwijd opererend Fortune 500-bedrijf, dat net als iedereen IT-systemen gebruikt om bestellingen te ontvangen, de productie te plannen, leveringen te plannen en facturen uit te reiken voor actuele hardware en populaire software, was gedurende ongeveer drie weken niet meer in staat te weten wat het moest produceren, verzenden en factureren. Het incident haalde de media niet omdat het vanuit PR-perspectief goed werd afgehandeld en het bedrijf blijft floreren. Drie weken lang zaten de krokodillen echter midden tussen de gazellen die ongecoördineerd samenwerkten om de kern van de IT-systemen plat te leggen.

Ongediertebestrijding - het aantal krokodillen verminderen - vermindert het aantal gelegenheden voor hen om gedachteloos samen te zweren om u kwaad te doen. Maar waar liggen ze op de loer? Ze liggen te wachten om toe te slaan in uw ongediagnosticeerde achterstand van IT-problemen.

Hoe meer ongediagnosticeerde IT-problemen je hebt, hoe groter de kans dat één, twee of vele op een interessante manier, met een onschuldige verandering, op elkaar inwerken om je systeem platleggen. Organisaties die de onderliggende oorzaken van IT-problemen vinden, hebben een mathematisch betere kans op IT-stabiliteit dan organisaties met ongediagnosticeerde problemen. Problemen die zowel loerend (u kent ze - ze staan ergens in een wachtrij, in een massa ongecontroleerde veranderingen of verstopt zich in een slechte huishouding) en latent (die op dit moment nergens invloed op hebben) uiteindelijk samenzweren om onverwachte schade aan te richten.

Casestudie. Problemen kunnen willekeurig samenkomen en langdurige IT-uitval veroorzaken. Nadat bedrijf A een concurrent had uitgekocht, moesten productlijnen worden geïntegreerd. In samenwerking met leveranciers specificeerde bedrijf A de benodigde hardware en software en werd een projectplan opgesteld om de verandering door te voeren. Op dat moment waren vier bestaande fouten in het huidige productiesysteem onbekend, diep weggestopt in een achterstand van niet gediagnosticeerde problemen, die geen van alle problemen veroorzaakten en dus niet in de gedachten van het ondersteunend personeel waren. Deze omvatten:

  • Een trage database wachtrij verwerking job (bestaat nu al zes maanden)
  • Trage logische invoer/uitvoer naar een gedeeld gegevensopslagapparaat op andere systemen die niet duidelijk verband houden met dit systeem (enkele weken geleden gelogd bij een ander deel van de infrastructuur)
  • Een firmware-upgrade van de gegevensopslaginterconnector die niet correct werd toegepast (enkele weken geleden uitgevoerd)
  • Database monitoring tools die af en toe stopten met registreren (al een jaar aan de gang)

Deze problemen waren geregistreerd en moesten nog worden opgelost door de leverancier of het personeel.

Toen de software-upgrade en de vereiste hardware waren voltooid, verliep alles perfect. Het systeem werd hervat in productie, maar niemand controleerde de verwachte prestatie-overhead. Dit was een zeer grote krokodil.

Diagram 3

De verhoogde belasting van het systeem verliep soepel, één fabriek tegelijk, om ervoor te zorgen dat elke stap onder controle was. Maar twee weken na het begin van dit proces kantelpunt werd bereikt en het systeem omsloeg van een vrije stroom in turbulentie - van 20 uur om het werk van een dag te verwerken naar 60 uur per dag. De gevolgen waren snel en ernstig. Bedrijfsleiders begonnen te schreeuwen dat het bedrijf op sterven na dood was. Ze scheidden de fabrieken van de batch jobs en herschikten de productie runs van elke dag naar één keer per week. Sommige depots moesten uit ervaring uitvinden wat de klanten waarschijnlijk zouden bestellen en alleen de heldhaftige acties van een enorm aantal personeelsleden hielden het bedrijf draaiende zonder zijn IT-systemen.

Terugkeer naar de vorige configuratie was alleen mogelijk als twee weken aan facturen werden opgeofferd. Besloten werd om door te gaan met de nieuwe configuratie. Tijdens dit proces werden de latent loerende krokodillenwerden ontdekt. Niet alle krokodillen waren onmiddellijk kwaadaardig - de databasemonitoringtool was er twee weken voordien gewoon mee gestopt, en dus werd de probleemoplossing verlengd door het gebrek aan die informatie. De latente krokodillen lagen daar op de loer, onopgemerkt, om samen te komen in één rampzalige gebeurtenis.

Hoe te overleven

Het is duidelijk dat er lessen kunnen worden getrokken uit fouten. In het midden van de IT-menigte blijven is een strategische IT-beslissing om te nemen. Maar het verkleinen van de kans dat ongediagnosticeerde fouten tegen u samenspannen, wordt zelden krachtig genoeg aangepakt. Hoeveel niet-gediagnosticeerde gevallen bevinden zich in uw IT-ondersteuningsachterstand? Als u ze snel en effectief opruimt en als u plannen hebt om de interim fixes en de correctieve acties voor de echt moeilijk op te lossen gevallen af te handelen, dan is alles goed.

De meeste ondersteunende organisaties laten grote aantallen problemen liggen of sluiten routinematig zaken af zonder de hoofdoorzaak te vinden, waardoor hun toekomst met krokodillen is bezaaid.

In onze engagementen met klanten die aanvankelijk een grote achterstand hebben, werken we met hen samen om een analyse van de huidige toestand uit te voeren, de verwachte besparingen in termen van tijd en geld te berekenen, hefboomeffecten te identificeren en een gestructureerde en goed beheerde implementatie van kwalitatief hoogstaande issue-handlingprocessen te voltooien. Zo ontstaat een betere supportorganisatie met effectievere werkprocessen en meer gemotiveerde engineers. Bovendien zijn er minder latente krokodillen die op de loer liggen, meekijken en klaar zijn om toe te slaan.

Blog afbeelding 1
Hoe cyberbeveiliging het gezicht van incidentbeheer verandert
Blog afbeelding 1
Beheer van grote incidenten - Voorbereid zijn als een verandering vreselijk misgaat
Blog afbeelding 1
Major Incident Management: Wacht niet met het plannen van een respons tot een groot incident zich voordoet
Blog afbeelding 1
Het samenstellen van een topteam voor IT Incident Management

Wij zijn experts in:

Neem contact met ons op

Voor vragen, details, of offertes!