nld

Het samenstellen van een top IT Incident Management Team

Een menselijke fout - een zeer elementaire - veroorzaakte dat British Airways leed een IT-uitval op 27 mei 2017waardoor meer dan 400 vluchten geannuleerd moesten worden en 75.000 passagiers gestrand waren. Een technicus had een stroomvoorziening in een datacentrum losgekoppeld, en toen die weer werd aangesloten, veroorzaakte een stroomstoot grote schade. Nettokosten voor de luchtvaartmaatschappij: maar liefst 80 miljoen pond (ongeveer $102 miljoen).

Dit klinkt misschien als een hoop geld en dat is het ook, maar volgens StatistaHet is niet ongebruikelijk. De gemiddelde kosten per uur downtime voor 86% van ondernemingen bedragen meer dan $300.000. En de uren tellen snel op.

De 2019 IT uitval impact studie bleek dat de gemiddelde organisatie in de afgelopen drie jaar te maken heeft gehad met 10 brownouts (waarbij de infrastructuur of software op een lager niveau presteert) of volledige uitval. Die 10 incidenten kunnen gemakkelijk oplopen tot miljoenen euro's.

Het is dan ook geen verrassing dat 80% van de bedrijven meldt dat de prestaties en beschikbaarheid van hun IT-infrastructuur bovenaan hun lijst van zorgen staan. Meer dan de helft maakt zich zorgen over een storing die zo verwoestend is dat ze het grote nieuws zal halen. En als zo'n gebeurtenis zich voordoet, verwacht 53% dat er koppen zullen rollen - en dat iemand zijn of haar baan zal verliezen.

En hoe mooi het ook zou zijn om reacties op IT-problemen simpelweg te automatiseren, "Incident response heeft mensen nodig, want succesvol reageren op incidenten vereist denkwerk," schreef Bruce Schneier, in zijn blog, Schneier on Securityin 2014. Wat u nodig hebt: een team voor het beheer van (grote) IT-incidenten met duidelijk omschreven rollen en verantwoordelijkheden, dat is opgeleid om die verantwoordelijkheden te vervullen door een in crisissituaties beproefd proces te volgen en tegelijkertijd effectief te communiceren met zowel managers, klanten als materiedeskundigen.

De menselijke kant van stroomonderbrekingen

Daar ligt het probleem. Bijna de helft (47%) van de respondenten van een SAN-enquête zei dat een tekort aan personeel en vaardigheden hun grootste uitdaging was bij het effectief reageren op incidenten. Inderdaad, de studie van 2019 van het Uptime Institute noemt het IT-personeelsprobleem nu een crisis. Eenenzestig procent (61%) van de respondenten zegt moeite te hebben met het behouden of werven van personeel - een stijging ten opzichte van 55% het jaar daarvoor.

Dit is van belang omdat 60% van de organisaties van mening is dat hun meest recente significante downtime event te voorkomen was. Als ze een beter beheer, betere processen of betere configuraties hadden gehad, had de uitval voorkomen kunnen worden, zeggen ze. Voor uitval die meer dan $1 miljoen kostte, sprong dit cijfer naar 74%.

"Door te weinig te investeren in training, het beleid niet af te dwingen, toe te staan dat procedures verouderd raken en het belang van gekwalificeerd personeel te onderschatten, zet het management de weg vrij voor een cascade van omstandigheden die leidt tot downtime," schreef Kevin Heslin, hoofdredacteur van het Uptime Institute Journal in een september 2019 blogberichtover het onderzoek.

Personeel voor het IT-incidentenbeheerteam

Een incident is een onverwachte gebeurtenis die de normale werking van een IT-service verstoort. IT incident management is een gebied van IT service management (ITSM) waarbij de dienst zo snel mogelijk weer normaal werkt. Veel IT-incidentbeheerteams gebruiken gevestigde ITSM-raamwerken zoals de IT-infrastructuurbibliotheek (ITIL®) of COBIT. Anderen gebruiken een combinatie van eigen beste praktijken die in de loop der tijd tot stand zijn gekomen.

Hier zijn enkele van de meest voorkomende IT-incident management rollen om aan te nemen en op te leiden voor.

(Grote) Incident managers

Deze mensen moeten "in control" zijn. Als er iets fout gaat, zorgen zij voor onmiddellijke structuur en leiding en zijn zij er uiteindelijk verantwoordelijk voor dat de diensten weer normaal functioneren.

  • fungeert als het centrale commando voor een incident
  • Vergemakkelijkt het proces, end-to-end
  • Beheert de betrokkenheid van middelen
  • Het proces voor het oplossen van problemen aansturen en het MKB belasten met specifieke analyses
  • Stelt incidentenrapporten op
  • Voert een post-mortem uit op kritieke incidenten
  • Voegt incidenten toe aan een doorlopende kennisbank van incidenten en oplossingen
  • Houdt toezicht op alle processen die betrokken zijn bij de aangewezen workflow voor incidentenbeheer
  • Zorgt ervoor dat incidenten zodanig worden opgelost dat de aangewezen SLA's worden gehaald

Proceseigenaars

Deze persoon is verantwoordelijk voor het totale incident response proces, inclusief het aanpassen ervan indien nodig om ervoor te zorgen dat het in lijn is met de bedrijfsdoelstellingen.

  • Bepaalt de belangrijkste prestatie-indicatoren (KPI's) om te bepalen hoe de operaties normaal moeten functioneren
  • Zorgt ervoor dat de KPI's voldoen aan de zakelijke doelstellingen
  • Ontwerpt, documenteert, herziet en verbetert processen.
  • Leert voortdurend van incidenten om alle aspecten van het proces aan te passen aan de overkoepelende bedrijfsdoelstellingen

Tier 1 servicedesk personeel

Als eerste contactpunt wanneer iemand - een gebruiker, klant, manager of iemand anders in de organisatie - een incident meldt, bestaat de Tier 1 servicedesk uit mensen met een basis- maar brede werkkennis van de meest voorkomende IT-problemen, zoals het resetten van wachtwoorden of printerproblemen, en oplossingen voor bekende problemen.

  • Verzamelt de eerste gegevens, beoordeelt en stelt een diagnose van elke dienst
  • Onmiddellijk handelen om een uitgevallen IT-dienst zo snel mogelijk te herstellen
  • Escaleert alle problemen die niet onmiddellijk kunnen worden opgelost naar de Tier 2 service desk
  • Registreert alle serviceverzoeken en genomen oplossingsstappen
  • Houdt de persoon die het incident heeft gemeld op de hoogte van de status ervan

Tier 2 ondersteunend personeel

Dit niveau wordt meestal bemand door mensen met geavanceerde kennis van specifieke systemen. Verzoeken komen over het algemeen van Tier 1-personeel dat een probleem escaleert dat zij niet kunnen oplossen.

  • Optreden als deskundige op een bepaald systeem, software of technologie
  • Diagnose van het probleem
  • Uitvoeren van RCA (root cause analysis)
  • Leg alles vast wat gedaan is om het incident op te lossen voor de knowledgebase
  • Als het incident is opgelost, bevestigt u de oplossing met de persoon die het heeft gemeld
  • Als het incident niet wordt opgelost, escaleer het dan naar Tier 3 en/of engineering
  • Leveren van materiedeskundigheid

Conclusie

Volgens de 2019 IT uitval impact studieDe top twee van gemiste kansen om uitval te voorkomen bestond uit het niet signaleren wanneer systemen hun capaciteit bijna hadden bereikt en het niet signaleren wanneer de prestaties van cruciale hardware-, software- of netwerkcomponenten langzaam maar gestaag achteruitgingen.

Dit zijn in de eerste plaats menselijke problemen, die kunnen worden opgelost door robuuste, maar schaalbare processen/praktijken in te voeren en uw IT-personeel op te leiden om deze toe te passen. Vragen die u zichzelf moet stellen bij het samenstellen van uw incident management team zijn onder andere:

  • Bouwt u sneller IT-capaciteit op dan dat u de middelen inhuurt om die capaciteit te beheren?
  • Vindt u het moeilijk om gekwalificeerde IT'ers aan te werven en te behouden?
  • Lijden uw IT-trainings- en opleidingsprogramma's onder een gebrek aan budget?

Aangezien systemen alleen maar complexer worden - vooral nu de cloud in beeld komt - zullen er nog steeds storingen optreden. Maar vele kunnen worden vermeden, en andere kunnen veel sneller worden verholpen, door middelen in te zetten om de juiste geschoolde werknemers op de juiste posities in te zetten volgens beproefde beste praktijken en processen.

Over Kepner-Tregoe

Kepner-Tregoe is al meer dan 60 jaar marktleider op het gebied van probleemoplossings- en service-excellence-processen. De experts van KT hebben bedrijven geholpen hun niveau van incident- en probleemmanagement te verhogen door middel van tools, training en consulting. Dit heeft geleid tot zeer effectieve service-management teams die klaar staan om te reageren op de meest kritieke problemen van uw bedrijf.

Blog afbeelding 1
Major Incident Essentials: Communicatie en Effectieve Actie. Help! Wat moeten we nu doen?
Blog afbeelding 1
Beheer van grote incidenten - Voorbereid zijn als een verandering vreselijk misgaat

Neem contact met ons op

Voor vragen, details, of een voorstel!