Uitmuntende dienstverlening bereiken bij het beheer van grote incidenten

De meeste moderne bedrijven zijn in die mate afhankelijk van technologieën dat het risico groot is dat technische problemen tot IT-stabiliteitsproblemen leiden en op hun beurt de functionele mogelijkheden van een organisatie in het gedrang brengen.

Een snelle en doeltreffende reactie en een goed doordacht proces voor het beheer van grote incidenten zijn de sleutels tot het beperken van dit risico.

Elke week zijn er grote incidenten in het nieuws - inbreuken op de beveiliging door hackers, systeemuitval en blootgelegde klantgegevens. Dit zijn slechts de incidenten die de voorpagina's halen - elke dag doen zich talloze andere grote incidenten voor die gevolgen hebben voor de interne bedrijfsvoering, de winstgevendheid en de stroom van goederen en diensten en die de bedrijfsleiders afleiden van hun kerntaak, namelijk de agenda van hun bedrijf vooruit helpen.

Uit onderzoek van Dimensional Research uit 2016 onder meer dan 400 business- en IT-professionals bleek dat 82% van de respondenten aangaf dat downtime van bedrijfsapplicaties een aanzienlijke impact had op de inkomsten van hun bedrijf. De blootstelling aan risico's en de reactie op grote incidenten zijn top of mind voor de meeste executives, omdat ze hun collega's zien worstelen met het managen van crisissituaties - wetende dat hun persoonlijke carrière en de toekomst van het bedrijf gedurende een paar uur of dagen kan afhangen van hun prestaties.

Succesvol beheer van een groot incident kan een bedrijf in staat stellen snel terug te keren naar normale activiteiten, de marktreputatie te behouden en de financiële impact te minimaliseren. Goed beheerde incidenten kunnen zelfs de mogelijkheid bieden tot voortdurende verbetering door diepere inzichten te verschaffen en een bedrijf helpen om zijn doelen versneld te blijven bereiken. Als een incident niet succesvol wordt beheerd, kan de blijvende impact leiden tot de ondergang van het bedrijf.

De impact van grote incidenten

De meeste bedrijven beschikken over voldoende processen en middelen om gedurende een korte periode (een paar uur tot een paar dagen) in een crisismodus te opereren. Na deze periode kunnen personeelsmoeheid, achterstand bij het oplossen van problemen en verlies van kritieke controlemechanismen leiden tot een snel afnemende klanttevredenheid, nalevingsproblemen en problemen bij de afstemming, waardoor een volledig herstel moeilijker, duurder en tijdrovender wordt (als een volledig herstel al haalbaar is).

Naast de onmiddellijke operationele impact kan het beheer van een groot incident gevolgen hebben voor de perceptie van de klant en het vertrouwen op lange termijn in het bedrijf en zijn producten. Met steeds toenemende concurrentie van opstandelingen en nieuwe bedrijfsmodellen, krimpende winstmarges en stijgende kosten om nieuwe klanten te werven, zijn klantenbehoud en klantentevredenheid van cruciaal belang om de duurzaamheid van de inkomsten te verzekeren. Klanten begrijpen dat technologische problemen gebeuren - ook zij zijn technologische consumenten en gebruikers die met dezelfde risico's worden geconfronteerd als bedrijven.

Net als bij interne bedrijfsactiviteiten hebben de meeste klanten een zekere mate van tolerantie voor kortdurende onderbrekingen in hun interacties met bedrijven en in de producten en diensten die ze kopen en gebruiken. Langdurige onderbrekingen, slechte communicatie en het niet tijdig herstellen van de dienstverlening kunnen de tolerantie van klanten en hun goodwill echter aanzienlijk aantasten - met mogelijk blijvende schade voor relaties en kansen voor toekomstige zaken tot gevolg.

Zowel de interne operationele gevolgen als de reputatieproblemen bij klanten zullen uiteindelijk de huidige en toekomstige financiële prestaties van een bedrijf ondermijnen - waarbij de bijkomende schade toeneemt naarmate het incident voortduurt. Terugkerende problemen vergroten ook de impact van grote incidenten - als het één keer gebeurt, is het te vergeven; als het nog eens gebeurt, kunnen er koppen rollen. Leidinggevenden zijn zich hiervan bewust en besteden steeds meer tijd aan het ontwikkelen van hun inzicht in de risico's die inherent zijn aan de afhankelijkheid van technologie in hun bedrijf, het ontwikkelen van strategieën om de gevolgen te beperken en hun organisaties voor te bereiden op het waarschijnlijke optreden van grote incidenten die een impact hebben op het bedrijf.

...als het één keer gebeurt, dan is het vergeeflijk; als het nog eens gebeurt, dan kunnen er koppen rollen.

Incident Management vs. Major Incident Management - Waarom bedrijven een andere en aparte aanpak nodig hebben

De meeste bedrijven beschikken over incident management processen om de dagelijkse kleine tot middelgrote verstoringen aan te pakken. Deze processen zijn gebaseerd op beproefde klantenservicemethodes en/of op standaardpraktijken voor IT Service Management (zoals die welke in ITIL worden gevonden). Incident management processen zijn meestal effectief in het omgaan met het grote volume van relatief weinig impactvolle incidenten en service requests waarmee een bedrijf te maken krijgt in relatie tot haar IT-systemen. Grote incidenten zijn echter anders dan hun kleinere, dagelijkse tegenhangers en vereisen een andere en aparte aanpak.

Impact en frequentie

Major of high-severity incidenten (zoals de naam al aangeeft) zijn incidenten die een grote en significante impact hebben op de organisatie. Deze incidenten komen (hopelijk) niet vaak voor, maar als ze zich voordoen, kunnen hele functies van het bedrijf worden getroffen. Een doorsnee Fortune 500-bedrijf kan te maken krijgen met een handvol grote incidenten gedurende een kwartaal, vergeleken met honderden (of, in sommige gevallen, duizenden) normale incidenten per dag. Een normaal incident treft doorgaans slechts een paar gebruikers, waarbij de SLA's voor reactie en oplossing vaak worden verlengd om de operationele kosten laag te houden. Bij grote incidenten zijn de kosten van de impact veel hoger dan de kosten van de oplossing en zijn de belangrijkste succesfactoren de responstijd en de kwaliteit van de reactie op het probleem.

Vaardigheden en wie er bij betrokken is

Servicedeskmedewerkers met beperkte opleiding en technische vaardigheden zijn vaak degenen die de dagelijkse taken op het gebied van incidentbeheer moeten uitvoeren - een erkenning dat de meeste incidenten routinematig en repetitief van aard zijn en effectief kunnen worden opgelost door middel van basisdiagnoses, binaire beslissings-/kennisbomen en gescripte antwoorden. Moeilijkere problemen worden doorverwezen naar tweede- en derdelijns escalatieteams met technische expertise, maar het doel is nog steeds om de minst technische (en goedkoopste) beschikbare middelen in te zetten om het incident op te lossen. Grote incidenten vereisen een andere resourcing aanpak. Tijd is van essentieel belang; het doel is dus om de mensen in te zetten die het incident het snelst kunnen oplossen en zo een lange periode van bedrijfsimpact kunnen vermijden. Deze resources zijn meestal hoog opgeleide (en goed betaalde) subject-matter experts met uitgebreide ervaring en diepgaande technische vaardigheden op het gebied van probleemoplossing.

Processen

De trend van de afgelopen jaren is dat incidentbeheerprocessen steeds meer in de richting gaan van selfservice, automatisering en asynchrone interactie met supportmedewerkers (d.w.z. e-mailinteracties met medewerkers in wereldwijde callcenters). Deze "ombuigingsaanpak" is bedoeld om het incident-management proces te optimaliseren voor schaalbaarheid en om menselijke interactie te verminderen, maar gaat ten koste van een langere tijd om complexere incidenten op te lossen. Processen voor grote incidenten moeten op bijna precies de tegenovergestelde manier worden geoptimaliseerd, waarbij de effectiviteit van de oplossing en de tijd om op te lossen het belangrijkst zijn en waarbij de nadruk niet ligt op de kosten van de middelen en op automatiseringsoverwegingen. De manier waarop deze processen moeten worden geoptimaliseerd maakt het erg moeilijk om het ene te beschouwen als een subset van het andere. Naast procesverwarring kunnen conflicten tussen middelen en verschillende prioriteiten ertoe leiden dat beide processen ondermaats presteren.

Om een goed Incident Management proces effectief te laten zijn, moeten organisaties rekening houden met 3 belangrijke fases die in korte, iteratieve cycli moeten worden doorlopen, naarmate nieuwe informatie beschikbaar komt: triage, diagnose en besluitvorming. Triage helpt om de impact in te schatten en alle beschikbare gegevens te verzamelen om het probleem te specificeren en te begrijpen welke middelen nodig zijn om het op te lossen (vooraleer op een bruggesprek te springen met 50 andere mensen!). Diagnose is van cruciaal belang voor het analyseren van de symptomen (en mogelijke oorzaken, indien nodig) en het aanvullen van de informatielacunes om de meest doeltreffende herstelacties te bepalen. Besluitvorming ten slotte heeft betrekking op het begrijpen en evalueren van de opties terwijl de risico's voortdurend zichtbaar blijven en, uiteraard, het effectief uitvoeren.

Mededelingen

Incident-management communicatie is typisch gericht op een directe interactie tussen de gebruiker die het probleem rapporteert en de persoon of het team dat werkt om het op te lossen. Escalatie en, bijgevolg, het management op de hoogte brengen van het incident wordt gezien als een "mislukking" of uitzondering op het initiële proces en een onnodige kost voor het bedrijf.

Grote incidenten zijn anders in die zin dat actieve en brede communicatie met belanghebbenden niet alleen nuttig is om de impact nauwkeurig in te schatten, maar ook helpt om verwachtingen te managen en belanghebbenden het vertrouwen te geven dat het incident onder controle is. Bij veel grote incidenten is de perceptie die wordt gecreëerd door de communicatie met belanghebbenden een grotere factor bij het bepalen van de totale impact dan het technische probleem en de bijbehorende symptomen. Effectieve communicatie over grote incidenten moet zich richten op 4 afzonderlijke groepen stakeholders.

  1. De getroffen gebruikersgemeenschap waarvan de activiteiten rechtstreeks door het incident worden beïnvloed
  2. Indirecte of potentieel getroffen belanghebbenden wier vertrouwen het beheer van het incident waarschijnlijk zal schaden
  3. Interne teams en KMO's die mogelijk moeten deelnemen aan de diagnose en oplossing van incidenten (dit kunnen ook vertegenwoordigers van verkopers zijn)
  4. Ondersteuning en IT-beheer

Perceptiebeheer

Grote incidenten roepen vaak emotionele reacties op en een dynamiek van mensenmassa's die een verscheidenheid aan invloedsfactoren kan omvatten, terwijl bij normale incidenten doorgaans slechts één of enkele gebruikers betrokken zijn wier percepties doorgaans rechtstreeks verband houden met het incident zelf. Tijdens grote incidenten zorgt niet alleen de impact ervoor dat informatie zich snel mondeling verspreidt, maar is het ook niet ongewoon dat inactieve medewerkers speculaties, gevolgtrekkingen, ongeïnformeerde interpretaties van gebeurtenissen, vooroordelen en commentaar op de manier waarop het incident wordt beheerd, in de communicatiemix introduceren.

Het beheersen van de communicatiestroom en het beheersen van de perceptie zijn van cruciaal belang bij het beheer van grote incidenten. Als de officiële berichten van het managementteam voor grote incidenten niet duidelijk en tijdig zijn en niet de informatie geven die de betrokkenen verwachten, bestaat het risico dat verkeerde informatie de officiële berichten overstemt, wat leidt tot meer verwarring en een negatieve klantervaring.

Betrokkenheid van de uitvoerende macht en besluitvorming

Naast de algemene technische en prestatie-impact, strekken belangrijke incidenten en de activiteiten die nodig zijn om ze op te lossen, zich vaak uit over de grenzen van bedrijfsfuncties, waardoor kwesties van beslissingsbevoegdheid ontstaan. Bij grote incidenten is bijna altijd een of andere vorm van betrokkenheid van het management vereist om te helpen bij de impactanalyse en communicatie en bij het nemen van belangrijke beslissingen die nodig zijn om wegversperringen weg te nemen, zodat de problemen kunnen worden opgelost. Er staat veel op het spel in een omgeving waar het management de verwachte resultaten van bepaalde acties moet afwegen tegen de risico's ervan. Dit vereist niet alleen een duidelijk ownership, maar ook duidelijke, toegankelijke gegevens over wat er bekend is en wat niet over het huidige incident. Een proces voor het beheer van grote incidenten moet richtlijnen bevatten voor functieoverschrijdende besluitvorming om vertragingen en verwarring te voorkomen terwijl er een groot incident aan de gang is.

Symptomen verzachten kan een uitdaging zijn; oorzaken aanpakken kan nog moeilijker zijn

De uitdagingen van het beheer van grote incidenten houden niet op wanneer de service is hersteld. Net als bij normale incidentbeheerprocessen is de primaire doelstelling tijdens een 'live', groot incident het beperken van de gevolgen en het nemen van corrigerende maatregelen om het bedrijf weer normaal te laten functioneren. Het begrijpen van de hoofdoorzaak en het implementeren van acties om te voorkomen dat het probleem zich opnieuw voordoet, vallen onder de bevoegdheid van probleembeheerprocessen. Gezien de grotere impact van een groot incident op het bedrijf, is het gebruikelijk dat leidinggevenden een actieve follow-up uitvoeren om ervoor te zorgen dat de hoofdoorzaak tijdig wordt vastgesteld en preventieve maatregelen worden genomen.

In veel gevallen zijn de verwachtingen van het management van problemen onrealistisch, met twee uitdagingen.

  1. De symptomen van het incident achter je laten en de echte hoofdoorzaak vaststellen. Door de verwarring bij het beheer van het actieve ernstige incident gaat cruciale diagnostische informatie vaak verloren of wordt deze vernietigd, waardoor de hoofdoorzaak niet kan worden vastgesteld.
  2. Het verzekeren van ondersteuning en prioritering voor preventieve acties en het uitvoeren van fixes zodra het bedrijf weer normaal functioneert. Terwijl het bedrijf actief wordt beïnvloed, is er vaak een houding van "doen wat gedaan moet worden" die snel verdwijnt zodra de dienstverlening is hersteld.

Om deze twee valkuilen te vermijden, is een sterk geïntegreerd, grootschalig Incident- en Problem-Management proces vereist, waarbij kritische "oorzaakinformatie" actief wordt veiliggesteld en gedocumenteerd en serviceverbetering wordt voortgezet. Alleen dan kan echte IT-stabiliteit worden bereikt gedurende een langere periode.

Naleving vs. Impactbeperking

Aanhoudend misbruik van gegevens en technologie hebben ertoe geleid dat overheden en regelgevende instanties over de hele wereld bedrijven een breed scala aan compliance-eisen hebben opgelegd om de veiligheid, getrouwheid en het juiste beheer van bepaalde soorten technologie en gegevens te waarborgen. Om de naleving van deze voorschriften te handhaven en te controleren, hebben de meeste bedrijven een reeks proces- en systeemcontroles ingevoerd om ervoor te zorgen dat de handelingen van individuele personen in overeenstemming zijn met de verplichtingen van het bedrijf.

Tijdens een groot incident kunnen deze controles omslachtig worden en een doeltreffende diagnose en oplossing van de situatie in de weg staan.

Wanneer dit gebeurt, worden bedrijfsleiders en ondersteunend personeel vaak voor de keuze gesteld om "het glas te breken in geval van nood" - de controlemechanismen omzeilen en het risico lopen dat de regelgeving niet wordt nageleefd of de controlemechanismen handhaven en de gevolgen van het incident verlengen.

Dit is het zakelijke equivalent van de keuze die artsen op de spoedeisende hulp moeten maken wanneer zij geconfronteerd worden met het redden van de patiënt of het redden van een ledemaat.

Afhankelijk van de situatie en de aard van de controles die worden omzeild, kan deze beslissing gevolgen hebben voor de regelgeving en voor de toekomstige prestaties van het bedrijf. Dit is het bedrijfsequivalent van de keuze die dokters op de spoedeisende hulp moeten maken wanneer ze geconfronteerd worden met het redden van de patiënt of het redden van een ledemaat. Het proces voor het beheer van grote incidenten van een bedrijf moet daarmee rekening houden en voorzien in een duidelijk omschreven beleid en uitzonderingsprocedures voor het geval moet worden overwogen deze te omzeilen. In de meeste gevallen zullen de regelgevende instanties goed gedocumenteerde uitzonderingen aanvaarden als een voldoende vervanging voor de normale controlemechanismen, dus vooruit plannen is van cruciaal belang.

De meeste grote incidenten zijn tijdelijke situaties en een bedrijf zal (hopelijk) in staat zijn om terug te keren naar de normale werking, die proces- en systeemcontroles voor compliance omvat. Naast de onmiddellijke impact van het omzeilen van compliancecontroles, moeten bedrijven ook rekening houden met de uitdagingen en implicaties van het herstellen van de controlemechanismen nadat ze enige tijd omzeild zijn geweest. Nadat het incident is opgelost, kan dit een aantal vervolgactiviteiten vereisen die waarschijnlijk kostbaar en tijdrovend zijn. Het is belangrijk dat hiermee rekening wordt gehouden bij het nemen van een "break-the-glass"-beslissing.

Wacht niet tot het te laat is!

Bedrijfsleiders kunnen niet bepalen wanneer grote incidenten zullen plaatsvinden, maar ze kunnen wel bepalen hoe het bedrijf grote incidenten beheert en erop reageert. Algehele uitmuntende dienstverlening, waaronder een effectief en goed begrepen proces voor het beheer van grote incidenten, is de sleutel tot een snelle reactie op het incident, het oplossen van de onmiddellijke gevolgen, het behoud van de bedrijfsreputatie en het beperken van het operationele risico en het risico voor de klant.

Het proces voor grote incidenten moet gescheiden zijn van het proces voor het beheer van normale dagelijkse incidenten en moet geoptimaliseerd zijn voor snelheid en effectieve oplossing, naast doordachte en tijdige communicatie met belanghebbenden. Tijdens een actief incident moeten ondersteunend personeel en leidinggevenden vertrouwen op het beheer van grote incidenten om hen te helpen het end-to-end proces onder controle te krijgen en hun activiteiten er doorheen te loodsen:

  • Inzicht in het incident en de symptomen
  • Beperking van de gevolgen en beheer van de risico's
  • Ervoor zorgen dat beslissingen zichtbaar zijn en op gegevens zijn gebaseerd
  • Beoordeling van mogelijke oorzaken (indien nodig)
  • Percepties en verwachtingen beheren
  • Terugkeren naar normaal

Het goed managen van grote incidenten is voor veel IT- en supportmanagers misschien niet zo boeiend als bijvoorbeeld nieuwe veranderingsinitiatieven, maar het slecht managen ervan kan zeker desastreus zijn. Als marktleider op het gebied van probleemoplossing werkt Kepner-Tregoe al meer dan 60 jaar samen met klanten om hun mogelijkheden voor het managen van grote incidenten in operations en IT te verbeteren en hen te helpen uitmuntende dienstverlening te realiseren.

Auteur

Christoph Goldenstern

VP van Strategie & Service Excellence

Christoph is een consulting leider met meer dan 20 jaar ervaring in het helpen van organisaties op het gebied van strategie, operationele en serviceverbetering. Als lid van KT's executive leadership team en global VP of Strategy and Service Excellence, is hij verantwoordelijk voor KT's business strategie en de oplossingen voor IT Service Management en Technical Support.

Wij doen ons uiterste best om nuttige en interessante inhoud te creëren. Wij stellen uw interesse op prijs!

Meld u aan of log in op uw account om het hele artikel te lezen.

Gerelateerd

Proceskennis en inhoudskennis. Wat is belangrijker?

Shift Left? Nee, 'Shift Down' voor Services Support Success

Neem contact met ons op

Voor vragen, details, of offertes!