Unternehmen und Regierungsbehörden weltweit haben erkannt, dass Cloud-Dienste ihre Organisationen schneller, skalierbarer und agiler machen können, wenn es darum geht, auf geschäftliche Veränderungen zu reagieren. Mit dynamischen Infrastrukturumgebungen wie Infrastructure as a Service (IaaS) und Platform as a Service (PaaS) sowie einer Vielzahl von SaaS-Software und Drittanbieterangeboten, die in der Cloud verteilt und betrieben werden, scheint es keine Grenzen dafür zu geben, was Unternehmen tun können und wie schnell sie es tun können. Während Geschwindigkeit und technische Agilität für Geschäftsfunktionen, die schnell agieren müssen, sehr vorteilhaft sind, können sie für Problemmanager, die herausfinden müssen, „was passiert ist“ und „warum es passiert ist“, wenn ein Problem den Geschäftsbetrieb stört, ernsthafte Schwierigkeiten verursachen.
Werkzeuge und Techniken der Vergangenheit sind für die Geschwindigkeit der Cloud unzureichend
Problemmanager haben sich lange auf zwei Kernsätze von Betriebsdaten verlassen, um die Ursache von Problemen zu diagnostizieren: Abhängigkeitsdaten und Änderungsdaten. Mit Cloud-Diensten benötigen Problemmanager immer noch Abhängigkeits- und Änderungsdaten, aber diese Betriebsdaten müssen jetzt jederzeit aktuell, vollständig und präzise sein. Sie benötigen auch Betriebsdaten, die sich mit jeder Änderung Ihrer IT-Umgebung weiterentwickeln und synchron bleiben; wenn also ein Cloud-Dienst eine neue Instanz startet oder Komponentenabhängigkeiten neu konfiguriert, müssen Sie dies wissen, sobald es geschieht.
In einer früheren Welt der On-Premise-Infrastruktur und installierten Softwarepakete wurden Änderungen relativ selten vorgenommen (täglich, wöchentlich, monatlich), sodass sich Abhängigkeits- und Änderungsdaten nicht sehr oft änderten. Mit Cloud-Diensten werden Änderungen kontinuierlich vorgenommen, und Abhängigkeiten können nur wenige Sekunden bestehen, bevor sie im Rahmen der normalen Cloud-Optimierung neu konfiguriert werden. Tritt ein Vorfall auf, der einen Ausfall verursacht, existiert der „Schnappschuss“ der Umgebung zum Zeitpunkt des Vorfalls möglicherweise nur für einen Bruchteil einer Sekunde. Herkömmliche Ansätze zur Pflege von Änderungs- und Abhängigkeitsaufzeichnungen können nicht realistisch skaliert werden, um eine sich so schnell ändernde Umgebung zu erfassen.
Cloud-Admin-Tools als Problemmanagement-Toolset
Die einzigen Systeme, die die Änderungen in Cloud-Diensten erfassen können, sobald sie auftreten, sind die in die Cloud-Dienste selbst integrierten Verwaltungstools, die die Änderungen initiieren. Traditionelle Configuration Management Databases (CMDBs) und Änderungsaufzeichnungs-Repositories in IT Service Management (ITSM)-Systemen können bei der Integration und bei übergeordneten Problemen helfen, aber die Cloud-Admin-Tools verfügen über die Details, die für ein modernes Problemmanagement erforderlich sind. Problemmanager müssen verstehen, dass Cloud-Dienste in einem völlig anderen Tempo als herkömmliche IT-Umgebungen arbeiten, und die Diagnose der Ursache von Problemen in diesen Umgebungen erfordert die Interaktion mit einem neuen Satz von Tools und Daten.
Eine hilfreiche Analogie ist der Unterschied zwischen einem Standbild und einer Filmsequenz. Problemmanager sind es gewohnt, auf das Standbild zu starren und nach versteckten Details zu suchen, aber sie sind nicht an die Komplexität von bewegten Bildern gewöhnt. CMDB- und Änderungsaufzeichnungen geben dem Problemmanager Hinweise auf den allgemeinen Bereich in der Sequenz, aber ein anderer Satz von Tools ist erforderlich, um einzelne Frames und Objekte zu isolieren, um ein wahres Verständnis dessen zu entwickeln, was geschieht. Cloud-Admin-Tools tun im Wesentlichen dasselbe. Sobald der Problemmanager in der Lage ist, zu identifizieren, wann der Vorfall aufgetreten ist, kann er oder sie sich darauf konzentrieren, was in dieser Zeit geschah und welche Aktionen/Aktivitäten bestimmte Ereignisse ausgelöst haben.
Moderne Funktionen machen einige Problemmanagement-Aktivitäten überflüssig
Eine vielversprechende Entwicklung im Bereich der Cloud-Dienste ist die Reifung von Selbstheilungsfunktionen. Wenn Cloud-Verwaltungstools ein Problem identifizieren, sind sie zunehmend in der Lage, Daten zu sammeln und die Dienste neu zu konfigurieren, um die Kontinuität aufrechtzuerhalten und eine Unterbrechung für die Benutzer zu vermeiden. Diese erhöhte Service-Resilienz hat viele ITSM-Praktiker dazu veranlasst, zu hinterfragen, ob es immer notwendig ist, die Ursache eines Problems zu verstehen, das sich von selbst gelöst hat.
Da Machine-Learning- und Künstliche-Intelligenz-Funktionen in die ITSM-Fähigkeiten von Unternehmen integriert werden, werden sich viele der traditionellen Analyseprozesse, wie das Problemmanagement, in den nächsten Jahren voraussichtlich erheblich ändern. Es ist unwahrscheinlich, dass diese Technologien das Problemmanagement als menschlichen Prozess eliminieren werden, sondern Machine Learning (ML) und Künstliche Intelligenz (KI) werden ein erweitertes, robusteres Set von Tools und neue Informationen bereitstellen, um Problemmanagern zu ermöglichen, effektiver und effizienter zu sein, vorausgesetzt, sie sind in der Lage, die Daten zu interpretieren und Rohdaten in nutzbare Informationen umzuwandeln, um ihre RCAs und Untersuchungen zu speisen. Cloud-Dienste mögen das Problemmanagement erschweren, aber andere Technologien werden die Auswirkungen ausgleichen und es ein wenig einfacher machen.
Über Kepner-Tregoe
Kepner-Tregoe ist seit mehr als 60 Jahren Branchenführer für Problemlösungs- und Service-Excellence-Prozesse. Die Expertinnen und Experten von KT haben Unternehmen dabei unterstützt, ihre Leistungsfähigkeit im Incident- und Problem-Management durch Tools, Trainings und Beratung zu steigern – und so hochwirksame Service-Management-Teams aufzubauen, die bereit sind, auf die kritischsten Themen Ihres Unternehmens zu reagieren.