5 Tipps zur Ursachenanalyse in der Cloud

Cloud-Services haben in den letzten Jahren die verfügbaren IT-Fähigkeiten zur Unterstützung der vielfältigen Geschäftsanforderungen von Unternehmen erheblich erweitert. Eigenentwickelte Software wird durch SaaS ersetzt, und unternehmenseigene Rechenzentren werden durch IaaS- und PaaS-Angebote abgelöst. Während der Umstieg in die Cloud erhebliche Vorteile in Bezug auf Geschäftsfunktionalität, Skalierbarkeit und die Senkung von Investitionskosten bietet, kann die Verwaltung dieser Umgebungen zur Sicherstellung der Servicequalität für die Nutzer anspruchsvoll sein.

Ein Bereich, mit dem IT-Service-Management-Teams (ITSM) häufig zu kämpfen haben, ist die Frage, wie sich Probleme und ihre Ursachen effektiv diagnostizieren lassen, wenn Symptome, Daten und Auswirkungen über die Grenzen des Unternehmens hinausgehen. Eine Ursachenanalyse (Root Cause Analysis, RCA) in der Cloud erfordert einen anderen Blick auf die IT-Umgebung, eine stärkere Abhängigkeit von Daten als Hilfsmittel für die Analyse sowie das Wissen, wann Partner in die Diskussion einbezogen werden sollten. Hier sind 5 Tipps zur Durchführung einer Ursachenanalyse in der Cloud, die Ihnen helfen, dies besser zu verstehen:

1. Automatisierung nutzen

Bei Cloud-Services haben Sie in der Regel keinen Zugriff auf den Quellcode, um Software zu debuggen, und Sie können die meisten Geräte in der Umgebung auch nicht physisch berühren. Monitoring und Diagnose von Cloud-Umgebungen erfordern, dass Sie Automatisierung kompetent einsetzen, damit sie als Ihre „Augen und Ohren“ dient. Die meisten Cloud-Services verfügen über eigene Administrationstools, mit denen Sie nachvollziehen können, was innerhalb des Services passiert. Für die Überwachung der Verfügbarkeit und Performance der Services für Endnutzer können jedoch externe Monitoring- und Diagnosefunktionen erforderlich sein.

Ein Beispiel für den Einsatz von Monitoring-Tools zur Untersuchung ist:

Nutzer sind von extremer Langsamkeit in einer Kernanwendung betroffen. Über das Wochenende wurden Änderungen implementiert, und Incident Manager richten ihren Blick naturgemäß darauf als mögliche Ursache.

Ein Blick auf die Ladezeit in Citrix zeigt jedoch, dass die übermäßige Latenz auf Roaming-Nutzer beschränkt ist. Es besteht also eindeutig kein Bedarf, die Änderungen an der Anwendung zu untersuchen!

2. Partner einbinden

Wenn Sie Cloud-Services nutzen, sind Sie nicht nur von der Technologie abhängig – Sie erweitern Ihren Servicebetrieb um die Lieferantenorganisationen, die die Services bereitstellen und betreiben. Tritt ein Problem auf, das Diagnose und Troubleshooting erfordert, sollte der Cloud-Anbieter zur Unterstützung bereitstehen. Um diese Ressourcen zu nutzen, müssen Sie einige Dinge anders machen, als Sie es vielleicht bisher getan haben. Erstens (und für die meisten Unternehmen am herausforderndsten) ist anzuerkennen, dass Troubleshooting keine Einzelaktivität mehr ist, sondern Teamarbeit. Sie müssen verstehen, wer zum Team gehört und wie Sie diese Personen einbinden. Zweitens müssen Sie Ihre Service Level Agreements (formale Verträge mit Lieferanten) verstehen, um sicherzustellen, dass sie die Reaktionsfähigkeit und Ressourcen bereitstellen, die Ihr Unternehmen benötigt.

Partner haben ein Interesse daran, Ihnen zu helfen: Ein Incident mit langer Dauer ist nicht nur lästig für Ihre Nutzer, er bindet auch Zeit Ihres Partners bei der Fehlerdiagnose. Je effektiver das gesamte Partner-Ökosystem zusammenarbeitet, desto besser für alle.

Manchmal braucht es dafür einen kleinen vertraglichen Impuls: Statt sich ausschließlich auf Verfügbarkeit und Kennzahlen zu konzentrieren, verlangen Sie von Ihren Service Providern, für jeden signifikanten Ausfall eine Ursache zu liefern. Das Wissen, dass sie eine detaillierte, glaubwürdige Erklärung liefern müssen, wird die Art und Weise, wie sie Incident-Untersuchungen behandeln, positiv beeinflussen.

3. Service-Schnittstellen managen

Cloud-Services sind als „Black Boxes“ gedacht, bei denen die Details der Servicebereitstellung nur den Service Providern bekannt sind (und Ihrer Sicht entzogen bleiben). Das kann gut sein, weil es Ihre IT-Umgebung deutlich weniger komplex macht. Für einige IT-Mitarbeitende kann es frustrierend sein, nicht zu sehen, wie Dinge funktionieren. Der Schlüssel liegt darin, den Fokus auf das Management von Umfang und Schnittstellen des Services zu legen – zu verstehen, was in die Box hineingeht und was herauskommt, sowie welche Funktionen innerhalb des Services erwartet werden. Das Management von Service-Schnittstellen kann Änderungen daran erfordern, was Ihr Unternehmen als Configuration Items in der CMDB betrachtet, was überwacht werden muss und wie SLAs strukturiert sein sollten.

4. Verstehen, woraus Services bestehen

Nur weil Sie das detaillierte Zusammenspiel eines Cloud-Services nicht sehen können, entfällt nicht die Notwendigkeit eines grundlegenden Verständnisses dafür, woraus die von Ihnen genutzten Services bestehen. Die meisten Cloud-Services beinhalten Abhängigkeiten von zugrunde liegender Technologie, Konnektivität durch externe Service Provider und anderen Cloud-Services (wie Hosting oder Datenspeicherung). Es ist wichtig, diese Abhängigkeiten (auf hoher Ebene) zu verstehen, auch wenn Sie sie nicht direkt managen. Sie stellen weiterhin eine potenzielle Fehlerursache dar, die im Prozess der Ursachenanalyse berücksichtigt werden muss.

5. Konnektivität nicht vergessen

Bei der Nutzung von Cloud-Services müssen Sie den Konnektivitätskomponenten besondere Aufmerksamkeit schenken, die Nutzern und Administratoren den Zugriff auf die Services ermöglichen. Es ist zwar großartig, wenn der Service verfügbar ist – aber wenn Sie nicht darauf zugreifen können, haben Sie trotzdem ein Problem. Derselbe Hinweis gilt für Monitoring- und Diagnose-Tools. Wenn die einzigen verfügbaren Tools beim Service Provider gehostet werden, können Sie im Fall eines Konnektivitätsproblems möglicherweise nicht darauf zugreifen.

Cloud-Services gehören zu den größten Fortschritten in der IT-Branche der letzten 5 Jahre und bieten Unternehmen, die sie nutzen, enormes Potenzial für Produktivitätssteigerungen und Kosteneinsparungen. Sie erfordern jedoch, dass Ihr IT-Service-Management anders darüber nachdenkt, wie es Incidents managt, überwacht und behebt, wenn sie auftreten.

Über Kepner-Tregoe

Kepner-Tregoe ist seit über 60 Jahren Branchenführer bei Prozessen und Methoden zur Problemlösung und Ursachenanalyse – und unterstützt Unternehmen dabei, Service Excellence zu erreichen.

5 Tipps zur Ursachenanalyse in der Cloud

1. Automatisierung nutzen

2. Partner einbinden

3. Service-Schnittstellen managen

4. Verstehen, woraus Services bestehen

5. Konnektivität nicht vergessen

Über Kepner-Tregoe

Aktuelles & Insights

Build Trust in your CAPA Investigation

2 Stunden KT: Lernen Sie die Problemlösungs-Methoden von Kepner-Tregoe kennen!

Why Jumping to Solutions Without Finding the Root Cause Costs Organizations More in the Long Run