Moogsoft fand heraus, dass weniger als 15 % der Befragten ihre MTTD (Mean Time To Detect) verfolgen. Es dauert doppelt so lange, ein Problem zu entdecken, als es zu beheben. Außerdem gaben 80 % der Befragten an, dass sie ihre MTTR nicht verfolgen (der durchschnittliche Lebenszyklus eines Vorfalls beträgt neunzig Minuten, und die meisten Befragten halten ihre SLAs nicht ein). Das bedeutet, dass jedes Mal, wenn ein Vorfall auftritt, eine Stunde verloren geht. Gartner schätzt die Kosten ungeplanter Ausfallzeiten auf etwa 5.600 US-Dollar pro Minute, das sind über 300.000 US-Dollar pro Stunde.
Das ist eine Menge ungeplanter Arbeit, die nicht sichtbar ist. Der US-amerikanische Ökonom Peter Drucker soll gesagt haben: "You can’t improve what you don’t measure".
Der durchschnittliche Lebenszyklus eines Vorfalls dauert 90 Minuten bis zur Lösung.
Die Daten von Moogsoft deuten darauf hin, dass eine geringere Anzahl von KPIs mit einer höheren Verfügbarkeit und Mean Time to Resolve (MTTR) korreliert. Die Hinzufügung der Mean Time to Detect (MTTD) bedeutet jedoch, dass die Teams den gesamten Lebenszyklus eines Vorfalls sehen und Prioritäten setzen können, um ihn zu verkürzen.
Es gibt komplexe Methoden zur Berechnung von MTT(x), aber Moogsoft weiß aus dieser Untersuchung, dass die Begrenzung der Anzahl von KPIs in direktem Zusammenhang mit dem Erreichen eines höheren Verfügbarkeitsniveaus steht. Moogsoft empfiehlt daher, dass sich Teams auf MTTD und MTTR konzentrieren, da dies die aussagekräftigsten und am einfachsten zu messenden KPIs sind. Durch die Verringerung des Zeitaufwands für die Behebung von Störungen wird Zeit für die Verbesserung von Plattformen und Diensten und die Verringerung des Störungsvolumens in der Zukunft frei.
Hier sind die 6 wichtigsten Tipps zur Verbesserung Ihrer MTTx-KPIs laut Moogsoft -
- Vergewissern Sie sich, dass Sie die Definitionen aller Ihnen zur Verfügung stehenden KPIs verstehen - und dass dieses Verständnis in Ihrem Team und Ihrer Organisation verbreitet ist.
- Verstehen Sie, wie die verfügbaren KPIs mit den (kurz- und langfristigen) Unternehmenszielen übereinstimmen.
- Wählen Sie eine kleine Anzahl von KPIs aus und konzentrieren Sie sich auf diese - stellen Sie sicher, dass sie instrumentiert sind, damit die Teams keine Zeit damit verbringen, nach ihnen zu suchen, sie zu berechnen und darüber Bericht zu erstatten - sie müssen zumindest auf einer täglichen Basis verfügbar sei
- Nutzen Sie KPIs aktiv, um Verbesserungsmöglichkeiten zu identifizieren und zu messen, die dazu führen, dass den Teams mehr Zeit zur Verfügung steht, um langfristig in das Kundenerlebnis zu investieren.
- Suchen Sie nach Instrumenten und Tools, die mehr tun als nur zu überwachen und zu warnen - suchen Sie nach Tools, die Erkenntnisse liefern, die ein Mensch allein nur schwer finden kann
- Akzeptieren Sie, dass Tools ständig gewartet werden müssen - sie müssen korrekt konfiguriert und angepasst werden, wenn sich die Bedingungen um sie herum ändern - bei den meisten Tools gibt es einen Overhead (und/oder finden Sie ein Tool, das die Überwachung überwacht, z. B. AIOps)
Weitere Daten, Einblicke von Branchenführern und umsetzbare Erkenntnisse finden Sie im vollständigen State of Availability Report.
Akronym | Abkürzung | Defintion |
MTBF | Mean Time Between Failures | Misst die Fähigkeit eines Systems oder einer Komponente, seine/ihre erforderlichen Funktionen unter bestimmten Bedingungen für eine bestimmte Zeitspanne auszuführen; die Zeit, die zwischen Systemausfällen im täglichen Betrieb vergeht. |
MTTA | Mean Time To Acknowledge | Die durchschnittliche Zeit, die vom Auslösen eines Alarms bis zum Beginn der Bearbeitung des Problems vergeht. |
MTTD | Mean Time To Detect (Discover) | Die Zeit zwischen dem Auftreten eines Vorfalls und seiner Entdeckung. Oder die Zeit, die für die Entdeckung der Ursache eines Vorfalls aufgewendet wird, bevor mit der Durchführung der Reparatur begonnen wird. |
MTTF | Mean Time To Failure | Die durchschnittliche Zeitspanne, die ein defektes System weiterlaufen kann, bevor es ausfällt. Die Zeit beginnt, wenn ein schwerwiegender Fehler in einem System auftritt, und endet, wenn das System vollständig ausfällt. MTTF wird verwendet, um den Status von nicht reparierbaren Systemkomponenten zu überwachen und zu analysieren, wie lange eine Komponente im Feld funktioniert, bevor sie ausfällt. |
MTTR | Mean Time To Recover (Restore) | Die Zeit, die benötigt wird, um eine Anwendung nach einem Leistungsproblem oder einer Ausfallzeit wieder in Betrieb zu nehmen. Dies umfasst die gesamte Zeit des Ausfalls - vom Zeitpunkt des System- oder Produktausfalls bis zur Wiederherstellung der vollen Betriebsbereitschaft. |
MTTR | Mean Time To Repair | Die durchschnittliche Zeit, die für die Reparatur eines Systems benötigt wird, einschließlich der Reparaturzeit und der Testzeit. |
MTTR | Mean Time To Resolve (Resolution) | Die mittlere Zeit bis zur Problemlösung bezieht sich auf die Zeit, die benötigt wird, um ein Problem zu beheben und nachfolgende "Bereinigungen" oder proaktive Schritte durchzuführen, die verhindern sollen, dass das Problem erneut auftritt. Teams sollten sich mit beiden Aufgaben befassen, bevor sie ein Problem für gelöst erklären können. |
MTTR | Mean Time To Respond | Die durchschnittliche Zeit, die ab dem Zeitpunkt der ersten Meldung benötigt wird, um ein Produkt- oder Systemversagen zu beheben. Darin ist die Verzögerungszeit im Warnsystem nicht enthalten. |
Moogsoft ist der führende Anbieter von KI-gesteuerten Observability-Lösungen für intelligentes DevOps. Moogsoft liefert die fortschrittlichste Cloud-native Self-Service-Plattform für Software-Ingenieure, Entwickler und Betreiber, um sofort alles zu sehen, zu wissen, was falsch ist und Dinge schneller zu beheben.