Lesezeit
3 Minuten
Intelligente Unterstützung für das Application Management
Was in Industrieunternehmen als Predictive Maintenance bekannt ist, kann auch Administratoren beim Management von Anwendungsplattformen unterstützen. Das Ziel dabei ist es, auf der Basis von Datenanalysen Performance-Engpässe und Ausfälle zu verhindern, bevor deren Auswirkungen für den Anwender spürbar werden. Der Beitrag veranschaulicht, wie KI-basierte Monitoringtools dafür Unmengen an Daten auswerten und Vorhersagen über zu erwartende Entwicklungen treffen.
Die Möglichkeiten der Cloud und die damit entstehenden hybriden IT-Infrastrukturen verändern die Art und Weise, wie Applikationen bereitgestellt und administriert werden. Es geht kaum mehr um einzelne Applikationen, die gewissermaßen losgelöst Wartung und Pflege benötigen. Vielmehr steht der anwendergetriebene Plattformansatz im Vordergrund: Verschiedene Anwendungen werden gezielt nach ihren Funktionen ausgewählt und dem Anwender oder Kunden als integrierte Arbeitsplattform zur Verfügung gestellt.
Die Applikationen kommen von unterschiedlichen Anbietern und jeweils spezifischen Servicebedingungen sowie Infrastrukturen: Von der "Full-Service-Public-Cloud-Anwendung" bis zur "On-Premises-Ein-Platz-Lizenz-Applikation" – die Anwender braucht diese Varianz im Background nicht zu interessieren. Für Administratoren hingegen ergeben sich einige Herausforderungen, sowohl beim Aufbau solcher Anwendungsplattformen als auch bei der Wartung. Denn die Auswirkungen eines Systemausfalls sind nun deutlich gravierender, als wenn es nur eine einzelne Applikation betrifft.
Hochverfügbare IT-Infrastrukturen sind teuer
Da Ausfälle kostspielig sind und sich schnell auf angrenzende Prozesse auswirken, kommen in Industrieunternehmen immer häufiger Predictive-Maintenance-Szenarien zur Umsetzung. Dabei messen Sensoren an besonders kritischen Maschinenteilen während der Laufzeit bestimmte Variablen. Je nachdem, was für den Verschleiß des Teils von Bedeutung ist, können dies die Laufleistung, die Umgebungstemperatur oder andere veränderliche Werte sein. Der Zeitpunkt, wann ein Teil ausgetauscht werden muss, lässt sich so deutlich genauer bestimmen und besser einplanen. Lernende Algorithmen sind dabei in der Lage, aus großen Mengen an Daten immer präzisere Vorhersagen zu treffen.
Um IT-Systemausfälle abzufedern, greifen Infrastrukturverantwortliche auf bewährte Konzepte wie Redundanzen und Backups zurück. Das bedeutet konkret, dass die notwendige Hardware dafür zur Verfügung stehen muss. Auch wenn Cloudservices hier Flexibilität und Erleichterung bringen – eine hochverfügbare IT-Infrastruktur kostet Geld. Hinzu kommen die Unzulänglichkeiten der Anwendungen: Fehler und Überlastungen fallen zu spät auf, lassen sich selbst durch redundante Hardware nicht abfangen und führen schlimmstenfalls zum Ausfall der Applikation oder der gesamten Plattform.
Lernendes Application Monitoring
Dabei wäre es sehr hilfreich, wenn sich Unregelmäßigkeiten in den Applikationen bereits so frühzeitig erkennen ließen, um sinnvoll gegensteuern zu können – Predictive Maintenance für Applikationen. Und nicht nur das: Generell hilft es Administratoren und ebenso Entwicklern, wenn sie genaue Einblicke in den Ressourcenverbrauch, die Performance und die Verfügbarkeit der Applikationen haben, Entwicklungen über Zeiträume verfolgen und Zusammenhänge mit den Laufzeitdaten der Hardwarekomponenten herstellen können. Herkömmliche Monitoringtools sind diesem Vorhersage-Anspruch nicht gewachsen. Zwar führen auch reaktive Analysen zu Optimierungen, aber eben erst nach dem der Incident behoben wurde.
Inzwischen ist ein klarer Trend in Richtung intelligenter Monitoringtools erkennbar, die eine parallele Überwachung durch alle Schichten ermöglichen. Gerade bei komplexen Anwendungsplattformen ist es wichtig, dass nicht nur die applikationsseitigen Daten – wie zum Beispiel die Latenzzeit, die Anzahl der zu verarbeitenden Requests oder die transferierten Datenmengen – erfasst werden. Zugleich prüfen solche Tools die infrastrukturellen Belastungen zum selben Zeitpunkt: die Auslastung von Arbeits- und persistentem Speicher beispielsweise, die CPU-Last und der Datendurchsatz (IOPS). Alle Daten werden im Zusammenhang betrachtet und beurteilt. Mit der Zeit erkennt die Monitoringsoftware Muster und lernt, welchen Einfluss welche Veränderungen auf das Gesamtgeschehen haben. Der Markt bietet hier inzwischen eine beachtliche Auswahl an Werkzeugen: Dynatrace, AppDynamics oder Sysdig gehören dabei zu den bekannteren Namen, letztere als Spezialisten für die Laufzeitüberwachung von Containern, Kubernetes und Cloudinfrastrukturen.
Mit solchen Machine-Learning-Algorithmen lassen sich bereits gute Vorhersagen über das künftige Verhalten von Anwendungen erzielen. Dabei kann die Anlernphase mit Trainingsdaten oder direkt im realen Betrieb stattfinden: Das Tool beobachtet zunächst ohne Alerts zu senden, wie der Normalbetrieb aussieht. Das hilft später, abweichende Muster zu erkennen. Dass die Analyse durch alle Infrastrukturschichten hindurch erfolgt, erleichtert die Fehlerbehebung. Die Administratoren müssen nicht jeden Bestandteil des Stacks einzeln prüfen, sondern erhalten eindeutige Hinweise auf die Fehlerursache – die mühselige Root Cause Analysis entfällt. Die als fehlerhaft identifizierte Komponente kann nun systematisch weiter geprüft werden.
Von Machine Learning zu Künstlicher Intelligenz
Die Mustererkennung und Anomalie Detection sind die Basis für die lernenden Algorithmen. Noch interessanter und künstlich intelligent wird es, wenn sich weitere Daten, wie etwa die User Experience oder die Performancedaten unterschiedlicher Sourcing-Optionen, in die Vorausschau einbeziehen lassen.
Ein Beispiel: Ein Unternehmen spielt mit dem Gedanken, bestimmte Applikationen in die Cloud zu verlagern und andere Anwendungen komplett als Service aus der Cloud zu beziehen. Überwacht ein intelligentes Monitoringtool nicht nur die reinen Performancedaten, sondern zugleich alle Verknüpfungen, Abhängigkeiten und Datenströmen zwischen mehreren Anwendungen, lassen sich aus den Daten Schlüsse ziehen, welche Konsequenzen ein Wechsel in die Cloud wirklich hätte.
Fazit
Durch KI-basierte Algorithmen können Monitoringtools Abweichungen vom Normalbetrieb früh erkennen und weitere Entwicklungen vorhersagen. Dabei beziehen sie unmittelbare Messdaten und auch Daten angrenzender Applikationen ein, lernen während des Betriebs immer weiter dazu und entwickeln sich weiter. Administratoren haben so die Möglichkeit, Incidents zu erkennen, bevor sie Auswirkungen haben und entsprechende Maßnahmen zu ergreifen.
ln/Alexander Janthur, CEO der Digitalagentur Turbine Kreuzberg
Die Applikationen kommen von unterschiedlichen Anbietern und jeweils spezifischen Servicebedingungen sowie Infrastrukturen: Von der "Full-Service-Public-Cloud-Anwendung" bis zur "On-Premises-Ein-Platz-Lizenz-Applikation" – die Anwender braucht diese Varianz im Background nicht zu interessieren. Für Administratoren hingegen ergeben sich einige Herausforderungen, sowohl beim Aufbau solcher Anwendungsplattformen als auch bei der Wartung. Denn die Auswirkungen eines Systemausfalls sind nun deutlich gravierender, als wenn es nur eine einzelne Applikation betrifft.
Hochverfügbare IT-Infrastrukturen sind teuer
Da Ausfälle kostspielig sind und sich schnell auf angrenzende Prozesse auswirken, kommen in Industrieunternehmen immer häufiger Predictive-Maintenance-Szenarien zur Umsetzung. Dabei messen Sensoren an besonders kritischen Maschinenteilen während der Laufzeit bestimmte Variablen. Je nachdem, was für den Verschleiß des Teils von Bedeutung ist, können dies die Laufleistung, die Umgebungstemperatur oder andere veränderliche Werte sein. Der Zeitpunkt, wann ein Teil ausgetauscht werden muss, lässt sich so deutlich genauer bestimmen und besser einplanen. Lernende Algorithmen sind dabei in der Lage, aus großen Mengen an Daten immer präzisere Vorhersagen zu treffen.
Um IT-Systemausfälle abzufedern, greifen Infrastrukturverantwortliche auf bewährte Konzepte wie Redundanzen und Backups zurück. Das bedeutet konkret, dass die notwendige Hardware dafür zur Verfügung stehen muss. Auch wenn Cloudservices hier Flexibilität und Erleichterung bringen – eine hochverfügbare IT-Infrastruktur kostet Geld. Hinzu kommen die Unzulänglichkeiten der Anwendungen: Fehler und Überlastungen fallen zu spät auf, lassen sich selbst durch redundante Hardware nicht abfangen und führen schlimmstenfalls zum Ausfall der Applikation oder der gesamten Plattform.
Lernendes Application Monitoring
Dabei wäre es sehr hilfreich, wenn sich Unregelmäßigkeiten in den Applikationen bereits so frühzeitig erkennen ließen, um sinnvoll gegensteuern zu können – Predictive Maintenance für Applikationen. Und nicht nur das: Generell hilft es Administratoren und ebenso Entwicklern, wenn sie genaue Einblicke in den Ressourcenverbrauch, die Performance und die Verfügbarkeit der Applikationen haben, Entwicklungen über Zeiträume verfolgen und Zusammenhänge mit den Laufzeitdaten der Hardwarekomponenten herstellen können. Herkömmliche Monitoringtools sind diesem Vorhersage-Anspruch nicht gewachsen. Zwar führen auch reaktive Analysen zu Optimierungen, aber eben erst nach dem der Incident behoben wurde.
Inzwischen ist ein klarer Trend in Richtung intelligenter Monitoringtools erkennbar, die eine parallele Überwachung durch alle Schichten ermöglichen. Gerade bei komplexen Anwendungsplattformen ist es wichtig, dass nicht nur die applikationsseitigen Daten – wie zum Beispiel die Latenzzeit, die Anzahl der zu verarbeitenden Requests oder die transferierten Datenmengen – erfasst werden. Zugleich prüfen solche Tools die infrastrukturellen Belastungen zum selben Zeitpunkt: die Auslastung von Arbeits- und persistentem Speicher beispielsweise, die CPU-Last und der Datendurchsatz (IOPS). Alle Daten werden im Zusammenhang betrachtet und beurteilt. Mit der Zeit erkennt die Monitoringsoftware Muster und lernt, welchen Einfluss welche Veränderungen auf das Gesamtgeschehen haben. Der Markt bietet hier inzwischen eine beachtliche Auswahl an Werkzeugen: Dynatrace, AppDynamics oder Sysdig gehören dabei zu den bekannteren Namen, letztere als Spezialisten für die Laufzeitüberwachung von Containern, Kubernetes und Cloudinfrastrukturen.
Mit solchen Machine-Learning-Algorithmen lassen sich bereits gute Vorhersagen über das künftige Verhalten von Anwendungen erzielen. Dabei kann die Anlernphase mit Trainingsdaten oder direkt im realen Betrieb stattfinden: Das Tool beobachtet zunächst ohne Alerts zu senden, wie der Normalbetrieb aussieht. Das hilft später, abweichende Muster zu erkennen. Dass die Analyse durch alle Infrastrukturschichten hindurch erfolgt, erleichtert die Fehlerbehebung. Die Administratoren müssen nicht jeden Bestandteil des Stacks einzeln prüfen, sondern erhalten eindeutige Hinweise auf die Fehlerursache – die mühselige Root Cause Analysis entfällt. Die als fehlerhaft identifizierte Komponente kann nun systematisch weiter geprüft werden.
Von Machine Learning zu Künstlicher Intelligenz
Die Mustererkennung und Anomalie Detection sind die Basis für die lernenden Algorithmen. Noch interessanter und künstlich intelligent wird es, wenn sich weitere Daten, wie etwa die User Experience oder die Performancedaten unterschiedlicher Sourcing-Optionen, in die Vorausschau einbeziehen lassen.
Ein Beispiel: Ein Unternehmen spielt mit dem Gedanken, bestimmte Applikationen in die Cloud zu verlagern und andere Anwendungen komplett als Service aus der Cloud zu beziehen. Überwacht ein intelligentes Monitoringtool nicht nur die reinen Performancedaten, sondern zugleich alle Verknüpfungen, Abhängigkeiten und Datenströmen zwischen mehreren Anwendungen, lassen sich aus den Daten Schlüsse ziehen, welche Konsequenzen ein Wechsel in die Cloud wirklich hätte.
Fazit
Durch KI-basierte Algorithmen können Monitoringtools Abweichungen vom Normalbetrieb früh erkennen und weitere Entwicklungen vorhersagen. Dabei beziehen sie unmittelbare Messdaten und auch Daten angrenzender Applikationen ein, lernen während des Betriebs immer weiter dazu und entwickeln sich weiter. Administratoren haben so die Möglichkeit, Incidents zu erkennen, bevor sie Auswirkungen haben und entsprechende Maßnahmen zu ergreifen.
ln/Alexander Janthur, CEO der Digitalagentur Turbine Kreuzberg