Monitoring, Backup und Recovery in virtualisierten Umgebungen (2)
Beim Betrieb einer Virtualisierungsinfrastruktur müssen IT-Verantwortliche auch dafür sorgen, dass die Umgebung verfügbar ist und im Fehlerfall schnell und ohne Datenverluste wieder anläuft. Hier kommen Monitoring, Backup, Ausfallsicherheit und Desaster-Recovery-Strategien ins Spiel. In der zweiten Folge des Workshops gehen wir darauf ein, warum USV-Systeme Pflicht sind, wie Sie beim Storage auf IOPs und Latenz achten und warum Sie beim Monitoringauch Temperatur und Wasser erfassen sollten.
USV ist Pflicht bei der Stromversorgung
Neben der Technik benötigen Sie auch eine gute, zuverlässige und konstante Stromversorgung. Wir haben in Deutschland zwar ein sehr stabiles Stromnetz, trotzdem kann es immer mal zu einem Ausfall oder einer geplanten Downtime kommen, zum Beispiel wenn Zähler oder andere Komponenten getauscht werden müssen. Unterbrechungsfreie Stromversorgungen (USV-Systeme) gehören zum absoluten Standard in Firmen, darüber hinaus entscheidet die Höhe der Abhängigkeit von den Systeme, ob Sie weitere Maßnahmen ergreifen müssen.
So stehen optional Dieselgeneratoren bereit, die bei einem Ausfall von mehr als einigen Minuten einspringen und die EDV-Systeme mit Strom versorgen. Ob eine solche Verfügbarkeit benötigt wird, lässt sich nicht pauschal beantworten. Sie sollten jedoch das Thema Stromversorgung und Verfügbarkeit, vor allem mit Blick auf die möglichen Kosten, in Ruhe betrachten und entsprechend den Anforderungen umsetzen. Eine USV mit ausreichend Kapazität ist ein absolutes Muss, alles andere darüber hinaus kann, muss aber nicht. Stellen Sie sich die Frage, wie viele Mitarbeiter noch arbeiten können, wenn das Datacenter noch Strom hat, das gesamte restliche Gebäude aber nicht mehr.
Erhöhen der Verfügbarkeit durch Guest Clustering
Gerade in der Microsoft-Welt gibt es mittlerweile viele Dienste und Produkte, die sich redundant beziehungsweise hochverfügbar betreiben lassen. Dies muss nicht zwangsläufig eine SQL-Server-Enterprise-Installation sein, schon ein zweiter Domaincontroller sorgt dafür, dass ein zusätzlicher Anmelde- und DNS-Server in der Umgebung zur Verfügung steht. Der Microsoft-DHCP-Dienst erlaubt seit einiger Zeit, einen Partner einzutragen, der parallel in Absprache mit dem primären System oder als Fallback-Server IP-Adressen an Ihre Systeme und Clients verteilen kann (übrigens eine super Sache, schauen Sie sich diese Möglichkeit unbedingt einmal an). Durch die Installation eines File-Server-Clusters haben Sie die Möglichkeit, einzelne Cluster-Knoten in den Wartungsmodus zu versetzen, mit Updates zu versehen und neu zu starten.
Bei all diesen Aufbauten können Sie die virtuellen Server in zwei oder mehr Clustern betreiben. Diese Art von Aufbau nennt sich "Guest Cluster" und führt dazu, dass selbst bei dem Ausfall eines kompletten Hypervisor-Clusters immer noch ein Teil des Applikationsclusters zur Verfügung steht und es nicht zu einer vollständigen Downtime kommt.
Monitoring des Hypervisors
Schon bei einer sehr geringen Größe der IT-Landschaft ist es nahezu unmöglich, alle Systeme im Überblick zu behalten. Bei dieser Aufgabe helfen Ihnen Programme, die sich auf eine Überwachung der Infrastruktur spezialisiert haben. Die Auswahl der Programme reicht von kleinen Helfern, die ganz simpel ein System per Ping kontaktieren bis hin zu Aufbauten, die sich sämtliche Daten einverleiben, diese auswerten und sogar Anomalien feststellen, zum Beispiel eine unnatürlich hohe Latenz auf einer VPN-Strecke oder eine schlechtere Schreibleistung im Storage als in den vergangenen Tagen und Wochen.
Je mehr Daten Sie über Ihre Infrastruktur sammeln und je besser diese ausgewertet werden, desto eher finden Sie mögliche Engpässe oder die Ursache für Probleme. Beim Betrieb einer Hypervisor-Infrastruktur gibt es einige Werte, bei denen eine generelle Überwachung sinnvoll ist, da Engpässe bei diesen Werten in nahezu allen Fällen zu spürbaren Problemen führt.
Überwachen Sie Ihre Hardware-Hypervisoren, sollten Sie hier im ersten Schritt die allseits bekannten Performancewerte für die CPU, die Auslastung des Arbeitsspeichers und den Füllstand der lokalen Datenträger im Blick behalten. Eine Überwachung der Netzwerkschnittstellen sorgt dafür, dass Sie die Bandbreiten, Latenzen, mögliche Paketfehler und natürlich komplette Ausfälle erkennen. Ist Ihre Storage per IP angebunden, sehen Sie durch ein Monitoring auch hier die Durchsätze und können erkennen, ob Lastspitzen im Tagesverlauf dafür sorgen, dass sämtliche zur Verfügung stehende Bandbreite aufgebraucht wird und Sie die Netzwerkleistung erhöhen sollten.
Wenn Sie mehrere Systeme in einem HA-Verbund betreiben, kann eine gute Software Ihnen immer sofort melden, wenn Sie mehr Gesamtressourcen nutzen als ein System oder eine Site Ihres Cluster allein stemmen kann.
Im Storage auf IOP und Latenz achten
Durch die Überwachung des hochverfügbaren Speichers sehen Sie Auslastung sowie Wachstumsraten und können beispielsweise bei einer LUN rechtzeitig reagieren, bei der der Speicherplatz zur Neige geht. Dies führt dazu, dass Sie nicht in einen Fehler laufen, keine direkten Ausfälle haben und Ihre Kollegen nicht mehr arbeiten können, sondern dass Sie rechtzeitig entweder das Volume vergrößern oder nicht mehr benötigte Daten löschen können. Sie sollten versuchen, grundsätzlich proaktiv zu arbeiten und Fehler erst gar nicht auftauchen zu lassen.
Achten Sie beim Storage-Monitoring unbedingt auf die IOPS und die Latenzen des Systems. Im besten Fall haben Sie vor der produktiven Inbetriebnahme Ihres Storage einen Test hinsichtlich maximaler IOPS durchgeführt. Durch die Verfügbarkeit einer solchen Baseline wissen Sie, welche Leistung das System schafft und ab wann es kritisch wird. Ohne solch eine Baseline haben Sie zwar einen aktuellen Wert, wissen aber nicht, ob dies das Maximum ist oder ob noch Luft nach oben ist.
Eine genaue Beobachtung der Latenzen zeigt Ihnen, ob das Storage-System schnell genug reagiert oder ob Sie hier mögliche Engpässe haben. Je kleiner die Latenz ist, desto besser. Werte von unter einer Millisekunde sind traumhaft, lassen sich aber eigentlich nur mit Speicher erreichen, der zum Teil oder vollständig auf Flash beruht. Ab Latenzwerten von 15 bis 20 Millisekunden sollten Sie aufmerksam werden und schauen, ob Sie diese Werte in den Griff bekommen.
Dies kann zum Beispiel dadurch erfolgen, dass Sie einen Teil Ihrer VMs auf ein anderes Aggregat, LUN oder Volume verschieben, das mit anderen Datenträgern arbeitet. Haben Sie dauerhaft Werte von 50 Millisekunden oder mehr, sollten Sie unbedingt an einer Problemlösung arbeiten. Hohe Latenzen führen dazu, dass die Systeme träge erscheinen, langsam reagieren und schlechter nutzbar sind. Gerade Datenbanken oder Server, mit denen aktiv gearbeitet wird, wie Remote Desktop Session Hosts oder VDI-Umgebungen, sind von hohen Latenzen negativ betroffen.
Nicht vom Netzwerk ausbremsen lassen
Die Überwachung des Netzwerks ist eine weitere sehr wichtige Aufgaben des Monitorings. Da das Netzwerk eine tragende Komponente beim Aufbau eines Failover-Clusters beziehungsweise eines HA-Verbunds ist, muss dieses zuverlässig und mit ausreichend Kapazität zur Verfügung stehen. Neben einer reinen Verfügbarkeit der Netzwerk-Switches ist hier auch eine Überwachung von Bandbreite, Port-Speed und der Fehler auf den einzelnen Ports sinnvoll.
Kann Ihr Hypervisor beispielsweise noch erfolgreich eine Verbindung aufbauen wurde im Switch der Port aber fälschlicherweise auf 100 MBit/s ausgehandelt, führt dies nicht zu einer Verbesserung der Performance. Solche Fehler finden Sie nicht, indem Sie einen Server per ICMP abfragen. Bild 3 zeigt das Beispiel eines Interface, das mit einer falschen Bandbreite betrieben wird.
Temperatur und Wasser erfassen
Sie sollten bei dem Aufbau Ihres Monitorings auch eine Überwachung von Raumtemperatur und weiteren Werten andenken. Fällt zum Beispiel Ihre Klimaanlage unbemerkt aus und der Raum erhitzt sich übermäßig stark, kann dies schnell zu Systemen führen, die sich selbst abschalten oder die sogar durch die Hitze kaputt gehen. Mit einer zuverlässigen Überwachung der Temperatur können Sie zeitnah reagieren und ein mögliches Backup-Klimagerät in Betrieb nehmen oder kontrolliert Systeme herunterfahren, bevor sie unkontrolliert ausfallen.
Je nach Lage und Standort der IT kann es sinnvoll sein, einen Wassersensor zu betreiben, der bei einem möglichen Wasseraustritt Alarm schlägt. Solche Sensoren gibt es zum Teil inklusive IP-Schnittstelle zu kaufen, sodass die Monitoringsoftware das Gerät per SNMP abfragen kann. Stellen Sie sich einfach einmal das verbreitete Szenario vor, dass Wasserleitungen oberhalb des Serverraums verlaufen. Da IT-Hardware häufig im Keller steht, besteht hier immer das Risiko, dass die Räume mit Wasser geflutet werden und wichtige Hardware zerstört wird. Bild 4 zeigt das Monitoring mit einem Sensor, der sowohl den Austritt von Wasser bemerken kann als auch die Temperatur im Raum zeigt.
Im dritten Teil erklären wir, wie Sie mit einem Backupplan für stufenweisen Schutz der Daten sorgen, warum Replikation nicht gleich Backup ist und wie Sie ein effizientes Desaster-Recovery vorbereiten. In der ersten Folge des Workshops beschäftigten wir uns mit der Ausfallsicherheit von Servern, der Hochverfügbarkeit von Storage-Systemen und der Redundanz im Netzwerk.
Autor: Jan Kappen