ESXi Überwachung mit Icinga

Die automatisierte Überwachung der IT-Infrastrukturen unserer Kunden ist eines der wichtigsten Hilfsmittel im Bereich ICT-Services. Mit Hilfe der Monitoring Lösung Icinga sind wir imstande Probleme bei Hard- und Software in sehr kurzer Zeit zu erkennen und zu beheben. Dies ist essenziell wichtig, um die Ausfallsicherheit aller Systeme zu erhöhen.

Für die Überwachung setzen wir die Open-Source Software Icinga ein. Dies ist eine Weiterentwicklung der weit verbreiteten Lösung Nagios. Betrieben wird die gesamte Infrastruktur auf virtualisierten Linux Servern. Dadurch ist ein ressourcenschonender Betrieb möglich.



1.Übersicht

Bei der Systemüberwachung beschränken wir uns auf Infrastruktur­geräte. Dies sind in erster Linie Netzwerkgeräte aller Art sowie physische und virtuelle Server. Wir verzichten auf die Überwachung von Clientgeräte wie Drucker und Computer.

ICINGA-Baum

Dadurch erhalten wir auf einen Blick eine Übersicht der kompletten Kunden-Infrastruktur. Ausserdem bietet es für unsere tägliche Arbeit und den professionellen Service weitere Vorteile:

2.Systemaufbau

Wir haben das Monitoring System aus Performance­gründen dezentral organisiert. Es besteht im Wesentlichen aus den folgenden Komponenten:

Die dedizierten Server fragen die Leistungsdaten der zu überwachenden Systemen in regelmässigen Abständen ab und senden diese an den zentralen Server. Dieser wertet die Daten aus und löst je nach Konfiguration die entsprechenden Schritte aus. Die Kommunikation zwischen den Systemen läuft dabei ausschliesslich über gesicherte VPN-Verbindungen.

Ein Vorteil von Icinga (bzw. Nagios) ist die Flexibilität und die fast endlosen Möglich­keiten. Durch eigene Erweite­rungen kann die Breite der überwachten Dienste ergänzt und auf die jeweiligen Anforderungen genau zugeschnitten werden.

So verwenden wir zum Beispiel seit Kurzem zwei teilweise selbst geschriebene Erweiterungen zur Überwachung von ESXi Hosts. Da der grösste Teil der von uns betreuten Server virtualisiert ist, sind auch die Hostsysteme entsprechend von zentraler Bedeutung.

3.Überwachung ESXi Server

Als Hostsystem für die virtuellen Serverumgebungen verwenden wir VMware ESXi Server. Um einen störungsfreien Betrieb gewährleisten zu können, ist die detaillierte Überwachung dieser Server enorm wichtig. Einerseits betrifft dies Leistungs­daten wie die Auslastung von Arbeitsspeicher, Prozessoren oder Festplatten­speicher und andererseits Hardware­daten um Defekte zu erkennen.

Hardware Überwachung

Hardware-Status

Mit einer Erweiterung lesen wir den Hardwarestatus von den ESX Servern aus. So können wir erkennen, ob ein Defekt an der Hardware vorliegt oder beispiels­weise die Batterie vom Raid-Controller noch genügend Leistung erbringt. Da für die Auswertung die ESX eigenen Mittel verwendet werden, ist es wichtig eine aktuelle und hersteller­spezifische ESX Installation mit allen Treibern einzusetzen. Ansonsten wird nicht das ganze mögliche Spektrum abgedeckt.

Die Abfrage der Hardware­daten erfolgt direkt auf dem ESX Host mithilfe des WBEM CIM-XML Protokolls. Umgesetzt ist die Erweiterung als Python Script.

Mit folgendem Code lassen sich die Informationen auslesen:

import pywbem
result = pywbem.WBEMConnection('https://<Adresse>', (<user>,<password>), 'root/cimv2')

Die dadurch zurückgegebenen Instanzen und Klassen enthalten alle Informationen über die Hardware. Beispiel zum Auslesen des Herstellers:

chassisInfo = result.EnumerateInstances('CIM_Chassis')
manufacturer = chassisInfo[0][u'Manufacturer']

Die Vorteile einer solchen Überwachung liegen – wie das folgende Beispiel zeigt - auf der Hand: Ein Server steht in der Regel in einem nur selten durch qualifiziertes Personal aufgesuchtem Serverraum. Fällt nun bei einer RAID5-Konfiguration eine Festplatte aus, würde dies nur per Zufall und nicht innert nützlicher Frist entdeckt. Der Ausfall der einen Festplatte hat einen negativen Einfluss auf die Performance des gesamten Systems und viel wichtiger, die Wahrscheinlichkeit auf einen Totalausfall durch einen weiteren Defekt steigt erheblich. Ein solcher Ausfall hätte einen längeren Betriebsunterbruch, bedingt durch eine zeitaufwändige Komplettwiederherstellung aus dem Backup, zur Folge. Durch die Überwachung wird der erste Defekt nun innerhalb von Minuten gemeldet und der Austausch kann vor einem Ausfall im laufenden Betrieb durchgeführt werden.

Storage Überwachung

Mit Hilfe einer zusätzlichen Erweiterung überwachen wir die Speicher­kapazität des Datastore vom ESXi. Die Performance-Daten vom ESX Host können nur mithilfe des "vSphere Command-Line Interface" abgefragt werden. Dieses muss auf jedem Icinga-Server zur Verfügung stehen. Die Abfrage der Storage-Daten erfolgt über das vmkfstool (Werkzeug für die Verwaltung von virtuellen Festplatten), welches Teil des CLI (Schnittstellen-Bibliothek für die ESX Verwaltung) ist.

Mit dem Befehl

vmkfstools --username '<user>' --password '<password>' --server <ip>  --P <Datastore>

werden die Details zum Datastore zurückgegeben:

VMFS-5.58 file system spanning 1 partitions.
Capacity : 733634101248, 510855741440 avail
File system label : Datasotre
UUID : abc
path : /vmfs/volumes/abc
Partitions spanned:
        mpx.vmhba1:C0:T1:L0:1
Mounted : Yes
VAAI Supported: No

Die Zeile Capacity enthält die Partitions­grösse wie auch der freie Speicherplatz. Diese werden ausgelesen und in eine lesbare Form umgewandelt. Ausserdem wird standard­mässig eine Warnung ab "15% freien Speicher" und ein Fehler ab "10% freien Speicher" generiert. Die Informationen werden entsprechen auf der Web­ober­fläche ausgegeben:

Host-Status

Diese Überwachung ist besonders wichtig, da ein Datastore auf einem ESX Host unter keinen Umständen bis ans Limit gefüllt werden darf. Ein voller Datastore kann zu Abstürzen der virtuellen Systeme, zu Datenverlust und nicht funktionierende Backups führen!

4.Das Monitoring der AS infotrack

Um unseren Kunden einen optimalen Betrieb ihrer IT-Infrastruktur zu gewährleisten, bieten wir unsere Dienstleistung "Monitoring" an. Mit der dauernden Überwachung der System­infra­struktur unserer Kunden erkennen wir Störung frühzeitig und können darauf reagieren, mit dem Ziel dass ihr Geschäfts­alltag nicht tangiert wird. Zum einen binden wir Netzwerk­geräte wie Switches, Router und Firewalls sowie Server­dienste und wenn möglich Server­hardware ein, zum anderen decken wir auch spezielle Kunden­wünsche ab.

Dieses Angebot steht all unseren Kunden mit einem Dienst­leistungs­vertrag zur Verfügung. Wie stellen Sie den Betrieb Ihrer IT-Infra­struktur sicher? Gerne sind wir für Sie da und besprechen mit Ihnen die Möglichkeiten zur Betreuung und Überwachung Ihrer IT-Komponente. Wir freuen uns, Sie und Ihre IT-Infrastruktur kennenzulernen!


Kevin Oertig

Senior System- & Netzwerktechniker


Eine verlässliche und automatisierte Überwachung der IT-Infrastruktur unserer Kunden erlaubt es mir innerhalb von Minuten zu reagieren und Ausfälle schneller zu beheben oder gar zu vermeiden. Dank Icinga bin ich in der Lage fast alle Netzwerkkomponente zu überwachen und auszuwerten.