# Proxmox Monitoring: Dashboards & Alerts mit Grafana & InfluxDB

TL;DR / Management Summary Ein Administrator darf niemals vom Ausfall eines Dienstes überrascht werden. Während die Proxmox-GUI den Status-Quo zeigt, ermöglicht die Grafana-Integration die Analyse von Langzeit-Trends und die Korrelation von Fehlern. Wir nutzen die InfluxDB als Speicher für Performance-Metriken und bauen Grafana-Dashboards, die uns bei Anomalien (z.B. plötzlicher IO-Wait Anstieg) via Teams oder Email alarmieren. Ein Senior Admin nutzt diese Observability, um Hardware-Limits frühzeitig zu erkennen.


# 1. Die Architektur der Überwachung

Vom Host zum Dashboard.

Die Kette besteht aus drei Gliedern:

  1. Collector: Der Proxmox Metrics Server (Artikel 697).
  2. Storage: InfluxDB (Zeitreihen-Datenbank).
  3. Frontend: Grafana (Visualisierung & Alerting).

# 2. Grafana Dashboard Design

Was wir wirklich sehen müssen.

Importieren Sie bewährte Dashboards (z.B. ID 15366) und passen Sie diese an:


# 3. Deep Dive: Proaktives Alerting

Die Alarm-Logik.

In Grafana können wir komplexe Schwellenwerte definieren, die über die Proxmox-Bordmittel hinausgehen.

# Beispiel: Speicher-Warnung


# 4. Day-2 Operations: Log-Aggregation (Loki)

Text und Graphen vereinen.

Integrieren Sie Grafana Loki, um System-Logs (Artikel 701) direkt unter den Performance-Graphen anzuzeigen.


# 5. Troubleshooting & “War Stories”

Wenn die Metriken schweigen.

# Top 3 Fehlerbilder

  1. Symptom: Graphen zeigen keine Daten mehr (“No Data”).

    • Ursache: Der pvedaemon am Proxmox-Host hat die Verbindung zur InfluxDB verloren oder das Token ist abgelaufen.
    • Lösung: journalctl -u pvedaemon prüfen.
  2. Symptom: Dashboards laden extrem langsam.

    • Ursache: Zu hohe Auflösung (z.B. 1s Sampling) über einen langen Zeitraum (z.B. 30 Tage).
    • Fix: Nutzen Sie InfluxDB Continuous Queries, um alte Daten zu aggregieren (Downsampling).
  3. Symptom: Fehlalarmierung bei Backup-Läufen.

    • Lösung: Konfigurieren Sie “Alert Silencing” für die nächtlichen Backup-Stunden.

# “War Story”: Der “Zufalls-Gau” durch falsche Alarme

Ein Admin setzte den Alarm für “CPU Last > 90%” ohne zeitliche Verzögerung (For: 0m). Das Ereignis: Jedes Mal, wenn eine VM startete oder ein Programm kompilierte, schickte Grafana 50 SMS-Alarme gleichzeitig raus. Das Ergebnis: Das Team ignorierte die Alarme schließlich komplett (“Ist ja nur wieder ein Fehlalarm”). Als ein echter DDoS-Angriff die Server lahmlegte, reagierte niemand. Lehre: Gute Alarme brauchen eine Hysterese. Nutzen Sie FOR 5m, damit kurze Spitzen keinen Alarm auslösen. Alarme müssen wertvoll sein, nicht nervig.


# 6. Monitoring & Reporting

Management-Reports.

# Capacity Planning Report

Generieren Sie monatliche Berichte aus Grafana:


# 7. Fazit & Empfehlung

Monitoring ist das visuelle Gewissen Ihres RZs.


# Anhang: Die “Top 5” Panels für Admins

  1. Cluster Quorum (Gauge).
  2. Host CPU Load vs. IO-Wait (Graph).
  3. Storage Free Space (Bar Gauge).
  4. VM Network PPS (Table).
  5. Corosync RTT Latency (Heatmap).

# Referenzen