# Grafana: Die Kunst der Datenvisualisierung im Datacenter

TL;DR / Management Summary Während Datenbanken wie Prometheus (Artikel 817) die rohen Fakten speichern, macht Grafana sie verständlich. Es ist das weltweit führende Tool zur Visualisierung von IT-Metriken. Ein Senior Admin nutzt Grafana zur Erstellung von NOC-Dashboards (Network Operations Center), zur Korrelation von Fehlern über verschiedene Quellen hinweg und zur automatischen Alarmierung bei Anomalien. Ziel ist es, den Status von tausenden VMs und Netzwerkgeräten auf einen Blick erfassbar zu machen.


# 1. Datenquellen (Data Sources)

Das Fundament der Anzeige.

Grafana ist agnostisch – es speichert keine eigenen Metriken, sondern fragt andere Systeme ab:


# 2. Dashboard Design für Profis

Mehr als nur bunte Linien.

Ein effektives Dashboard folgt der Pyramiden-Logik:

  1. Top-Level: Große “Stat” Panels (Rot/Grün) für die Gesamtverfügbarkeit.
  2. Mittel-Ebene: Graphen für Trends (CPU, RAM, Traffic) der letzten 24h.
  3. Detail-Ebene: Tabellen mit exakten Werten (z.B. “Top 10 disk usage”).

# 3. Deep Dive: Dashboard-Variablen

Ein Board für alle Server.

Schreiben Sie nicht für jede VM ein eigenes Dashboard.


# 4. Day-2 Operations: Alerting & On-Call

Wenn der Tacho ausschlägt.

Grafana kann Alarme direkt aus den Graphen generieren.


# 5. Troubleshooting & “War Stories”

Wenn das Bild verzerrt ist.

# Top 3 Fehlerbilder

  1. Symptom: “No data” im Panel.

    • Ursache: Zeitstempel-Mismatch. Der Browser-Rechner und der Prometheus-Server haben unterschiedliche Uhrzeiten.
    • Lösung: NTP-Sync sicherstellen (Artikel 543).
  2. Symptom: Graphen sind extrem langsam beim Laden.

    • Ursache: Zu viele Datenpunkte.
    • Fix: Nutzen Sie das Minimum Step Intervall in der Query, um die Auflösung an die Pixelbreite des Monitors anzupassen.
  3. Symptom: Dashboard-Änderungen sind nach Neustart weg.

    • Lösung: Nutzen Sie Dashboards-as-Code. Speichern Sie die JSON-Files im Git und laden Sie sie via Provisioning-Ordner in Grafana.

# “War Story”: Die “Lügende” Null-Linie

Ein Admin betrieb ein Dashboard für den Web-Traffic. Der Graph zeigte konstant 0 Requests an. Er dachte, die Seite sei tot. Die Entdeckung: Die Webseite war online und unter Hochlast. Die Ursache: Durch ein Update in der InfluxDB änderte sich der Name der Metrik von http_req zu http_requests_total. Da der Graph hart auf den alten Namen programmiert war, lieferte die Datenbank einfach keine Daten mehr. Lehre: Bauen Sie Health-Checks für Ihr Monitoring. Ein Panel, das “No Data” zeigt, ist ein Fehler im Monitoring-System, kein Fehler in der Applikation.


# 6. Monitoring & Reporting

Management-Reporting.

# Snapshot Share

Müssen Sie einen Fehlerstand dokumentieren?


# 7. Fazit & Empfehlung

Grafana ist das Gesicht Ihrer IT-Infrastruktur.


# Anhang: Cheatsheet (Common Panel Types)

Panel Typ Bestes Szenario
Time Series Graph CPU Trends, Bandbreite
Stat Große Zahl Uptime, Error Count
Gauge Tacho Speicherfüllstand, Temperatur
Heatmap Intensität Latenzverteilung

# Referenzen