# Grafana: Die Kunst der Datenvisualisierung im Datacenter

TL;DR / Management Summary Während Datenbanken wie Prometheus (Artikel 817) die rohen Fakten speichern, macht Grafana sie verständlich. Es ist das weltweit führende Tool zur Visualisierung von IT-Metriken. Ein Senior Admin nutzt Grafana zur Erstellung von NOC-Dashboards (Network Operations Center), zur Korrelation von Fehlern über verschiedene Quellen hinweg und zur automatischen Alarmierung bei Anomalien. Ziel ist es, den Status von tausenden VMs und Netzwerkgeräten auf einen Blick erfassbar zu machen.

# 1. Datenquellen (Data Sources)

Das Fundament der Anzeige.

Grafana ist agnostisch – es speichert keine eigenen Metriken, sondern fragt andere Systeme ab:

Prometheus: Für Echtzeit-Cloud-Daten.
InfluxDB: Für Langzeit-Trends (Artikel 698).
Loki: Für System-Logs (Artikel 819).
SQL (Postgres/MySQL): Für Business-Daten oder Inventarlisten.

# 2. Dashboard Design für Profis

Mehr als nur bunte Linien.

Ein effektives Dashboard folgt der Pyramiden-Logik:

Top-Level: Große “Stat” Panels (Rot/Grün) für die Gesamtverfügbarkeit.
Mittel-Ebene: Graphen für Trends (CPU, RAM, Traffic) der letzten 24h.
Detail-Ebene: Tabellen mit exakten Werten (z.B. “Top 10 disk usage”).

# 3. Deep Dive: Dashboard-Variablen

Ein Board für alle Server.

Schreiben Sie nicht für jede VM ein eigenes Dashboard.

Aktion: Nutzen Sie Variables (Dropdown-Menüs oben im Board).
Query: label_values(node_uname_info, instance).
Ergebnis: Sie wählen oben den Servernamen aus, und alle Graphen auf der Seite passen sich automatisch diesem Ziel an.

# 4. Day-2 Operations: Alerting & On-Call

Wenn der Tacho ausschlägt.

Grafana kann Alarme direkt aus den Graphen generieren.

Regel: Wenn Latency > 50ms für 5 Minuten -> Sende Webhook an PagerDuty oder Telegram (Artikel 585).
Vorteil: Sie sehen im Alarm direkt den Graphen, der ihn ausgelöst hat (Visual Context).

# 5. Troubleshooting & “War Stories”

Wenn das Bild verzerrt ist.

# Top 3 Fehlerbilder

Symptom: “No data” im Panel.
- Ursache: Zeitstempel-Mismatch. Der Browser-Rechner und der Prometheus-Server haben unterschiedliche Uhrzeiten.
- Lösung: NTP-Sync sicherstellen (Artikel 543).
Symptom: Graphen sind extrem langsam beim Laden.
- Ursache: Zu viele Datenpunkte.
- Fix: Nutzen Sie das Minimum Step Intervall in der Query, um die Auflösung an die Pixelbreite des Monitors anzupassen.
Symptom: Dashboard-Änderungen sind nach Neustart weg.
- Lösung: Nutzen Sie Dashboards-as-Code. Speichern Sie die JSON-Files im Git und laden Sie sie via Provisioning-Ordner in Grafana.

# “War Story”: Die “Lügende” Null-Linie

Ein Admin betrieb ein Dashboard für den Web-Traffic. Der Graph zeigte konstant 0 Requests an. Er dachte, die Seite sei tot. Die Entdeckung: Die Webseite war online und unter Hochlast. Die Ursache: Durch ein Update in der InfluxDB änderte sich der Name der Metrik von http_req zu http_requests_total. Da der Graph hart auf den alten Namen programmiert war, lieferte die Datenbank einfach keine Daten mehr. Lehre: Bauen Sie Health-Checks für Ihr Monitoring. Ein Panel, das “No Data” zeigt, ist ein Fehler im Monitoring-System, kein Fehler in der Applikation.

# 6. Monitoring & Reporting

Management-Reporting.

Müssen Sie einen Fehlerstand dokumentieren?

Aktion: Nutzen Sie den Snapshot Button.
Vorteil: Erstellt einen statischen Link des aktuellen Dashboards, der auch ohne Zugriff auf die Live-Datenbank funktioniert.

# 7. Fazit & Empfehlung

Grafana ist das Gesicht Ihrer IT-Infrastruktur.

Empfehlung: Nutzen Sie die Community Dashboards (z.B. ID 1860 für Node Exporter). Passen Sie diese zu 20% an Ihre Bedürfnisse an, statt bei 0 anzufangen.
Wichtig: Verwenden Sie einheitliche Farbschema (z.B. Gelb = Warnung, Rot = Kritisch) über alle Dashboards hinweg, um kognitive Last im Notfall zu reduzieren.

# Anhang: Cheatsheet (Common Panel Types)

Panel	Typ	Bestes Szenario
Time Series	Graph	CPU Trends, Bandbreite
Stat	Große Zahl	Uptime, Error Count
Gauge	Tacho	Speicherfüllstand, Temperatur
Heatmap	Intensität	Latenzverteilung