# Grafana: Die Kunst der Datenvisualisierung im Datacenter
TL;DR / Management Summary Während Datenbanken wie Prometheus (Artikel 817) die rohen Fakten speichern, macht Grafana sie verständlich. Es ist das weltweit führende Tool zur Visualisierung von IT-Metriken. Ein Senior Admin nutzt Grafana zur Erstellung von NOC-Dashboards (Network Operations Center), zur Korrelation von Fehlern über verschiedene Quellen hinweg und zur automatischen Alarmierung bei Anomalien. Ziel ist es, den Status von tausenden VMs und Netzwerkgeräten auf einen Blick erfassbar zu machen.
# 1. Datenquellen (Data Sources)
Das Fundament der Anzeige.
Grafana ist agnostisch – es speichert keine eigenen Metriken, sondern fragt andere Systeme ab:
- Prometheus: Für Echtzeit-Cloud-Daten.
- InfluxDB: Für Langzeit-Trends (Artikel 698).
- Loki: Für System-Logs (Artikel 819).
- SQL (Postgres/MySQL): Für Business-Daten oder Inventarlisten.
# 2. Dashboard Design für Profis
Mehr als nur bunte Linien.
Ein effektives Dashboard folgt der Pyramiden-Logik:
- Top-Level: Große “Stat” Panels (Rot/Grün) für die Gesamtverfügbarkeit.
- Mittel-Ebene: Graphen für Trends (CPU, RAM, Traffic) der letzten 24h.
- Detail-Ebene: Tabellen mit exakten Werten (z.B. “Top 10 disk usage”).
# 3. Deep Dive: Dashboard-Variablen
Ein Board für alle Server.
Schreiben Sie nicht für jede VM ein eigenes Dashboard.
- Aktion: Nutzen Sie Variables (Dropdown-Menüs oben im Board).
- Query:
label_values(node_uname_info, instance). - Ergebnis: Sie wählen oben den Servernamen aus, und alle Graphen auf der Seite passen sich automatisch diesem Ziel an.
# 4. Day-2 Operations: Alerting & On-Call
Wenn der Tacho ausschlägt.
Grafana kann Alarme direkt aus den Graphen generieren.
- Regel: Wenn
Latency> 50ms für 5 Minuten -> Sende Webhook an PagerDuty oder Telegram (Artikel 585). - Vorteil: Sie sehen im Alarm direkt den Graphen, der ihn ausgelöst hat (Visual Context).
# 5. Troubleshooting & “War Stories”
Wenn das Bild verzerrt ist.
# Top 3 Fehlerbilder
-
Symptom: “No data” im Panel.
- Ursache: Zeitstempel-Mismatch. Der Browser-Rechner und der Prometheus-Server haben unterschiedliche Uhrzeiten.
- Lösung: NTP-Sync sicherstellen (Artikel 543).
-
Symptom: Graphen sind extrem langsam beim Laden.
- Ursache: Zu viele Datenpunkte.
- Fix: Nutzen Sie das
Minimum StepIntervall in der Query, um die Auflösung an die Pixelbreite des Monitors anzupassen.
-
Symptom: Dashboard-Änderungen sind nach Neustart weg.
- Lösung: Nutzen Sie Dashboards-as-Code. Speichern Sie die JSON-Files im Git und laden Sie sie via Provisioning-Ordner in Grafana.
# “War Story”: Die “Lügende” Null-Linie
Ein Admin betrieb ein Dashboard für den Web-Traffic. Der Graph zeigte konstant 0 Requests an. Er dachte, die Seite sei tot.
Die Entdeckung: Die Webseite war online und unter Hochlast.
Die Ursache: Durch ein Update in der InfluxDB änderte sich der Name der Metrik von http_req zu http_requests_total. Da der Graph hart auf den alten Namen programmiert war, lieferte die Datenbank einfach keine Daten mehr.
Lehre: Bauen Sie Health-Checks für Ihr Monitoring. Ein Panel, das “No Data” zeigt, ist ein Fehler im Monitoring-System, kein Fehler in der Applikation.
# 6. Monitoring & Reporting
Management-Reporting.
# Snapshot Share
Müssen Sie einen Fehlerstand dokumentieren?
- Aktion: Nutzen Sie den
SnapshotButton. - Vorteil: Erstellt einen statischen Link des aktuellen Dashboards, der auch ohne Zugriff auf die Live-Datenbank funktioniert.
# 7. Fazit & Empfehlung
Grafana ist das Gesicht Ihrer IT-Infrastruktur.
- Empfehlung: Nutzen Sie die Community Dashboards (z.B. ID 1860 für Node Exporter). Passen Sie diese zu 20% an Ihre Bedürfnisse an, statt bei 0 anzufangen.
- Wichtig: Verwenden Sie einheitliche Farbschema (z.B. Gelb = Warnung, Rot = Kritisch) über alle Dashboards hinweg, um kognitive Last im Notfall zu reduzieren.
# Anhang: Cheatsheet (Common Panel Types)
| Panel | Typ | Bestes Szenario |
|---|---|---|
| Time Series | Graph | CPU Trends, Bandbreite |
| Stat | Große Zahl | Uptime, Error Count |
| Gauge | Tacho | Speicherfüllstand, Temperatur |
| Heatmap | Intensität | Latenzverteilung |