# Windows Performance & Reliability: Analyse auf Experten-Niveau
TL;DR / Management Summary Ein Server ist nur so gut wie seine Stabilität. Wir nutzen den Leistungsmonitor (PerfMon) für mathematisch präzise Messungen von Hardware-Ressourcen und den Zuverlässigkeitsmonitor (Reliability Monitor) für eine visuelle Timeline der Systemgesundheit. Ein Senior Admin verlässt sich nicht auf Momentaufnahmen im Task Manager, sondern nutzt Data Collector Sets, um Lastspitzen und Trend-Analysen über Tage hinweg zu dokumentieren.
# 1. Einführung & Werkzeuge
Status-Quo vs. Historie.
- Leistungsmonitor (
perfmon.msc): Echtzeit-Counter und protokollierte Datenreihen. Fokus: “Wie viel?”. - Zuverlässigkeitsmonitor (
perfmon /rel): Grafische Zeitleiste von Fehlern, Updates und Abstürzen. Fokus: “Was ist wann passiert?”.
# 2. PerfMon Mastery: Data Collector Sets
Beweise sammeln.
Vergessen Sie das Beobachten von zappelnden Graphen. Erstellen Sie eine automatisierte Sammlung.
# Der ‘General Health’ Sammler
Datensammlersätze -> Benutzerdefiniert -> Neu.- Counter hinzufügen:
Processor\% Processor TimeMemory\Available MBytesPhysicalDisk\Avg. Disk Queue Length(Kritisch: Ziel < 2.0).System\Processor Queue Length.
- Speicherort: Auf ein separates Volume (D:), um die System-I/O nicht zu verfälschen.
# Auswertung via CLI (relog)
Konvertieren Sie BLG-Dateien in CSV für Excel:
relog "C:\PerfLogs\capture.blg" -f csv -o "C:\PerfLogs\analysis.csv"
# 3. Deep Dive: Zuverlässigkeitsmonitor (Reliability Monitor)
Die Wahrheit über den Server-Alltag.
Geben Sie perfmon /rel in die Run-Box ein.
- Stabilitätsindex (1-10): Zeigt die berechnete Zuverlässigkeit der letzten Wochen.
- Kritische Ereignisse (Rotes X): App-Crashes, Windows-Fehler.
- Informationen (Blaues i): Installierte Updates, Treiber-Änderungen.
Admin-Tipp: Wenn ein User sagt “Gestern war alles langsam”, ist dies das erste Tool, das Sie öffnen. Suchen Sie nach dem blauen “i” – oft wurde genau dann ein fehlerhafter Treiber oder ein Update installiert.
# 4. Day-2 Operations: Engpass-Analyse (Bottlenecks)
Wo klemmt es wirklich?
# Der ‘Disk vs. RAM’ Check
Wenn die CPU-Last niedrig ist, der Server aber träge reagiert:
- Prüfen Sie
Memory \ Pages/sec. - Prüfen Sie
PhysicalDisk \ % Idle Time. - Erkenntnis: Wenn Pages/sec hoch und Idle Time niedrig ist -> Der Server nutzt das Pagefile (Artikel 448) massiv -> RAM Upgrade nötig!
# 5. Troubleshooting & “War Stories”
Wenn die Daten lügen.
# Top 3 Fehlerbilder
-
Symptom: PerfMon zeigt 0% Disk Last, aber die Applikation hängt beim Schreiben.
- Ursache: Das Storage-Backend (z.B. ein langsames NAS via iSCSI) hat eine hohe Latenz, die Windows nicht als “Last” (Utilization) sondern als “Warten” (Latency) registriert.
- Lösung: Counter
Avg. Disk sec/Writeprüfen. Alles über 0.020 (20ms) ist für Datenbanken tödlich.
-
Symptom: Zuverlässigkeitsmonitor ist leer.
- Ursache: Der Dienst
RACCSVC(Reliability Analysis Service) ist deaktiviert. - Lösung: Dienst starten und Task Scheduler “Microsoft\Windows\Customer Experience Improvement Program\Consolidator” prüfen.
- Ursache: Der Dienst
-
Symptom: Hoher Overhead durch PerfMon selbst.
- Lösung: Intervall von 1s auf 15s oder 60s erhöhen.
# “War Story”: Der “Geister-Patch”
Ein App-Server stürzte jede Nacht um 3:00 Uhr ab. Das Event-Log zeigte nur “Unerwarteter Shutdown”. Die Analyse: Der Zuverlässigkeitsmonitor zeigte für 2:55 Uhr ein erfolgreiches “Windows Update” eines Treibers an. Die Entdeckung: Ein optionales Treiber-Update für den RAID-Controller wurde via GPO automatisch installiert, passte aber nicht zur Firmware. Lehre: Der Zuverlässigkeitsmonitor korreliert Systemänderungen mit Fehlern besser als jedes andere Tool.
# 6. Monitoring & Alerting
Die Brücke zur Leitwarte.
# WMI Integration
Fast alle PerfMon Counter sind via WMI/CIM abfragbar.
# Aktuelle CPU-Warteschlange via WMI
Get-CimInstance Win32_PerfFormattedData_PerfOS_System | Select-Object ProcessorQueueLength
# 7. Fazit & Empfehlung
Nutzen Sie die Bordmittel konsequent zur Dokumentation.
- Empfehlung: Erstellen Sie einen “Leistungs-Snapshot” (Baseline), wenn der Server neu ist und optimal läuft. So haben Sie Vergleichswerte für später.
- Wahl: Nutzen Sie den Task Manager für Sekunden, den Ressourcenmonitor für Minuten und den PerfMon für Stunden/Tage.
# Anhang: Die 5 wichtigsten Counter-Grenzwerte
- CPU % Processor Time: Dauerhaft > 80% ist kritisch.
- Memory \ Available MBytes: Sollte nie unter 5% des Gesamt-RAM fallen.
- Disk \ Avg. Disk Queue Length: Max. 2 pro physischem Laufwerk.
- Network \ Output Queue Length: Sollte immer 0 sein (sonst Netzwerk-Stau).
- Paging File \ % Usage: Dauerhaft > 70% deutet auf echten RAM-Mangel hin.