# Windows Performance & Reliability: Analyse auf Experten-Niveau

TL;DR / Management Summary Ein Server ist nur so gut wie seine Stabilität. Wir nutzen den Leistungsmonitor (PerfMon) für mathematisch präzise Messungen von Hardware-Ressourcen und den Zuverlässigkeitsmonitor (Reliability Monitor) für eine visuelle Timeline der Systemgesundheit. Ein Senior Admin verlässt sich nicht auf Momentaufnahmen im Task Manager, sondern nutzt Data Collector Sets, um Lastspitzen und Trend-Analysen über Tage hinweg zu dokumentieren.

# 1. Einführung & Werkzeuge

Status-Quo vs. Historie.

Leistungsmonitor (perfmon.msc): Echtzeit-Counter und protokollierte Datenreihen. Fokus: “Wie viel?”.
Zuverlässigkeitsmonitor (perfmon /rel): Grafische Zeitleiste von Fehlern, Updates und Abstürzen. Fokus: “Was ist wann passiert?”.

# 2. PerfMon Mastery: Data Collector Sets

Beweise sammeln.

Vergessen Sie das Beobachten von zappelnden Graphen. Erstellen Sie eine automatisierte Sammlung.

# Der ‘General Health’ Sammler

Datensammlersätze -> Benutzerdefiniert -> Neu.
Counter hinzufügen:
- Processor\% Processor Time
- Memory\Available MBytes
- PhysicalDisk\Avg. Disk Queue Length (Kritisch: Ziel < 2.0).
- System\Processor Queue Length.
Speicherort: Auf ein separates Volume (D:), um die System-I/O nicht zu verfälschen.

# Auswertung via CLI (relog)

Konvertieren Sie BLG-Dateien in CSV für Excel:

relog "C:\PerfLogs\capture.blg" -f csv -o "C:\PerfLogs\analysis.csv"

# 3. Deep Dive: Zuverlässigkeitsmonitor (Reliability Monitor)

Die Wahrheit über den Server-Alltag.

Geben Sie perfmon /rel in die Run-Box ein.

Stabilitätsindex (1-10): Zeigt die berechnete Zuverlässigkeit der letzten Wochen.
Kritische Ereignisse (Rotes X): App-Crashes, Windows-Fehler.
Informationen (Blaues i): Installierte Updates, Treiber-Änderungen.

Admin-Tipp: Wenn ein User sagt “Gestern war alles langsam”, ist dies das erste Tool, das Sie öffnen. Suchen Sie nach dem blauen “i” – oft wurde genau dann ein fehlerhafter Treiber oder ein Update installiert.

# 4. Day-2 Operations: Engpass-Analyse (Bottlenecks)

Wo klemmt es wirklich?

# Der ‘Disk vs. RAM’ Check

Wenn die CPU-Last niedrig ist, der Server aber träge reagiert:

Prüfen Sie Memory \ Pages/sec.
Prüfen Sie PhysicalDisk \ % Idle Time.
Erkenntnis: Wenn Pages/sec hoch und Idle Time niedrig ist -> Der Server nutzt das Pagefile (Artikel 448) massiv -> RAM Upgrade nötig!

# 5. Troubleshooting & “War Stories”

Wenn die Daten lügen.

# Top 3 Fehlerbilder

Symptom: PerfMon zeigt 0% Disk Last, aber die Applikation hängt beim Schreiben.
- Ursache: Das Storage-Backend (z.B. ein langsames NAS via iSCSI) hat eine hohe Latenz, die Windows nicht als “Last” (Utilization) sondern als “Warten” (Latency) registriert.
- Lösung: Counter Avg. Disk sec/Write prüfen. Alles über 0.020 (20ms) ist für Datenbanken tödlich.
Symptom: Zuverlässigkeitsmonitor ist leer.
- Ursache: Der Dienst RACCSVC (Reliability Analysis Service) ist deaktiviert.
- Lösung: Dienst starten und Task Scheduler “Microsoft\Windows\Customer Experience Improvement Program\Consolidator” prüfen.
Symptom: Hoher Overhead durch PerfMon selbst.
- Lösung: Intervall von 1s auf 15s oder 60s erhöhen.

# “War Story”: Der “Geister-Patch”

Ein App-Server stürzte jede Nacht um 3:00 Uhr ab. Das Event-Log zeigte nur “Unerwarteter Shutdown”. Die Analyse: Der Zuverlässigkeitsmonitor zeigte für 2:55 Uhr ein erfolgreiches “Windows Update” eines Treibers an. Die Entdeckung: Ein optionales Treiber-Update für den RAID-Controller wurde via GPO automatisch installiert, passte aber nicht zur Firmware. Lehre: Der Zuverlässigkeitsmonitor korreliert Systemänderungen mit Fehlern besser als jedes andere Tool.

# 6. Monitoring & Alerting

Die Brücke zur Leitwarte.

# WMI Integration

Fast alle PerfMon Counter sind via WMI/CIM abfragbar.

# Aktuelle CPU-Warteschlange via WMI
Get-CimInstance Win32_PerfFormattedData_PerfOS_System | Select-Object ProcessorQueueLength

# 7. Fazit & Empfehlung

Nutzen Sie die Bordmittel konsequent zur Dokumentation.

Empfehlung: Erstellen Sie einen “Leistungs-Snapshot” (Baseline), wenn der Server neu ist und optimal läuft. So haben Sie Vergleichswerte für später.
Wahl: Nutzen Sie den Task Manager für Sekunden, den Ressourcenmonitor für Minuten und den PerfMon für Stunden/Tage.

# Anhang: Die 5 wichtigsten Counter-Grenzwerte

CPU % Processor Time: Dauerhaft > 80% ist kritisch.
Memory \ Available MBytes: Sollte nie unter 5% des Gesamt-RAM fallen.
Disk \ Avg. Disk Queue Length: Max. 2 pro physischem Laufwerk.
Network \ Output Queue Length: Sollte immer 0 sein (sonst Netzwerk-Stau).
Paging File \ % Usage: Dauerhaft > 70% deutet auf echten RAM-Mangel hin.