# System Center Operations Manager (SCOM): Monitoring für Fortgeschrittene
TL;DR / Management Summary Während Prometheus und Grafana (Artikel 451) heute in Cloud-Native-Welten dominieren, bleibt der System Center Operations Manager (SCOM) der Goldstandard für komplexe Microsoft-Infrastrukturen. Er versteht die Logik hinter den Rollen: Er “weiß”, was ein gesunder Domain Controller oder SQL-Cluster ist. Ein Senior Admin nutzt SCOM zur Aggregation von Fehlern über tausende Systeme hinweg und implementiert Management Packs (MPs) für die automatisierte Fehlerbehebung.
# 1. Einführung & Architektur
Monitoring mit ‘Hirn’.
SCOM arbeitet nicht nur mit einfachen Schwellenwerten (CPU > 90%), sondern mit einem Modell-basierten Ansatz. Er überwacht “Objekte” (z.B. eine Datenbankinstanz), die wiederum Teil eines “Service” (z.B. ERP-System) sind.
# Die Kern-Komponenten
- Management Server: Die Rechenzentrale.
- Agent: Der Dienst auf dem Zielserver.
- Operations Database: SQL Server für Echtzeitdaten.
- Data Warehouse: SQL Server für Langzeit-Trends (Reports).
- Management Packs (MP): Die “Intelligenz” – Sammlungen von Regeln, Monitoren und Dashboards für spezifische Software.
# Architektur-Übersicht (Mermaid)
graph TD
AGENT1[Windows Server Agent] -->|TCP 5723| MS[Management Server]
AGENT2[Linux Agent / SSH] --> MS
MS --> DB[(Operations DB)]
MS --> DW[(Data Warehouse)]
CONSOLE[Operations Console] --> MS
MS -->|Alerts| MAIL[Email / Teams / PagerDuty]
# 2. Integration in der Praxis
Den Agenten ausrollen.
# Agent Deployment
Nutzen Sie die Konsole oder PowerShell für den Push-Install:
Install-SCOMAgent -DNSHostName "SRV-PROD-01.firma.local" -PrimaryManagementServer (Get-SCOMManagementServer)
# Management Packs (MPs) importieren
MP sind das Herzstück.
- Aktion: Importieren Sie MPs für Windows Server OS, AD, DNS, DHCP und SQL.
- Vorteil: Sie erhalten sofort fertige Dashboards und Alarme (“DNS-Zone ist nicht signiert”), die Sie sonst mühsam selbst skripten müssten.
# 3. Deep Dive: Distributed Application Monitoring
Business-Sicht statt Server-Sicht.
Ein User beschwert sich: “Das ERP-System ist langsam”. In SCOM bauen wir eine Distributed Application (DA):
- Knoten A (Web Frontend)
- Knoten B (App Server)
- Knoten C (SQL Database)
- Ergebnis: Wenn die SQL-Latenz steigt, färbt sich der gesamte Service im Dashboard gelb. Sie sehen sofort den Ursprung des Problems.
# 4. Day-2 Operations: Tuning & Overrides
Das Rauschen minimieren.
Der größte Kritikpunkt an SCOM ist die Flut an Alarmen (Alert Fatigue).
- Aktion: Nutzen Sie Overrides, um Schwellenwerte für spezifische Server anzupassen.
- Regel: Deaktivieren Sie Monitore, die für Ihre Umgebung irrelevant sind (z.B. Warnungen über volle Disks bei CD-ROM Laufwerken).
# 5. Troubleshooting & “War Stories”
Wenn der Wächter schläft.
# Top 3 Fehlerbilder
-
Symptom: Agent steht auf “Gray State” (Keine Daten).
- Ursache: DNS-Probleme, Firewall blockiert Port 5723 oder Zeitunterschied > 5 Min (Kerberos!).
- Lösung:
HealthServiceneustarten und denHealth Service StateOrdner leeren.
-
Symptom: SQL Database voll.
- Ursache: Das Data Warehouse kann die Daten nicht schnell genug vom Management Server abnehmen.
- Lösung: SQL Performance Tuning (Artikel 408) und Partitionierung der DB prüfen.
-
Symptom: “SDK Service” lässt sich nicht starten.
- Lösung: Berechtigungen des SCOM-Service-Accounts in der SQL-Datenbank prüfen.
# “War Story”: Die schreiende Festplatte
Ein SCOM-System schickte 10.000 Alarme pro Stunde über “Low Disk Space”. Analyse: Auf einem Fileserver wurde ein Video-Archiv gemountet. Jede kleine Änderung triggerte den Monitor. Die Lösung: Wir nutzten eine Group-based Override. Alle Fileserver bekamen ein Limit von 5%, alle anderen Server blieben bei 10%. Lehre: SCOM ist nur so schlau wie seine Konfiguration. Ohne Gruppen-Management ist man nur noch mit dem Löschen von Emails beschäftigt.
# 6. Monitoring & Reporting
Management-Berichte.
SCOM liefert (via SQL SSRS) Berichte über:
- Verfügbarkeit: “War der Mailserver im letzten Monat zu 99,9% online?”
- Capacity Planning: “Wann geht uns im Hyper-V Cluster der RAM aus?”
# 7. Fazit & Empfehlung
SCOM ist ein komplexes Schiff, aber ungeschlagen bei der Microsoft-Tiefe.
- Empfehlung: Nutzen Sie SCOM, wenn Sie mehr als 100 Windows-Server betreiben.
- Alternative: Für kleinere Umgebungen oder hybride Linux-Stacks ist Prometheus/Grafana (Artikel 451) flexibler und moderner.
# Anhang: Cheatsheet
| Aufgabe | Befehl |
|---|---|
| Agent Status | Get-SCOMAgent |
| Alarme abfragen | Get-SCOMAlert -Severity Critical |
| MP Liste | Get-SCOMManagementPack |
| Wartungsmodus | Start-SCOMMaintenanceMode |