# System Center Operations Manager (SCOM): Monitoring für Fortgeschrittene

TL;DR / Management Summary Während Prometheus und Grafana (Artikel 451) heute in Cloud-Native-Welten dominieren, bleibt der System Center Operations Manager (SCOM) der Goldstandard für komplexe Microsoft-Infrastrukturen. Er versteht die Logik hinter den Rollen: Er “weiß”, was ein gesunder Domain Controller oder SQL-Cluster ist. Ein Senior Admin nutzt SCOM zur Aggregation von Fehlern über tausende Systeme hinweg und implementiert Management Packs (MPs) für die automatisierte Fehlerbehebung.


# 1. Einführung & Architektur

Monitoring mit ‘Hirn’.

SCOM arbeitet nicht nur mit einfachen Schwellenwerten (CPU > 90%), sondern mit einem Modell-basierten Ansatz. Er überwacht “Objekte” (z.B. eine Datenbankinstanz), die wiederum Teil eines “Service” (z.B. ERP-System) sind.

# Die Kern-Komponenten

  1. Management Server: Die Rechenzentrale.
  2. Agent: Der Dienst auf dem Zielserver.
  3. Operations Database: SQL Server für Echtzeitdaten.
  4. Data Warehouse: SQL Server für Langzeit-Trends (Reports).
  5. Management Packs (MP): Die “Intelligenz” – Sammlungen von Regeln, Monitoren und Dashboards für spezifische Software.

# Architektur-Übersicht (Mermaid)

graph TD
    AGENT1[Windows Server Agent] -->|TCP 5723| MS[Management Server]
    AGENT2[Linux Agent / SSH] --> MS
    MS --> DB[(Operations DB)]
    MS --> DW[(Data Warehouse)]
    CONSOLE[Operations Console] --> MS
    MS -->|Alerts| MAIL[Email / Teams / PagerDuty]

# 2. Integration in der Praxis

Den Agenten ausrollen.

# Agent Deployment

Nutzen Sie die Konsole oder PowerShell für den Push-Install:

Install-SCOMAgent -DNSHostName "SRV-PROD-01.firma.local" -PrimaryManagementServer (Get-SCOMManagementServer)

# Management Packs (MPs) importieren

MP sind das Herzstück.


# 3. Deep Dive: Distributed Application Monitoring

Business-Sicht statt Server-Sicht.

Ein User beschwert sich: “Das ERP-System ist langsam”. In SCOM bauen wir eine Distributed Application (DA):


# 4. Day-2 Operations: Tuning & Overrides

Das Rauschen minimieren.

Der größte Kritikpunkt an SCOM ist die Flut an Alarmen (Alert Fatigue).


# 5. Troubleshooting & “War Stories”

Wenn der Wächter schläft.

# Top 3 Fehlerbilder

  1. Symptom: Agent steht auf “Gray State” (Keine Daten).

    • Ursache: DNS-Probleme, Firewall blockiert Port 5723 oder Zeitunterschied > 5 Min (Kerberos!).
    • Lösung: HealthService neustarten und den Health Service State Ordner leeren.
  2. Symptom: SQL Database voll.

    • Ursache: Das Data Warehouse kann die Daten nicht schnell genug vom Management Server abnehmen.
    • Lösung: SQL Performance Tuning (Artikel 408) und Partitionierung der DB prüfen.
  3. Symptom: “SDK Service” lässt sich nicht starten.

    • Lösung: Berechtigungen des SCOM-Service-Accounts in der SQL-Datenbank prüfen.

# “War Story”: Die schreiende Festplatte

Ein SCOM-System schickte 10.000 Alarme pro Stunde über “Low Disk Space”. Analyse: Auf einem Fileserver wurde ein Video-Archiv gemountet. Jede kleine Änderung triggerte den Monitor. Die Lösung: Wir nutzten eine Group-based Override. Alle Fileserver bekamen ein Limit von 5%, alle anderen Server blieben bei 10%. Lehre: SCOM ist nur so schlau wie seine Konfiguration. Ohne Gruppen-Management ist man nur noch mit dem Löschen von Emails beschäftigt.


# 6. Monitoring & Reporting

Management-Berichte.

SCOM liefert (via SQL SSRS) Berichte über:


# 7. Fazit & Empfehlung

SCOM ist ein komplexes Schiff, aber ungeschlagen bei der Microsoft-Tiefe.


# Anhang: Cheatsheet

Aufgabe Befehl
Agent Status Get-SCOMAgent
Alarme abfragen Get-SCOMAlert -Severity Critical
MP Liste Get-SCOMManagementPack
Wartungsmodus Start-SCOMMaintenanceMode

# Referenzen