# Multi-Site & DR: Hochverfügbarkeit über Raumgrenzen hinweg

TL;DR / Management Summary Ein lokaler Cluster schützt vor dem Ausfall eines Servers, aber nicht vor dem Ausfall eines gesamten Rechenzentrums. Wir nutzen Multi-Site Setups (auch Stretch-Cluster genannt) oder Disaster Recovery Standorte, um den Betrieb bei Brand, Hochwasser oder Stromausfall aufrechtzuerhalten. Ein Senior Admin kombiniert hierfür Storage Replica (Artikel 502) für die Daten-Ebene mit AD-Sites (Artikel 492) für die Identitäts-Ebene.

# 1. Einführung & Architektur-Modelle

Den Ernstfall planen.

Es gibt zwei grundlegende Ansätze:

Stretch Cluster (Aktiv-Aktiv): Ein einziger logischer Cluster über zwei Standorte.
- Ziel: Automatischer Failover mit RPO=0 (kein Datenverlust).
- Anforderung: Sehr geringe Latenz (< 5ms RTT) und synchrone Replikation.
Disaster Recovery (Aktiv-Passiv): Getrennte Standorte.
- Ziel: Manueller oder teilautomatisierter Schwenk bei Totalverlust.
- Technik: Asynchrone Replikation (RPO > 0).

# Architektur-Übersicht (Mermaid)

graph LR
    subgraph "Site A (Main RZ)"
    Node1[Cluster Node 1]
    Node2[Cluster Node 2]
    end

    subgraph "Site B (Backup RZ)"
    Node3[Cluster Node 3]
    end

    Node1 & Node2 <-->|Sync Storage Replica| Node3
    DC1[DC Site A] <-->|AD Sync| DC2[DC Site B]

# 2. Einrichtung in der Praxis

Die Verbindung schaffen.

# Schritt 1: Storage Replica (SR) konfigurieren

SR ist der Kleber des Multi-Site Clusters.

# Partnerschaft zwischen den Standorten erstellen
New-SRPartnership -SourceComputerName "NODE-RZ1" -SourceRGName "Group01" `
    -SourceVolumeName "D:" -SourceLogVolumeName "L:" `
    -DestinationComputerName "NODE-RZ2" -DestinationRGName "Group02" `
    -DestinationVolumeName "D:" -DestinationLogVolumeName "L:" `
    -ReplicationMode Asynchronous

# Schritt 2: Cluster-Quorum anpassen

In einem Multi-Site Setup ist ein Witness an einem dritten Ort (Cloud Witness, Artikel 508) überlebenswichtig, um Split-Brain zu verhindern.

# 3. Deep Dive: Netzwerk-Latenz & Bandbreite

Die Physik bändigen.

Das größte Problem bei Multi-Site ist die Geschwindigkeit des Lichts.

Synchrone Replikation: Jedes Schreib-Paket muss den Hin- und Rückweg schaffen, bevor die App weiterarbeiten kann.
TCP Window Scaling: Stellen Sie sicher, dass Ihr WAN-Link für hohe Durchsätze optimiert ist (Artikel 433).

# 4. Day-2 Operations: Der Failover-Test

Den ‘Big Red Button’ drücken.

Ein DR-Plan ist wertlos, wenn er nie getestet wurde.

Aktion: Führen Sie einmal im Jahr einen Site-Failover durch.
Checkliste:
1. Stoppen der Dienste am Hauptstandort.
2. Storage-Umkehr (Switch SR Partnership).
3. DNS-Updates (IP-Wechsel der Dienste).
4. Start der Dienste am Backup-Standort.

# 5. Troubleshooting & “War Stories”

Wenn der Sync-Strom versiegt.

# Top 3 Fehlerbilder

Symptom: VMs am zweiten Standort starten nicht.
- Ursache: Die IP-Adressen passen nicht zum lokalen Subnetz am DR-Ort.
- Lösung: Nutzung von Hyper-V Replica Failover IP (Artikel 509) oder SDN (Software Defined Networking).
Symptom: Replikations-Backlog wächst unendlich.
- Ursache: Die Schreiblast in RZ1 ist höher als die WAN-Bandbreite zu RZ2.
- Lösung: Log-Volume vergrößern oder asynchronen Modus optimieren.
Symptom: “Flapping” zwischen Standorten bei kurzen Link-Ausfällen.
- Lösung: Cluster-Eigenschaft SameSubnetDelay und CrossSubnetDelay erhöhen, damit der Cluster kleine Aussetzer toleriert.

# “War Story”: Der “Auto-Failover” Amoklauf

Ein Kunde betrieb einen Stretch-Cluster über zwei Gebäude. Der Glasfaser-Link zwischen den Gebäuden war beschädigt. Das Ergebnis: Der Cluster verlor alle 5 Minuten die Verbindung zum Quorum. Die VMs sprangen wie Ping-Pong-Bälle zwischen den Gebäuden hin und her. Da jeder Start einer Datenbank-VM 10 Minuten dauerte, war der Dienst für 8 Stunden offline – obwohl eigentlich Hardware vorhanden war. Lehre: Automatischer Failover über WAN-Links ist gefährlich. Setzen Sie lieber auf manuelle Bestätigung oder extrem konservative Timeouts.

# 6. Monitoring & Reporting

Dashboard der Fernreplikation.

# Wichtige Metriken

SR Recovery Point Objective (sec): Wie weit hängen wir hinterher?
WAN Link Latency (ms): Ping-Überwachung zwischen den Bridgehead-Servern.

# 7. Fazit & Empfehlung

Multi-Site ist die Königsdisziplin der Administration.

Empfehlung: Nutzen Sie asynchrone Replikation für alles über 10 km Distanz. Es schont die Nerven und die Applikations-Performance.
Strategie: Betreiben Sie an jedem Standort einen eigenen Domain Controller (Artikel 492), um die Abhängigkeit vom WAN für den Login zu eliminieren.

# Anhang: Cheatsheet

Aufgabe	Befehl
SR Status	`Get-SRGroup`
Sync-Richtung drehen	`Set-SRPartnership -NewSource...`
WAN Latenz-Test	`Test-SRTopology`
Cluster Site Config	`(Get-Cluster).CrossSiteDelay = 4000`