# Multi-Site & DR: Hochverfügbarkeit über Raumgrenzen hinweg
TL;DR / Management Summary Ein lokaler Cluster schützt vor dem Ausfall eines Servers, aber nicht vor dem Ausfall eines gesamten Rechenzentrums. Wir nutzen Multi-Site Setups (auch Stretch-Cluster genannt) oder Disaster Recovery Standorte, um den Betrieb bei Brand, Hochwasser oder Stromausfall aufrechtzuerhalten. Ein Senior Admin kombiniert hierfür Storage Replica (Artikel 502) für die Daten-Ebene mit AD-Sites (Artikel 492) für die Identitäts-Ebene.
# 1. Einführung & Architektur-Modelle
Den Ernstfall planen.
Es gibt zwei grundlegende Ansätze:
- Stretch Cluster (Aktiv-Aktiv): Ein einziger logischer Cluster über zwei Standorte.
- Ziel: Automatischer Failover mit RPO=0 (kein Datenverlust).
- Anforderung: Sehr geringe Latenz (< 5ms RTT) und synchrone Replikation.
- Disaster Recovery (Aktiv-Passiv): Getrennte Standorte.
- Ziel: Manueller oder teilautomatisierter Schwenk bei Totalverlust.
- Technik: Asynchrone Replikation (RPO > 0).
# Architektur-Übersicht (Mermaid)
graph LR
subgraph "Site A (Main RZ)"
Node1[Cluster Node 1]
Node2[Cluster Node 2]
end
subgraph "Site B (Backup RZ)"
Node3[Cluster Node 3]
end
Node1 & Node2 <-->|Sync Storage Replica| Node3
DC1[DC Site A] <-->|AD Sync| DC2[DC Site B]
# 2. Einrichtung in der Praxis
Die Verbindung schaffen.
# Schritt 1: Storage Replica (SR) konfigurieren
SR ist der Kleber des Multi-Site Clusters.
# Partnerschaft zwischen den Standorten erstellen
New-SRPartnership -SourceComputerName "NODE-RZ1" -SourceRGName "Group01" `
-SourceVolumeName "D:" -SourceLogVolumeName "L:" `
-DestinationComputerName "NODE-RZ2" -DestinationRGName "Group02" `
-DestinationVolumeName "D:" -DestinationLogVolumeName "L:" `
-ReplicationMode Asynchronous
# Schritt 2: Cluster-Quorum anpassen
In einem Multi-Site Setup ist ein Witness an einem dritten Ort (Cloud Witness, Artikel 508) überlebenswichtig, um Split-Brain zu verhindern.
# 3. Deep Dive: Netzwerk-Latenz & Bandbreite
Die Physik bändigen.
Das größte Problem bei Multi-Site ist die Geschwindigkeit des Lichts.
- Synchrone Replikation: Jedes Schreib-Paket muss den Hin- und Rückweg schaffen, bevor die App weiterarbeiten kann.
- TCP Window Scaling: Stellen Sie sicher, dass Ihr WAN-Link für hohe Durchsätze optimiert ist (Artikel 433).
# 4. Day-2 Operations: Der Failover-Test
Den ‘Big Red Button’ drücken.
Ein DR-Plan ist wertlos, wenn er nie getestet wurde.
- Aktion: Führen Sie einmal im Jahr einen Site-Failover durch.
- Checkliste:
- Stoppen der Dienste am Hauptstandort.
- Storage-Umkehr (Switch SR Partnership).
- DNS-Updates (IP-Wechsel der Dienste).
- Start der Dienste am Backup-Standort.
# 5. Troubleshooting & “War Stories”
Wenn der Sync-Strom versiegt.
# Top 3 Fehlerbilder
-
Symptom: VMs am zweiten Standort starten nicht.
- Ursache: Die IP-Adressen passen nicht zum lokalen Subnetz am DR-Ort.
- Lösung: Nutzung von Hyper-V Replica Failover IP (Artikel 509) oder SDN (Software Defined Networking).
-
Symptom: Replikations-Backlog wächst unendlich.
- Ursache: Die Schreiblast in RZ1 ist höher als die WAN-Bandbreite zu RZ2.
- Lösung: Log-Volume vergrößern oder asynchronen Modus optimieren.
-
Symptom: “Flapping” zwischen Standorten bei kurzen Link-Ausfällen.
- Lösung: Cluster-Eigenschaft
SameSubnetDelayundCrossSubnetDelayerhöhen, damit der Cluster kleine Aussetzer toleriert.
- Lösung: Cluster-Eigenschaft
# “War Story”: Der “Auto-Failover” Amoklauf
Ein Kunde betrieb einen Stretch-Cluster über zwei Gebäude. Der Glasfaser-Link zwischen den Gebäuden war beschädigt. Das Ergebnis: Der Cluster verlor alle 5 Minuten die Verbindung zum Quorum. Die VMs sprangen wie Ping-Pong-Bälle zwischen den Gebäuden hin und her. Da jeder Start einer Datenbank-VM 10 Minuten dauerte, war der Dienst für 8 Stunden offline – obwohl eigentlich Hardware vorhanden war. Lehre: Automatischer Failover über WAN-Links ist gefährlich. Setzen Sie lieber auf manuelle Bestätigung oder extrem konservative Timeouts.
# 6. Monitoring & Reporting
Dashboard der Fernreplikation.
# Wichtige Metriken
- SR Recovery Point Objective (sec): Wie weit hängen wir hinterher?
- WAN Link Latency (ms): Ping-Überwachung zwischen den Bridgehead-Servern.
# 7. Fazit & Empfehlung
Multi-Site ist die Königsdisziplin der Administration.
- Empfehlung: Nutzen Sie asynchrone Replikation für alles über 10 km Distanz. Es schont die Nerven und die Applikations-Performance.
- Strategie: Betreiben Sie an jedem Standort einen eigenen Domain Controller (Artikel 492), um die Abhängigkeit vom WAN für den Login zu eliminieren.
# Anhang: Cheatsheet
| Aufgabe | Befehl |
|---|---|
| SR Status | Get-SRGroup |
| Sync-Richtung drehen | Set-SRPartnership -NewSource... |
| WAN Latenz-Test | Test-SRTopology |
| Cluster Site Config | (Get-Cluster).CrossSiteDelay = 4000 |