# Proxmox Multi-Site HA: Geo-Clustering & Standortübergreifende Resilienz

TL;DR / Management Summary Ein lokaler HA-Cluster (Artikel 691) schützt vor dem Ausfall eines Servers, aber nicht vor dem Verlust eines ganzen Gebäudes. Multi-Site HA spannt den Proxmox-Cluster über geografisch getrennte Standorte. Ein Senior Admin meistert dabei die physikalischen Grenzen: Die Netzwerklatenz für Corosync (Heartbeat) muss unter 5ms bleiben, und die Daten müssen via ZFS Replication oder Stretch-Ceph an beiden Standorten synchron vorliegen.

# 1. Architektur-Modelle

Vom Campus zum Kontinent.

Campus Cluster (Stretching): Zwei Gebäude auf dem gleichen Gelände, verbunden via Glasfaser.
- Technik: Synchrone Replikation möglich (Ceph).
Geo-Cluster: Zwei Standorte in verschiedenen Städten.
- Technik: Asynchrone Replikation (ZFS Replication alle 1-15 Min).
Separate Cluster (Federation): Keine HA-Automatik, manuelle Wiederherstellung via Backup (Artikel 694).

# 2. Die Latenz-Hürde (Corosync)

Die Lichtgeschwindigkeit bändigen.

Das größte Problem bei Multi-Site ist die Zeit, die ein Paket zwischen den Standorten braucht.

Corosync Limit: Alles über 10ms RTT führt zu Cluster-Instabilität und ungewollten Reboots (Fencing).
Lösung: Nutzen Sie dedizierte Layer-2 Punkt-zu-Punkt Verbindungen (Dark Fiber) oder MPLS mit garantierten Latenzen.

# 3. Deep Dive: Quorum am dritten Standort

Der Schiedsrichter.

In einem 2-Standort-Cluster (Host A in RZ1, Host B in RZ2) führt ein Kabelbruch dazu, dass beide Seiten denken, sie seien allein (Split-Brain).

Lösung: Platzieren Sie einen QDevice (External Vote) an einem dritten Standort (z.B. in der Cloud oder im Home-Office).
Aktion: Der QDevice gibt der Seite die Mehrheit, die ihn noch erreichen kann. Dies verhindert, dass beide Seiten gleichzeitig versuchen, Master zu werden.

# 4. Day-2 Operations: Schwenk-Szenarien (DR)

Den Ernstfall trainieren.

Wie sieht ein Schwenk von RZ1 nach RZ2 aus?

Szenario: RZ1 ist komplett offline.
Automatik: HA-Manager erkennt Ausfall. Da RZ2 das Quorum (via QDevice) hat, werden die VMs dort gestartet.
Datenstand: Letzter erfolgreicher ZFS-Replication Stand (z.B. vor 5 Minuten).

# 5. Troubleshooting & “War Stories”

Wenn der Standort flappt.

# Top 3 Fehlerbilder

Symptom: Ständiges Fencing aller Knoten bei schlechtem Wetter.
- Ursache: Richtfunkstrecke zwischen Standorten hat Jitter bei Regen. Corosync-Pakete kommen zu spät an.
- Lösung: Erhöhen Sie die token Timeouts in der corosync.conf.
Symptom: Split-Brain bei manuellem Schwenk.
- Lösung: Nutzen Sie immer das offizielle Tool pvecm, um die Quorum-Erwartung anzupassen, wenn ein Standort dauerhaft offline geht.
Symptom: VMs booten am Standort B nicht.
- Ursache: IP-Adress-Mismatch (VLANs am zweiten Standort nicht identisch).

# “War Story”: Der “Zombie” Cluster

Ein Unternehmen betrieb einen 2-Standort-Cluster ohne QDevice. Ein Bagger durchtrennte das Glasfaserkabel zwischen den Standorten. Das Ergebnis: Beide Standorte verloren das Quorum und froren sofort alle VMs ein (Fencing). Da keine Seite eine Mehrheit hatte, startete keine VM neu. Das Unternehmen war für 6 Stunden komplett offline, obwohl beide RZs technisch gesund waren. Lehre: Ein Multi-Site Cluster ohne dritten Vote-Knoten (QDevice) ist kein Hochverfügbarkeits-System, sondern eine Zeitbombe.

# 6. Monitoring & Reporting

Latenz-Statistiken.

# Corosync Monitor (Shell)

# Überwachung der Latenz zwischen den Knoten
corosync-cfgtool -s

KPI: RTT Min/Max/Avg. Steigt der Max-Wert über 50ms, ist die Standort-Verbindung instabil.

# 7. Fazit & Empfehlung

Multi-Site HA ist die Königsklasse der Virtualisierung.

Empfehlung: Nutzen Sie für Distanzen > 5 km lieber zwei getrennte Cluster und den PBS Remote Sync (Artikel 694). Die Komplexität eines Geo-Clusters wird oft unterschätzt.
Wichtig: Verwenden Sie für Geo-Cluster zwingend ZFS Replication statt Ceph, da Ceph extrem empfindlich auf Latenzen beim Schreiben reagiert.

# Anhang: Cheatsheet (QDevice Setup)

Aufgabe	Befehl
QDevice installieren	`apt install corosync-qnetd` (am 3. Standort)
QDevice beitreten	`pvecm qdevice setup <IP-Adresse>` (vom PVE Host)
Quorum Status	`pvecm status`