# Proxmox VM Migration & Failover: Das Zusammenspiel von HA & Mobility
TL;DR / Management Summary In einem Proxmox-Cluster ist die Fähigkeit, VMs zwischen physischen Hosts zu verschieben, die Basis für Wartungsfreundlichkeit und Hochverfügbarkeit. Wir unterscheiden zwischen der manuellen Live Migration (für geplante Wartung) und dem Automatic Failover (für ungeplante Hardware-Ausfälle). Ein Senior Admin sorgt dafür, dass alle VMs auf Shared Storage (Artikel 685) liegen und dass das Cluster-Netzwerk genug Bandbreite für schnelle Schwenks bietet, um die Downtime im Sekundenbereich zu halten.
# 1. Live Migration vs. Automatic Failover
Geplant vs. Ungeplant.
- Live Migration (Artikel 672):
- Szenario: Admin will Host A neustarten.
- Vorgang: Die laufende VM wird via Netzwerk auf Host B geschoben.
- Ergebnis: Null Downtime. Die Applikation läuft unterbrechungsfrei weiter.
- Automatic Failover (HA):
- Szenario: Host A stirbt (Stromausfall).
- Vorgang: Der Cluster-Manager (CRM) bemerkt den Ausfall und startet die VM auf Host B neu.
- Ergebnis: Minimale Downtime (Bootzeit der VM). Datenstand ist der Zeitpunkt des Crashs (falls Shared Storage genutzt wurde).
# 2. Voraussetzungen für einen sauberen Schwenk
Die Checkliste der Resilienz.
Damit der Failover gelingt, müssen beide Hosts “Zwillinge” sein:
- Storage: Die VM-ID muss auf dem Ziel-Host den gleichen Speicherpfad finden (z.B.
/mnt/pve/nas-images). - Networking: Die virtuelle Bridge (z.B.
vmbr10) muss auf dem Ziel-Host identisch konfiguriert sein (VLANs, MTU). - CPU: Wenn Host A eine moderne Intel-CPU hat und Host B eine alte, schlägt die Live-Migration fehl (Artikel 666).
# 3. Deep Dive: HA-Gruppen & Failover-Domains
Die Schwenk-Logik steuern.
Sie wollen nicht, dass Ihre wichtigste Datenbank auf den schwächsten Ersatz-Server schwenkt.
Datacenter -> HA -> Groups.- Erstellen Sie eine Gruppe
High-Perf-Nodes. - Wählen Sie nur die leistungsstarken Hosts aus.
- Priority: Geben Sie Knoten A die Priorität 10 und Knoten B die Priorität 5.
- Wirkung: Der Cluster versucht die VM immer auf dem leistungsstärksten verfügbaren Knoten zu halten.
# 4. Day-2 Operations: Failover-Testing
Den Ernstfall proben.
Ein Failover-Plan, der nie getestet wurde, ist wertlos.
- Aktion: Schalten Sie am Wochenende einen Proxmox-Knoten hart aus (Stecker ziehen oder IPMI-Power-Off).
- Beobachtung:
- Wie lange dauert es, bis der Cluster den Ausfall bemerkt? (Standard: ~60 Sek).
- Starten alle VMs in der richtigen Reihenfolge (Artikel 676)?
- Gibt es IP-Konflikte nach dem Neustart?
# 5. Troubleshooting & “War Stories”
Wenn der Schwenk hängen bleibt.
# Top 3 Fehlerbilder
-
Symptom: VM schwenkt um, hat aber keine Netzwerkverbindung.
- Ursache: Das VLAN am Switch-Port des Ziel-Hosts ist nicht erlaubt.
- Lösung: Switch-Konfiguration (Trunks) vereinheitlichen.
-
Symptom: “Migration failed: local resources detected”.
- Ursache: Die VM hat eine durchgereichte USB-Festplatte (Artikel 674) oder eine ISO aus dem lokalen Storage gemountet.
- Fix: Lokale Medien vor der Migration “unmounten”.
-
Symptom: Failover-Schleife (VM startet und crasht sofort wieder).
- Lösung:
Max RestartWert in den HA-Settings begrenzen, um den Host nicht zu überlasten.
- Lösung:
# “War Story”: Der “Storage-Timeout” Teufel
Ein Admin betrieb seinen Cluster mit einem instabilen NFS-NAS. Das Ereignis: Das NAS hatte einen kurzen Hänger (10 Sekunden). Das Ergebnis: Alle 3 Proxmox-Knoten dachten gleichzeitig, ihre Disks seien weg. Da HA aktiv war, versuchten alle Knoten gleichzeitig, die VMs der “vermeintlich toten” Nachbarn zu übernehmen. Dies führte zu einem massiven I/O-Sturm auf das NAS, sobald es wieder da war, was das NAS erneut in die Knie zwang. Lehre: HA benötigt ein felsenfestes Storage-Backend. Nutzen Sie für HA-Workloads lieber Ceph (Artikel 687) oder Multipath-iSCSI, um kurzzeitige Netzschwankungen abzufangen.
# 6. Monitoring & Reporting
Statistiken der Verfügbarkeit.
# Downtime Analyse (Shell)
# Zeigt den zeitlichen Ablauf des letzten Failovers
journalctl -u pve-ha-crm --since "today"
- KPI:
Recovery Time. Messen Sie die Zeit vom Host-Crash bis zumping -tErfolg der VM.
# 7. Fazit & Empfehlung
VM Migration und Failover sind die Kerndisziplinen des Datacenters.
- Empfehlung: Automatisieren Sie die Lastverteilung mit dem Proxmox DRS-Skript (Community), wenn Sie viele Knoten haben.
- Wichtig: Sorgen Sie für eine redundante Stromversorgung der Switche. Wenn der Storage-Switch stirbt, hilft Ihnen auch der beste HA-Cluster nicht mehr.
# Anhang: Cheatsheet (Failover Parameter)
| Parameter | Empfehlung | Zweck |
|---|---|---|
| Max Restart | 1 | Verhindert Boot-Loops |
| Max Relocate | 1 | Verhindert VM-Wandern im Cluster |
| Shutdown Policy | Migrate | Sicherer Host-Reboot |
| Fencing Mode | Watchdog | Schnelle Isolation |