# Proxmox HA Setup: Schritt-für-Schritt zur hochverfügbaren Infrastruktur

TL;DR / Management Summary Ein HA Cluster in Proxmox verwandelt eine Gruppe von Einzelservern in ein resilientes System. Fällt ein physischer Knoten aus, übernimmt der Cluster-Manager die Kontrolle und startet die betroffenen VMs auf gesunden Knoten neu. Ein Senior Admin konfiguriert hierfür HA-Gruppen zur Steuerung der Lastverteilung und achtet streng auf das N+1 Prinzip, um sicherzustellen, dass im Fehlerfall genug Ressourcen für alle Workloads vorhanden sind.

# 1. Voraussetzungen für HA

Die Pflicht vor der Kür.

Damit HA zuverlässig funktioniert, müssen folgende Bedingungen erfüllt sein:

Quorum: Mindestens 3 Knoten (oder 2 + QDevice, Artikel 665).
Shared Storage: Alle Knoten müssen Zugriff auf die VM-Disks haben (Artikel 685) oder ZFS-Replikation nutzen.
Netzwerk: Konsistente Bridge-Namen auf allen Knoten (z.B. vmbr0).
Hardware-Watchdog: Aktiviert in den Node-Optionen.

# 2. Einrichtung des HA-Managers

Den Autopilot aktivieren.

# Schritt 1: HA Gruppe erstellen

Datacenter -> HA -> Groups -> Create.

ID: GROUP-PROD-SQL.
Nodes: Wählen Sie die Knoten aus, die diese Workloads hosten sollen.
Restricted: Falls die VMs nur auf diesen Knoten laufen dürfen.

# Schritt 2: VM zur HA hinzufügen

Datacenter -> HA -> Add.

VMID: Wählen Sie Ihre kritische VM.
Group: Wählen Sie die in Schritt 1 erstellte Gruppe.
Max Restart: Wie oft soll Proxmox versuchen, die VM bei einem Fehler neustarter (Standard: 1).
Max Relocate: Wie oft soll die VM auf einen anderen Knoten verschoben werden.

# 3. Deep Dive: HA-Zustände (States)

Die Logik hinter dem Failover.

Der HA-Manager überwacht jede Ressource:

Request: Started: Der Soll-Zustand. Die VM soll laufen.
Status: OK: Alles im grünen Bereich.
Status: Recover: Der Host ist tot. Der Cluster entscheidet gerade, welcher neue Host die VM übernimmt.
Status: Fenced: Der tote Host wurde isoliert (Watchdog-Reboot), um Daten-Corruption zu vermeiden.

# 4. Day-2 Operations: Wartungsmodus (Maintenance)

Arbeiten ohne Alarm.

Bevor Sie einen Host für Updates neustarten:

Migrieren Sie die HA-VMs manuell (Live Migration).
Alternativ: Setzen Sie den Host in den Maintenance Mode unter Node -> Management -> Maintenance.
Wirkung: Der HA-Manager ignoriert diesen Host temporär und löst keine Failover-Alarme aus.

# 5. Troubleshooting & “War Stories”

Wenn der Schwenk hakt.

# Top 3 Fehlerbilder

Symptom: VM startet nicht am Ziel-Knoten.
- Ursache: RAM-Mangel am Ersatz-Host.
- Lösung: Nutzen Sie Dynamic Memory (Ballooning) (Artikel 668), um im Notfall Platz zu schaffen.
Symptom: Host führt ständig Selbst-Reboots durch.
- Ursache: Netzwerk-Latenz im Corosync-Netz ist zu hoch (> 5ms). Der Watchdog denkt, der Host sei isoliert und löst STONITH aus.
- Fix: Separates 10G Netz für Corosync nutzen.
Symptom: VM bleibt im Status Error hängen.
- Lösung: ha-manager status prüfen und ggf. Lock manuell via CLI entfernen.

# “War Story”: Das “No-Backup” HA-Blindvertrauen

Ein Admin dachte, mit HA sei er sicher vor Datenverlust. Er verzichtete auf Backups (“Der Cluster spiegelt ja alles”). Das Ereignis: Ein Dateisystem-Bug in einer VM korrumpierte die Datenbank. Das Ergebnis: HA erkannte, dass die VM noch “lief” und tat nichts. Als die VM schließlich abstürzte, startete HA sie brav auf Knoten B neu – inklusive der korrupten Datenbank. Lehre: HA schützt vor Hardware-Ausfall, nicht vor Daten-Korruption. Backups (Artikel 613) sind auch im HA-Cluster zwingend erforderlich!

# 6. Monitoring & Reporting

Status der Verfügbarkeit.

# HA-Log Analyse (Shell)

# Zeigt alle HA-Entscheidungen der letzten Stunde
journalctl -u pve-ha-crm -u pve-ha-lrm --since "1 hour ago"

# 7. Fazit & Empfehlung

Ein gut konfigurierter HA-Cluster ist der Stolz jedes Admins.

Empfehlung: Nutzen Sie Shared Storage via Ceph (Artikel 687). Es bietet die nahtloseste Integration für HA.
Wichtig: Testen Sie den Ernstfall (“Stecker ziehen”) einmal im Jahr an einem Test-System, um sicherzustellen, dass Fencing und Quorum-Logik korrekt konfiguriert sind.

# Anhang: Cheatsheet (HA CLI)

Aufgabe	Befehl
Globaler Status	`ha-manager status`
VM zu HA hinzufügen	`ha-manager add vm:100`
Ressource entfernen	`ha-manager remove vm:100`
CRM Log sehen	`tail -f /var/log/pve-ha-crm.log`