# Proxmox Fence Devices: Physische Isolation für Hochverfügbarkeit
TL;DR / Management Summary Fencing (Artikel 692) ist nur so zuverlässig wie das Gerät, das den “Todesstoß” ausführt. Während ein Software-Watchdog bei einem Kernel-Freeze versagen kann, nutzen wir physische Fence Devices zur garantierten Isolation. Ein Senior Admin nutzt IPMI (Intelligent Platform Management Interface) oder smarte PDUs (Power Distribution Units), um einen fehlerhaften Host hardwareseitig auszuschalten, bevor seine VMs auf einem anderen Knoten neu gestartet werden.
# 1. Typen von Fence Devices
Die Werkzeuge der Isolation.
- In-Band (Watchdog): Läuft auf dem gleichen OS/Kernel. (Unsicherer bei Totalabsturz).
- Out-of-Band (Management Cards): iDRAC (Dell), iLO (HPE), IMM (IBM). Arbeitet unabhängig vom Betriebssystem.
- External (PDU): Schaltet die Steckdose des Servers via Netzwerk ab. (Die ultimative Lösung).
# 2. Einrichtung: IPMI Fencing
Kommunikation mit dem Mainboard.
Proxmox nutzt die fence-agents Suite.
- Vorbereitung: Aktivieren Sie IPMI am Server und vergeben Sie eine statische IP für die Management-Karte.
- Konfiguration:
/etc/pve/ha/fence.cfg.
fence: node1-ipmi
agent: fence_ipmilan
ipaddr: 10.0.99.1
login: admin
passwd: secretpassword
lanplus: 1
- Zuweisung: Verknüpfen Sie dieses Device mit dem Knoten
pve01.
# 3. Deep Dive: Smarte PDUs als Fence Device
Der Stecker-Zieher.
Wenn Sie günstige Whitebox-Server ohne IPMI nutzen, sind smarte PDUs (z.B. von APC oder Eaton) die Rettung.
- Technik: Wenn Knoten A nicht mehr antwortet, schickt Knoten B einen Befehl an die PDU: “Schalte Port 5 aus”.
- Vorteil: Es funktioniert auch, wenn das gesamte Mainboard des Servers gegrillt wurde.
# 4. Day-2 Operations: Zweistufiges Fencing (Fencing Levels)
Sicherheit durch Kaskaden.
In Hochsicherheitsumgebungen kombinieren wir Methoden:
- Level 1: Versuche IPMI Reboot (Schnell).
- Level 2: Wenn Level 1 scheitert (z.B. Management-Port Down) -> Schalte PDU Port aus.
- Aktion: Konfigurieren Sie die Prioritäten in der
ha-managerKonfiguration.
# 5. Troubleshooting & “War Stories”
Wenn die Waffe nach hinten losgeht.
# Top 3 Fehlerbilder
-
Symptom: “Fence failed” im Log.
- Ursache: Das Passwort der Management-Karte wurde geändert, aber nicht in Proxmox aktualisiert.
- Lösung: Passwort-Sync sicherstellen.
-
Symptom: Host wird rebootet, obwohl er online ist.
- Ursache: Das Management-Netzwerk (für IPMI) ist überlastet oder instabil.
- Fix: Trennen Sie das Management-Netz physisch vom VM-Traffic.
-
Symptom: Zirkuläre Abhängigkeit.
- Problem: Das Gateway zum PDU-Netzwerk ist eine VM, die auf dem Cluster läuft, der gerade gefenced werden soll.
# “War Story”: Der “Auto-Power-Off” am Freitagabend
Ein Admin konfigurierte eine neue APC-PDU als Fence Device. Er vertauschte beim Mapping die Port-Nummern der Steckdosen. Das Ereignis: Knoten 1 hatte einen kurzen Netzwerk-Schluckauf. Der Cluster entschied, Knoten 1 zu fencen. Das Ergebnis: Die PDU schaltete Port 1 aus – dort hing aber der Core-Switch der Firma. Das gesamte Unternehmen war sofort offline. Lehre: Testen Sie Fencing-Mappings niemals direkt in Produktion. Beschriften Sie Kabel und PDU-Ports physisch und digital doppelt!
# 6. Monitoring & Reporting
Fencing-Bereitschaft prüfen.
# Fencing Test (Trockenübung)
Nutzen Sie das CLI-Tool, um den Zugriff zu testen, ohne den Strom wirklich abzuschalten:
# Testet den Login an der Management Karte
fence_ipmilan -a 10.0.99.1 -l admin -p password -o status
# 7. Fazit & Empfehlung
Physische Fence Devices sind die Krönung der Cluster-Sicherheit.
- Empfehlung: Nutzen Sie IPMI/iDRAC als Standard-Fence-Device. Es ist in fast jedem Enterprise-Server bereits eingebaut.
- Wichtig: Sorgen Sie für eine eigene USV für die Management-Switche und PDUs, damit das Fencing auch bei einem lokalen Stromausfall im Rack noch funktioniert.
# Anhang: Unterstützte Agenten (Auszug)
| Agent Name | Hardware |
|---|---|
fence_ipmilan |
Generisches IPMI (Dell, HP, Supermicro) |
fence_apc |
APC switched PDUs |
fence_ilo |
HPE iLO spezifisch |
fence_vmware |
Fencing einer VM in einem anderen Cluster |