# Proxmox Fence Devices: Physische Isolation für Hochverfügbarkeit

TL;DR / Management Summary Fencing (Artikel 692) ist nur so zuverlässig wie das Gerät, das den “Todesstoß” ausführt. Während ein Software-Watchdog bei einem Kernel-Freeze versagen kann, nutzen wir physische Fence Devices zur garantierten Isolation. Ein Senior Admin nutzt IPMI (Intelligent Platform Management Interface) oder smarte PDUs (Power Distribution Units), um einen fehlerhaften Host hardwareseitig auszuschalten, bevor seine VMs auf einem anderen Knoten neu gestartet werden.


# 1. Typen von Fence Devices

Die Werkzeuge der Isolation.

  1. In-Band (Watchdog): Läuft auf dem gleichen OS/Kernel. (Unsicherer bei Totalabsturz).
  2. Out-of-Band (Management Cards): iDRAC (Dell), iLO (HPE), IMM (IBM). Arbeitet unabhängig vom Betriebssystem.
  3. External (PDU): Schaltet die Steckdose des Servers via Netzwerk ab. (Die ultimative Lösung).

# 2. Einrichtung: IPMI Fencing

Kommunikation mit dem Mainboard.

Proxmox nutzt die fence-agents Suite.

  1. Vorbereitung: Aktivieren Sie IPMI am Server und vergeben Sie eine statische IP für die Management-Karte.
  2. Konfiguration: /etc/pve/ha/fence.cfg.
fence: node1-ipmi
  agent: fence_ipmilan
  ipaddr: 10.0.99.1
  login: admin
  passwd: secretpassword
  lanplus: 1
  1. Zuweisung: Verknüpfen Sie dieses Device mit dem Knoten pve01.

# 3. Deep Dive: Smarte PDUs als Fence Device

Der Stecker-Zieher.

Wenn Sie günstige Whitebox-Server ohne IPMI nutzen, sind smarte PDUs (z.B. von APC oder Eaton) die Rettung.


# 4. Day-2 Operations: Zweistufiges Fencing (Fencing Levels)

Sicherheit durch Kaskaden.

In Hochsicherheitsumgebungen kombinieren wir Methoden:


# 5. Troubleshooting & “War Stories”

Wenn die Waffe nach hinten losgeht.

# Top 3 Fehlerbilder

  1. Symptom: “Fence failed” im Log.

    • Ursache: Das Passwort der Management-Karte wurde geändert, aber nicht in Proxmox aktualisiert.
    • Lösung: Passwort-Sync sicherstellen.
  2. Symptom: Host wird rebootet, obwohl er online ist.

    • Ursache: Das Management-Netzwerk (für IPMI) ist überlastet oder instabil.
    • Fix: Trennen Sie das Management-Netz physisch vom VM-Traffic.
  3. Symptom: Zirkuläre Abhängigkeit.

    • Problem: Das Gateway zum PDU-Netzwerk ist eine VM, die auf dem Cluster läuft, der gerade gefenced werden soll.

# “War Story”: Der “Auto-Power-Off” am Freitagabend

Ein Admin konfigurierte eine neue APC-PDU als Fence Device. Er vertauschte beim Mapping die Port-Nummern der Steckdosen. Das Ereignis: Knoten 1 hatte einen kurzen Netzwerk-Schluckauf. Der Cluster entschied, Knoten 1 zu fencen. Das Ergebnis: Die PDU schaltete Port 1 aus – dort hing aber der Core-Switch der Firma. Das gesamte Unternehmen war sofort offline. Lehre: Testen Sie Fencing-Mappings niemals direkt in Produktion. Beschriften Sie Kabel und PDU-Ports physisch und digital doppelt!


# 6. Monitoring & Reporting

Fencing-Bereitschaft prüfen.

# Fencing Test (Trockenübung)

Nutzen Sie das CLI-Tool, um den Zugriff zu testen, ohne den Strom wirklich abzuschalten:

# Testet den Login an der Management Karte
fence_ipmilan -a 10.0.99.1 -l admin -p password -o status

# 7. Fazit & Empfehlung

Physische Fence Devices sind die Krönung der Cluster-Sicherheit.


# Anhang: Unterstützte Agenten (Auszug)

Agent Name Hardware
fence_ipmilan Generisches IPMI (Dell, HP, Supermicro)
fence_apc APC switched PDUs
fence_ilo HPE iLO spezifisch
fence_vmware Fencing einer VM in einem anderen Cluster

# Referenzen