SUSE HA Extension: Pacemaker & Hawk (Artikel 176)
Konfiguration der SUSE Linux Enterprise High Availability Extension. Erfahren Sie alles über das Web-Interface Hawk, Fencing-Strategien und den Aufbau von unternehmenskritischen Clustern.
# SUSE High Availability: Enterprise Clustering mit Hawk
TL;DR / Management Summary Für den 24/7-Betrieb bietet SUSE die High Availability Extension (HAE) an. Während der Unterbau (Pacemaker/Corosync) Standard ist, bietet SUSE mit Hawk (High Availability Web Konsole) eine der besten Weboberflächen für das Cluster-Management. Ein Senior Admin nutzt Hawk, um Ressourcen (IPs, DRBD, SAP) visuell zu überwachen, und vertraut auf die tiefe YaST-Integration für die Konfiguration des Fencings (STONITH).
# 1. Einführung & Architektur
Der SUSE HAE Stack.
Die HA-Extension ist ein optionales Modul für SLES. Sie ergänzt das System um Cluster-Filesysteme (OCFS2), Replikation (DRBD) und das Management-GUI.
# Die Komponenten (Mermaid)
graph TD
A[Node 1: SLES + HAE] <-->|Corosync Heartbeat| B[Node 2: SLES + HAE]
A --- C[Hawk Web UI: Port 7630]
B --- C
subgraph "Resources"
D[Virtual IP]
E[DRBD Replication]
F[Application: SAP / DB]
end
C -->|Manage| D
C -->|Manage| E
C -->|Manage| F
G[STONITH: SBD / IPMI] --> A
G --> B
# 2. Der SUSE Weg: Hawk Web UI
Clustering ohne Angst vor der CLI.
Hawk erlaubt die gesamte Administration im Browser.
- URL:
https://<node_ip>:7630 - Dashboard: Zeigt sofort, ob alle Nodes “online” sind und welche Ressourcen wo laufen.
- History: Ermöglicht das visuelle Replay von Cluster-Events (“Warum ist die IP gestern um 03:00 Uhr geschwenkt?”).
# 3. Cluster-Initialisierung via YaST
Der Wizard-Ansatz.
Anstatt hunderte Zeilen XML oder pcs Kommandos zu tippen:
sudo yast2 cluster.- Communication: Konfigurieren Sie die Corosync-Ringe (Nutzen Sie immer zwei getrennte Netze!).
- Security: Generieren Sie die Auth-Keys.
- Service: Starten Sie Pacemaker.
# 4. Day-2 Operations: SBD (Storage-based Death)
Fencing ohne IPMI.
Wenn Ihre Server keine IPMI-Schnittstelle haben, nutzt SUSE oft SBD. Hierbei dient eine kleine LUN auf dem SAN als Kommunikationsweg. Wenn ein Node hinkt, schreibt der andere einen “Poison Pill” Sektor auf die Disk, und der betroffene Node schaltet sich sofort ab.
# SBD Status prüfen
sbd -d /dev/mapper/mpatha list
# 5. Troubleshooting & “War Stories”
Wenn der Failover zum Desaster wird.
# Story 1: “Der Split-Brain-Schock”
Symptom: Beide Nodes im Cluster sind aktiv und versuchen, die gleiche IP und den gleichen Storage zu übernehmen. Datenkorruption droht!
Ursache: Das Herzschlag-Netzwerk war unterbrochen, und Fencing (STONITH) war nicht konfiguriert.
Lösung: Nutzen Sie immer STONITH. In SUSE ist sbd die bevorzugte Methode für physische Server mit Shared Storage.
# Story 2: “Das abgelaufene Hawk-Zertifikat”
Symptom: Der Zugriff auf die Hawk-Weboberfläche schlägt mit einem SSL-Fehler fehl, obwohl der Cluster einwandfrei läuft. Ursache: Das selbstsignierte Zertifikat von Hawk ist abgelaufen. Lösung: Generieren Sie das Zertifikat neu oder nutzen Sie das YaST CA-Modul, um ein firmenweit gültiges Zertifikat für Hawk zu hinterlegen.
# 6. Fazit & Empfehlung
- GUI: Nutzen Sie Hawk. Es ist deutlich übersichtlicher als die CLI-Tools für die tägliche Überwachung.
- Netzwerk: Trennen Sie Heartbeat-Traffic strikt von Daten-Traffic. Latenzspitzen führen sonst zu unnötigen Fencing-Aktionen.
- Tests: Nutzen Sie die “Simulation” Funktion in Hawk, um Auswirkungen von Regeländerungen zu prüfen, bevor Sie diese live schalten.
# Anhang: Cheatsheet
| Aufgabe | SUSE / CLI Befehl |
|---|---|
| Cluster Status | crm status |
| Ressourcen listen | crm resource list |
| Node in Standby | crm node standby <name> |
| Fehler löschen | crm resource cleanup <name> |
| Hawk Port | 7630 |
| SBD Status | sbd -d <dev> list |
| Cluster Log | journalctl -u pacemaker |
| YaST Modul | yast2 cluster |