# Proxmox Disaster Recovery: Strategien für minimale RTO & RPO

TL;DR / Management Summary Ein erfolgreiches Disaster Recovery wird nicht durch Glück, sondern durch Architektur bestimmt. Wir optimieren das RPO (Recovery Point Objective) durch den Einsatz von ZFS Replication (sekundengenaue Spiegelung) und minimieren das RTO (Recovery Time Objective) durch den Proxmox Backup Server (PBS) Live-Restore. Ein Senior Admin balanciert dabei zwischen Kosten und Ausfallrisiko und automatisiert die Wiederherstellungs-Kette, um im Ernstfall menschliche Fehler auszuschließen.


# 1. Die Kennzahlen verstehen

Was das Business fordert.


# 2. RPO-Optimierung: Datenverlust minimieren

Vom täglichen Backup zum Echtzeit-Spiegel.

  1. Level 1: Tägliches Backup (RPO 24h).
  2. Level 2: Stündliches PBS-Backup (RPO 1h).
  3. Level 3: ZFS Replication alle 1-5 Minuten (RPO < 5 Min).
  4. Level 4: Ceph Multi-Site Replikation (RPO fast 0).

# 3. Deep Dive: RTO-Optimierung: Den Restore beschleunigen

Sekunden statt Stunden.

Das größte Hindernis für ein niedriges RTO ist die Datenübertragung.


# 4. Day-2 Operations: Automatisierte DR-Orchestrierung

Der ‘rote Knopf’.

Erstellen Sie eine DR-Pipeline (z.B. via Ansible):


# 5. Troubleshooting & “War Stories”

Wenn die Zeit gegen einen arbeitet.

# Top 3 Fehlerbilder

  1. Symptom: Restore dauert viel länger als berechnet.

    • Ursache: Das Backup-Netzwerk ist mit 1 Gbit zu langsam für einen Massen-Restore.
    • Lösung: Upgrade auf 10G oder 25G für Backup-Targets.
  2. Symptom: Datenkorruption nach schnellem Rollback.

    • Ursache: Applikation im Gast (SQL) wurde nicht sauber “eingefroren” (Quiesced).
    • Fix: Guest Agent zwingend nutzen (Artikel 672).
  3. Symptom: RPO-Verletzung durch hängende Replikations-Jobs.

# “War Story”: Der “Optimierte” Daten-Gau

Ein Admin setzte das RPO auf 1 Minute via ZFS Replication. Er verzichtete auf tägliche Backups (“Spiegelung ist ja sicher”). Das Ereignis: Ein User löschte versehentlich den Haupt-Ordner auf dem Fileserver. Das Ergebnis: Genau 60 Sekunden später wurde der Löschbefehl an den DR-Standort repliziert. Das Spiegelbild war nun an beiden Orten leer. Da kein echtes Backup existierte, waren die Daten für immer weg. Lehre: Replikation schützt vor Hardware-Ausfall, aber Backups schützen vor logischen Fehlern. Ein niedriges RPO durch Replikation entbindet Sie niemals von der Pflicht eines versionierten Backups mit langer Retention.


# 6. Monitoring & Reporting

Die DR-Bereitschaft messen.

# RTO/RPO Scorecard

Erstellen Sie monatlich einen Bericht:


# 7. Fazit & Empfehlung

Optimieren Sie für den Restore, nicht für das Backup.


# Anhang: Die DR-Leistungsklassen

Klasse RPO RTO Kosten
Bronze 24h 8h Gering (NFS)
Silber 1h 2h Mittel (PBS)
Gold 5 Min 15 Min Hoch (ZFS Repl)
Platin < 1 Sek < 1 Min Extrem (Multi-Site Ceph)

# Referenzen