# Event-Driven Architecture

Kurzfassung: Failback bringt Workloads nach einem DR-Ereignis kontrolliert zurück. Wichtig: Datenabgleich, geplante Downtime, Netz/DNS-Rückschaltung und klare Entscheidungs-/Rollback-Punkte.

# 1. Zweck & Zielbild

Primärstandort übernimmt stabil und aktuell.
Minimaler Datenverlust, definierte Downtime.
Rückkehr ist reversibel, falls Probleme auftreten.

# 2. Voraussetzungen

Primärstandort wieder gesund (Hardware/Netz/Storage).
Replikation/Sync bereit für Delta-Transfer zurück.
Freigaben/Change-Plan, Kommunikationskanal aktiv.

# 3. Risiken / Backout

Datenverlust bei unsauberem Delta-Sync.
Lange Downtime, wenn Tests/Checks fehlen.
DNS/Netz-Probleme nach Umschaltung.
Backout: Failback stoppen, DR weiter betreiben, erneut testen; Rollback-Plan mit klaren Kriterien.

# 4. Umsetzung (Schritte)

Assess & Go/No-Go: Primär-Health prüfen, RPO/RTO-Ziel, Freigaben.
Delta-Sync vorbereiten: Replikation zurück (Reprotect), Bandbreite/Fenster planen.
Test am Primär: Isoliert starten, Basis-Checks (Boot, Netz, Applikation).
Geplante Umschaltung: Downtime-Fenster, Benutzer informieren, Services am DR stoppen.
Final Sync & Switch: Delta kopieren, Primär starten, DNS/VIPs/Firewall zurücksetzen.
Validation: Applikations-Checks, Logs, Performance; ggf. kurze Beobachtungsphase.
Cleanup: DR in Standby, Replikation auf Primär → DR wiederherstellen; Dokumentation.

# 5. Verify / Tests

Replikation zurück erfolgreich, keine Fehler im Delta.
Services laufen am Primär, Nutzer-Tests ok.
DNS/Netzwege korrekt, Monitoring/Logs ohne kritische Fehler; kurze Beobachtungsphase abschließen.

# 6. Runbooks

Failback fehlschlägt: DR wieder aktivieren, Fehler analysieren, neuen Slot planen.
Dateninkonsistenz: Nochmals Delta, ggf. punktuelle Restores; Tickets eröffnen.
Netz/DNS-Fehler: TTLs/Records prüfen, Firewall, Routing fixen, erneut testen; Notfall: temporäre Statische Routen/Hosts-Datei zur schnellen Erreichbarkeit.

# 7. Monitoring / Alerts

Replikationsjobs (Rückweg), RPO-Delta, Service-Health nach Umschaltung, DNS/Netz-Checks.
Alerts bei Sync-Fehlern, langen Downtimes, Performance-Einbruch am Primär.

# 8. Governance

Failback-Plan versioniert, Freigaben dokumentiert.
Post-Mortem nach Failback, Lessons Learned in Runbooks.
Regelmäßige Übungen für Failover + Failback kombiniert.

# 9. Links & Quellen

Artikel 799/800 (Replikation), 804 (Failover), 829 (DR-Plan), 830 (DR-Site), Veeam Failback Guides.