# Event-Driven Architecture
Kurzfassung: Failback bringt Workloads nach einem DR-Ereignis kontrolliert zurück. Wichtig: Datenabgleich, geplante Downtime, Netz/DNS-Rückschaltung und klare Entscheidungs-/Rollback-Punkte.
# 1. Zweck & Zielbild
- Primärstandort übernimmt stabil und aktuell.
- Minimaler Datenverlust, definierte Downtime.
- Rückkehr ist reversibel, falls Probleme auftreten.
# 2. Voraussetzungen
- Primärstandort wieder gesund (Hardware/Netz/Storage).
- Replikation/Sync bereit für Delta-Transfer zurück.
- Freigaben/Change-Plan, Kommunikationskanal aktiv.
# 3. Risiken / Backout
- Datenverlust bei unsauberem Delta-Sync.
- Lange Downtime, wenn Tests/Checks fehlen.
- DNS/Netz-Probleme nach Umschaltung.
- Backout: Failback stoppen, DR weiter betreiben, erneut testen; Rollback-Plan mit klaren Kriterien.
# 4. Umsetzung (Schritte)
- Assess & Go/No-Go: Primär-Health prüfen, RPO/RTO-Ziel, Freigaben.
- Delta-Sync vorbereiten: Replikation zurück (Reprotect), Bandbreite/Fenster planen.
- Test am Primär: Isoliert starten, Basis-Checks (Boot, Netz, Applikation).
- Geplante Umschaltung: Downtime-Fenster, Benutzer informieren, Services am DR stoppen.
- Final Sync & Switch: Delta kopieren, Primär starten, DNS/VIPs/Firewall zurücksetzen.
- Validation: Applikations-Checks, Logs, Performance; ggf. kurze Beobachtungsphase.
- Cleanup: DR in Standby, Replikation auf Primär → DR wiederherstellen; Dokumentation.
# 5. Verify / Tests
- Replikation zurück erfolgreich, keine Fehler im Delta.
- Services laufen am Primär, Nutzer-Tests ok.
- DNS/Netzwege korrekt, Monitoring/Logs ohne kritische Fehler; kurze Beobachtungsphase abschließen.
# 6. Runbooks
- Failback fehlschlägt: DR wieder aktivieren, Fehler analysieren, neuen Slot planen.
- Dateninkonsistenz: Nochmals Delta, ggf. punktuelle Restores; Tickets eröffnen.
- Netz/DNS-Fehler: TTLs/Records prüfen, Firewall, Routing fixen, erneut testen; Notfall: temporäre Statische Routen/Hosts-Datei zur schnellen Erreichbarkeit.
# 7. Monitoring / Alerts
- Replikationsjobs (Rückweg), RPO-Delta, Service-Health nach Umschaltung, DNS/Netz-Checks.
- Alerts bei Sync-Fehlern, langen Downtimes, Performance-Einbruch am Primär.
# 8. Governance
- Failback-Plan versioniert, Freigaben dokumentiert.
- Post-Mortem nach Failback, Lessons Learned in Runbooks.
- Regelmäßige Übungen für Failover + Failback kombiniert.
# 9. Links & Quellen
- Artikel 799/800 (Replikation), 804 (Failover), 829 (DR-Plan), 830 (DR-Site), Veeam Failback Guides.