# Service Mesh – Istio & Linkerd
Kurzfassung: Ziel ist, Backup- und Replikationslast gleichmäßig über Proxies/Repos und Zeitfenster zu verteilen, um RPO/RTO einzuhalten und Ressourcen zu schonen. Jobs werden nach Priorität gewichtet und in Wellen gestartet.
# 1. Zweck & Zielbild
- Keine Überlast einzelner Proxies/Repos, stabile Durchsätze.
- Kritische Jobs zuerst, Standard/Dev zeitlich versetzt.
- Automatisches Balancing nutzt alle verfügbaren Ressourcen effizient.
# 2. Voraussetzungen
- Mehrere Proxies/Repos verfügbar (Artikel 785/835/808).
- Konsistente Benennung/Tags für Jobs/Standorte.
- Monitoring für Queue/Throughput/Task-Load (Artikel 769/823).
# 3. Risiken / Backout
- Falsche Affinity/Weights → Ressourcen ungenutzt oder überlastet.
- Zu viele gleichzeitige Jobs → IO/Netz-Kollaps.
- Ungleichmäßige Zeitpläne → RPO-Risiken.
- Backout: Jobs zurück auf Auto, Slots/Concurrency senken, Wellen neu staffeln.
# 4. Umsetzung (Schritte)
- Prioritäten/Wellen: Kritisch (Wave 1), Standard (Wave 2), Dev/Test (Wave 3); Startzeiten versetzen.
- Proxy/Repo-Auswahl: Auto-Select nutzen, bei Bedarf Affinity für Standorte/Netze; Weights anpassen, wenn ein Proxy stärker ist.
- Slots/Tasks: Pro Proxy/Repo konservativ starten, dann anhand von Load-Metriken erhöhen.
- BWLimit/QoS: Netzlimits je Job/Pfad (Artikel 809), nachts höher, tagsüber niedriger.
- Automation: Skripte/Policies, die neue Jobs automatisch korrekt zuweisen; Drift-Checks.
- Fallback: Regeln, wann Jobs auf andere Proxies/Repos ausweichen dürfen, wenn Primärpfad gestört ist.
# 5. Verify / Tests
- Queue/Wait-Zeiten sinken, Durchsatz pro Proxy/Repo ausgeglichener.
- RPO/RTO eingehalten in Pilot-Woche; keine IO/Netz-Spitzen.
- Logs zeigen gewünschten Transport-Mode/Proxy-Einsatz.
# 6. Runbooks
- Überlast: Slots senken, Jobs verschieben, zusätzliche Proxies/Repos aktivieren.
- Unausgelastet: Weights anpassen, mehr Jobs in die Welle, Slots erhöhen.
- Standortproblem: Affinity entfernen, Fallback-Pfade nutzen, danach zurückstellen.
# 7. Monitoring / Alerts
- Task-Queue, Durchsatz, Proxy/Repo-CPU/IO, Fallback-Raten, RPO-Delta.
- Alerts bei anhaltender Überlast, langen Queues, RPO-Verletzungen, einseitiger Nutzung.
# 8. Governance
- Balancing-Regeln versionieren, Änderungen reviewen.
- Quartalsweiser Review der Wellen/Slots/Weights basierend auf Messwerten.
- Dokumentation der Affinity/Exclude-Listen und Owner.
# 9. Links & Quellen
- Artikel 785/810/835 (Proxies), 791 (Scheduling), 809 (BW), 799/800 (Replikation), 823 (Monitoring).