# Service Mesh – Istio & Linkerd

Kurzfassung: Ziel ist, Backup- und Replikationslast gleichmäßig über Proxies/Repos und Zeitfenster zu verteilen, um RPO/RTO einzuhalten und Ressourcen zu schonen. Jobs werden nach Priorität gewichtet und in Wellen gestartet.

# 1. Zweck & Zielbild

Keine Überlast einzelner Proxies/Repos, stabile Durchsätze.
Kritische Jobs zuerst, Standard/Dev zeitlich versetzt.
Automatisches Balancing nutzt alle verfügbaren Ressourcen effizient.

# 2. Voraussetzungen

Mehrere Proxies/Repos verfügbar (Artikel 785/835/808).
Konsistente Benennung/Tags für Jobs/Standorte.
Monitoring für Queue/Throughput/Task-Load (Artikel 769/823).

# 3. Risiken / Backout

Falsche Affinity/Weights → Ressourcen ungenutzt oder überlastet.
Zu viele gleichzeitige Jobs → IO/Netz-Kollaps.
Ungleichmäßige Zeitpläne → RPO-Risiken.
Backout: Jobs zurück auf Auto, Slots/Concurrency senken, Wellen neu staffeln.

# 4. Umsetzung (Schritte)

Prioritäten/Wellen: Kritisch (Wave 1), Standard (Wave 2), Dev/Test (Wave 3); Startzeiten versetzen.
Proxy/Repo-Auswahl: Auto-Select nutzen, bei Bedarf Affinity für Standorte/Netze; Weights anpassen, wenn ein Proxy stärker ist.
Slots/Tasks: Pro Proxy/Repo konservativ starten, dann anhand von Load-Metriken erhöhen.
BWLimit/QoS: Netzlimits je Job/Pfad (Artikel 809), nachts höher, tagsüber niedriger.
Automation: Skripte/Policies, die neue Jobs automatisch korrekt zuweisen; Drift-Checks.
Fallback: Regeln, wann Jobs auf andere Proxies/Repos ausweichen dürfen, wenn Primärpfad gestört ist.

# 5. Verify / Tests

Queue/Wait-Zeiten sinken, Durchsatz pro Proxy/Repo ausgeglichener.
RPO/RTO eingehalten in Pilot-Woche; keine IO/Netz-Spitzen.
Logs zeigen gewünschten Transport-Mode/Proxy-Einsatz.

# 6. Runbooks

Überlast: Slots senken, Jobs verschieben, zusätzliche Proxies/Repos aktivieren.
Unausgelastet: Weights anpassen, mehr Jobs in die Welle, Slots erhöhen.
Standortproblem: Affinity entfernen, Fallback-Pfade nutzen, danach zurückstellen.

# 7. Monitoring / Alerts

Task-Queue, Durchsatz, Proxy/Repo-CPU/IO, Fallback-Raten, RPO-Delta.
Alerts bei anhaltender Überlast, langen Queues, RPO-Verletzungen, einseitiger Nutzung.

# 8. Governance

Balancing-Regeln versionieren, Änderungen reviewen.
Quartalsweiser Review der Wellen/Slots/Weights basierend auf Messwerten.
Dokumentation der Affinity/Exclude-Listen und Owner.

# 9. Links & Quellen

Artikel 785/810/835 (Proxies), 791 (Scheduling), 809 (BW), 799/800 (Replikation), 823 (Monitoring).