# File-Level Deduplication: Single Instance Storage für Fileserver
TL;DR / Management Summary File-Level Deduplication, oft auch als Single Instance Storage (SIS) bezeichnet, arbeitet auf der obersten Ebene des Dateisystems. Wenn 10 User die gleiche 50 MB PDF-Anleitung in ihren persönlichen Ordnern speichern, merkt das System die Übereinstimmung und speichert die Datei nur ein einziges Mal ab. Für Senior Admins ist dies die “leichtgewichtige” Alternative zur Block-Deduplikation (Artikel 625), da sie kaum RAM benötigt und keine Fragmentierung der Block-Ebene verursacht.
# 1. Einführung & Funktionsweise
Die Datei als Ganzes.
Im Gegensatz zur Block-Ebene wird bei der File-Deduplikation ein Hash über die gesamte Datei berechnet.
- MD5/SHA Hash: Wird für jede geschlossene Datei generiert.
- Vergleich: Stimmen Hash und Dateigröße exakt überein?
- Link: Die Duplikate werden durch Hard-Links oder spezielle Reparse-Points (Windows) auf die Originaldatei ersetzt.
# 2. Wo File-Level Deduplication glänzt
Die perfekten Anwendungsfälle.
# 1. Email-Systeme
In Exchange-Umgebungen (Legacy) oder Mail-Archiven ist es üblich, dass die gleiche Email an 100 Empfänger geht. SIS spart hier massiv Platz.
# 2. Software-Repositories (ISO-Archive)
Identische Installations-Images über verschiedene Standorte hinweg werden sofort erkannt.
# 3. User-Profile
Desktop-Hintergründe, Standard-DLLs oder Handbücher, die jeder User in seinen Dokumenten hat.
# 3. Deep Dive: Windows Server Data Deduplication
Der integrierte ‘Hausmeister’.
Windows Server (ab 2012) nutzt eine hybride Form, die primär auf Dateiebene scannt (Post-Processing).
- Aktion: Ein Hintergrundjob durchsucht nachts die Platte.
- Vorteil: Keine CPU-Last während der Arbeitszeit (keine Schreibverzögerung).
- Technik: Die Dateien werden in den “Chunk Store” verschoben, und an der ursprünglichen Stelle bleibt ein 1 KB Zeiger.
# 4. Day-2 Operations: Management & Audit
Wie viel sparen wir?
Unter Windows Server nutzen wir die PowerShell:
# Status der Deduplikation auf Volume D:
Get-DedupStatus -Volume D: | Select-Object SavedSpace, OptimizedFiles, FreeSpace
# Einen Optimierungs-Job manuell starten
Start-DedupJob -Volume D: -Type Optimization
# 5. Troubleshooting & “War Stories”
Wenn die Datei ‘doppelt’ Probleme macht.
# Top 3 Fehlerbilder
-
Symptom: Antivirus-Scan dauert ewig oder lastet die CPU aus.
- Ursache: Der Scanner folgt jedem Zeiger und scannt die Original-Datei im Chunk-Store hunderte Male erneut.
- Lösung: Nutzen Sie AV-Software, die “Deduplication-Aware” ist.
-
Symptom: Dateiwiederherstellung (Restore) ist extrem langsam.
- Ursache: Wenn die Original-Datei im Chunk-Store auf einem langsamen Sektor liegt, betrifft dies alle 100 User-Kopien gleichzeitig.
-
Symptom: Korrupter Chunk-Store führt zu Massen-Datenverlust.
- Lösung: Nutzen Sie für deduplizierte Volumes immer RAID-Systeme mit hoher Redundanz (RAID 6 oder RAID 10).
# “War Story”: Der “Hidden” Overhead bei Backups
Ein Admin deduplizierte seinen Fileserver auf Dateiebene und sparte 40% Platz. Das Problem: Sein Backup-Programm (altes File-Level Backup) erkannte die Zeiger nicht und sicherte jede Datei einzeln zurück auf das Tape. Das Ergebnis: Das 2 TB Backup passte nicht mehr auf das 2 TB Tape, da das Backup-Tool die Deduplikation “aufhob” (rehydrated). Lehre: Prüfen Sie, ob Ihr Backup-System “Deduplication-Aware” ist. Moderne Tools sichern nur die Chunks und die Metadaten, nicht die aufgeblähten Dateien.
# 6. Monitoring & Reporting
Statistiken für den Storage-Plan.
# Wichtige Metriken
- Dedup Savings %: Ziel bei Office-Daten: 30-50%.
- In-Use Chunk Count: Zeigt die Komplexität der Verlinkungen.
# 7. Fazit & Empfehlung
File-Level Deduplication ist robust und einfach zu verstehen.
- Empfehlung: Nutzen Sie sie für allgemeine Fileserver (Dokumente, PDFs, Bilder).
- Abgrenzung: Für VM-Sicherungen oder Datenbanken nutzen Sie zwingend Block-Level Deduplication (Artikel 625), da sich dort nur Teile von Dateien ändern und SIS hier 0% Ersparnis bringt.
# Anhang: Cheatsheet
| Aufgabe | Windows Befehl |
|---|---|
| Rolle installieren | Install-WindowsFeature FS-Data-Deduplication |
| Volume aktivieren | Enable-DedupVolume -Volume "D:" |
| Job Liste | Get-DedupJob |
| Garbage Collection | Start-DedupJob -Type GarbageCollection |