PBS: Backup job failed / verify failed¶
Kdy to pípá¶
- Alert z PBS: backup job failed, verify failed, datastore errors, prune/GC issues.
Dopad¶
- Neaktuální backupy, riziko neobnovitelnosti, možné zaplnění datastore (neproběhl prune/GC).
Priorita¶
- P0: selhává více jobů, datastore read-only, chyby I/O, rychle roste usage.
- P1: selhává kritický job (VM/DB), verify fail.
- P2: jednorázové selhání bez dopadu na RPO.
Rychlá kontrola (do 5 minut)¶
1) PBS UI → Dashboard → poslední joby: který job, kdy, jaký error. 2) PBS UI → Datastore: usage %, IO errors. 3) Ověř, zda není problém v cílovém storage (TrueNAS / disk / NFS / ZFS).
Diagnostika¶
- PBS UI → Task log konkrétního jobu: vypsat konkrétní error string.
- Časté kategorie:
- auth/permission (token, credentials)
- storage I/O (read-only, ENOSPC)
- network timeouts
- prune/GC konflikt
- verify checksum mismatch
Náprava¶
ENOSPC / rychlé plnění datastore¶
1) Spusť/naplánuj prune (retention). 2) Spusť GC mimo špičku. 3) Zkontroluj, zda retention politika odpovídá realitě.
Network / timeout¶
- Ověř konektivitu mezi Proxmox node ↔ PBS.
- Zkontroluj MTU/VLAN změny, výpadky, packet loss.
Storage I/O / read-only¶
- Eskaluj na TrueNAS runbook “Storage alert”.
- Zkontroluj ZFS pool status a dataset.
Verify failed¶
- Pokud ojedinělé: opakuj verify.
- Pokud opakované: podezření na storage/corruption → řeš jako P0.
Ověření¶
- Job proběhne.
- Verify projde.
- Usage datastore stabilní a prune/GC běží dle plánu.
Prevence / follow-up¶
- Alerty na usage thresholdy datastore.
- Měsíční restore test (vzorek).
- Dokumentovat retention a RPO/RTO očekávání.
Odkazy¶
- PBS UI: Tasks, Datastore
- Dashboardy: (doplň linky)