PBS: Backup job failed / verify failed¶

Kdy to pípá¶

Alert z PBS: backup job failed, verify failed, datastore errors, prune/GC issues.

Dopad¶

Neaktuální backupy, riziko neobnovitelnosti, možné zaplnění datastore (neproběhl prune/GC).

Priorita¶

P0: selhává více jobů, datastore read-only, chyby I/O, rychle roste usage.
P1: selhává kritický job (VM/DB), verify fail.
P2: jednorázové selhání bez dopadu na RPO.

Rychlá kontrola (do 5 minut)¶

1) PBS UI → Dashboard → poslední joby: který job, kdy, jaký error. 2) PBS UI → Datastore: usage %, IO errors. 3) Ověř, zda není problém v cílovém storage (TrueNAS / disk / NFS / ZFS).

Diagnostika¶

PBS UI → Task log konkrétního jobu: vypsat konkrétní error string.
Časté kategorie:
auth/permission (token, credentials)
storage I/O (read-only, ENOSPC)
network timeouts
prune/GC konflikt
verify checksum mismatch

Náprava¶

ENOSPC / rychlé plnění datastore¶

1) Spusť/naplánuj prune (retention). 2) Spusť GC mimo špičku. 3) Zkontroluj, zda retention politika odpovídá realitě.

Network / timeout¶

Ověř konektivitu mezi Proxmox node ↔ PBS.
Zkontroluj MTU/VLAN změny, výpadky, packet loss.

Storage I/O / read-only¶

Eskaluj na TrueNAS runbook “Storage alert”.
Zkontroluj ZFS pool status a dataset.

Verify failed¶

Pokud ojedinělé: opakuj verify.
Pokud opakované: podezření na storage/corruption → řeš jako P0.

Ověření¶

Job proběhne.
Verify projde.
Usage datastore stabilní a prune/GC běží dle plánu.

Prevence / follow-up¶

Alerty na usage thresholdy datastore.
Měsíční restore test (vzorek).
Dokumentovat retention a RPO/RTO očekávání.

Odkazy¶

PBS UI: Tasks, Datastore
Dashboardy: (doplň linky)