Skip to content

PBS: Backup job failed / verify failed

Kdy to pípá

  • Alert z PBS: backup job failed, verify failed, datastore errors, prune/GC issues.

Dopad

  • Neaktuální backupy, riziko neobnovitelnosti, možné zaplnění datastore (neproběhl prune/GC).

Priorita

  • P0: selhává více jobů, datastore read-only, chyby I/O, rychle roste usage.
  • P1: selhává kritický job (VM/DB), verify fail.
  • P2: jednorázové selhání bez dopadu na RPO.

Rychlá kontrola (do 5 minut)

1) PBS UI → Dashboard → poslední joby: který job, kdy, jaký error. 2) PBS UI → Datastore: usage %, IO errors. 3) Ověř, zda není problém v cílovém storage (TrueNAS / disk / NFS / ZFS).

Diagnostika

  • PBS UI → Task log konkrétního jobu: vypsat konkrétní error string.
  • Časté kategorie:
  • auth/permission (token, credentials)
  • storage I/O (read-only, ENOSPC)
  • network timeouts
  • prune/GC konflikt
  • verify checksum mismatch

Náprava

ENOSPC / rychlé plnění datastore

1) Spusť/naplánuj prune (retention). 2) Spusť GC mimo špičku. 3) Zkontroluj, zda retention politika odpovídá realitě.

Network / timeout

  • Ověř konektivitu mezi Proxmox node ↔ PBS.
  • Zkontroluj MTU/VLAN změny, výpadky, packet loss.

Storage I/O / read-only

  • Eskaluj na TrueNAS runbook “Storage alert”.
  • Zkontroluj ZFS pool status a dataset.

Verify failed

  • Pokud ojedinělé: opakuj verify.
  • Pokud opakované: podezření na storage/corruption → řeš jako P0.

Ověření

  • Job proběhne.
  • Verify projde.
  • Usage datastore stabilní a prune/GC běží dle plánu.

Prevence / follow-up

  • Alerty na usage thresholdy datastore.
  • Měsíční restore test (vzorek).
  • Dokumentovat retention a RPO/RTO očekávání.

Odkazy

  • PBS UI: Tasks, Datastore
  • Dashboardy: (doplň linky)