Fatal error: Network error with FD during Backup: ERR=Conexão fechada pela outra ponta

761 views
Skip to first unread message

André Luiz Félix Pacheco

unread,
Apr 26, 2016, 1:24:34 PM4/26/16
to Bacula Backup-Pt-Br
Prezados,

boa tarde, estou com um problema que realmente não sei como resolver, após alguns picos de luz o bacula não faz mais o backup Full dos clientes. Não consegui encontrar nenhuma corelação entre tempo de interrupção. Todos os jobs full independente dos clientes, terminam após algumas horas como Fatal error: Network error with FD during Backup: ERR=Conexão fechada pela outra ponta,

No meu ambiente o Bacula está na mesma rede dos seus clientes, porém os clientes possuem iptables, mas estão devidamente configurados, tanto é que passou meses sem dar nenhum erro. porém após alguns picos de luz o problema veio a ocorrer.

Nota: os backups incrementais e backps do Oracle (Full) que duram cerca de 90 minutos rodam perfeitamente.

Realizando um tcpdump eu verifico que o cliente que reset a conexão, o que confirma a mensagem de erro.

O que eu já li aqui no grupo e fiz sem sucesso.  Colocar o Heartbeat interval = 60 e não rolou. Reinstalei os FD's e não rolou. Alguém tem uma luz? Pois o problema ocorre tanto bkp feito em disco quanto em fita.

Tanto o servidor Bacula quanto os clientes estão na versão 7.4.0 e são todos linux.

segue o erro completo do job:
26-Abr 10:54 bkp.prd-dir JobId 440: Start Backup JobId 440, Job=Job-srv02_Tandberg1.2016-04-26_10.54.31_03
26-Abr 10:54 bkp.prd-dir JobId 440: Recycled current volume "T00092"
26-Abr 10:54 bkp.prd-dir JobId 440: Using Device "Drive-1" to write.
26-Abr 10:54 bkp.prd-sd JobId 440: Recycled volume "T00092" on tape device "Drive-1" (/dev/nst0), all previous data lost.
26-Abr 13:42 bkp.prd-dir JobId 440: Fatal error: Network error with FD during Backup: ERR=Conexão fechada pela outra ponta
26-Abr 13:43 bkp.prd-dir JobId 440: Error: Director's connection to SD for this Job was lost.
26-Abr 13:43 bkp.prd-dir JobId 440: Fatal error: No Job status returned from FD.
26-Abr 13:43 bkp.prd-dir JobId 440: Error: Bacula bkp.prd-dir 7.4.0 (16Jan16):
  Build OS:               x86_64-unknown-linux-gnu redhat (Core)
  JobId:                  440
  Job:                    Job-srv02_Tandberg1.2016-04-26_10.54.31_03
  Backup Level:           Full
  Client:                 "srv02" 7.4.0 (16Jan16) x86_64-unknown-linux-gnu,redhat,Enterprise release
  FileSet:                "FileSet-srv02" 2016-03-18 14:48:14
  Pool:                   "Semanal" (From User input)
  Catalog:                "MyCatalog" (From Client resource)
  Storage:                "Tandberg1" (From Job resource)
  Scheduled time:         26-Abr-2016 10:54:08
  Start time:             26-Abr-2016 10:54:34
  End time:               26-Abr-2016 13:43:12
  Elapsed time:           2 hours 48 mins 38 secs
  Priority:               10
  FD Files Written:       769,063
  SD Files Written:       0
  FD Bytes Written:       168,726,448,557 (168.7 GB)
  SD Bytes Written:       0 (0 B)
  Rate:                   16675.9 KB/s
  Software Compression:   None
  Snapshot/VSS:           no
  Encryption:             no
  Accurate:               no
  Volume name(s):         T00092
  Volume Session Id:      1
  Volume Session Time:    1461677439
  Last Volume Bytes:      168,989,184,000 (168.9 GB)
  Non-fatal FD errors:    2
  SD Errors:              0
  FD termination status:  Error
  SD termination status:  Error
  Termination:            *** Backup Error ***

Wanderlei

unread,
Apr 26, 2016, 4:11:54 PM4/26/16
to Bacula Backup-Pt-Br
Olá André 

Você setou o heartbeat interval em quais diretivas?
Uma coisa bem idiota mas que já tive problemas, foi de desligar e ligar o switch novamente.

Att Wanderlei

André Luiz Félix Pacheco

unread,
Apr 26, 2016, 4:31:48 PM4/26/16
to Bacula Backup-Pt-Br
Opa Wanderlei,

Vamos lá,

Eu sei o HeartBeat Interval nas diretivas Director e Client do bacula-dir,   Na diretiva Storage do bacula-sd e na Diretiva Client do bacula-fd dos clientes.  Todos com o mesmo valo Heartbeat Interval = 60

Com relação ao switch, eu creio que não seja esse o problema pois todas as maquinas estão em num A5500 da HP e serve como core da rede então não vi nenhum erro de retransmissão, porém posso dar um reboot nele só para garantir.

Obrigado pelas dicas, eu sinceramente esgotei minha possibilidades. ;)

Mauricio Neto

unread,
Apr 26, 2016, 7:00:47 PM4/26/16
to bacula-ba...@googlegroups.com

Senhores boa noite.
Na semana passada tive exatamente o mesmo problema e o erro eram dois arquivos jpg que estavam corrompidos. Quando o Bacula tentava lelos a CPU ficava em 100% até que a "outra ponta" cancelava a conexão.

Mauricio Neto

--
Você recebeu essa mensagem porque está inscrito no grupo "Bacula Backup-Pt-Br" dos Grupos do Google.
Para cancelar inscrição nesse grupo e parar de receber e-mails dele, envie um e-mail para bacula-backup-p...@googlegroups.com.
Para postar nesse grupo, envie um e-mail para bacula-ba...@googlegroups.com.
Acesse esse grupo em https://groups.google.com/group/bacula-backup-pt-br.
Para ver essa discussão na Web, acesse https://groups.google.com/d/msgid/bacula-backup-pt-br/9e81f66c-7389-409d-89e9-a46070dd322e%40googlegroups.com.
Para mais opções, acesse https://groups.google.com/d/optout.

André Luiz Félix Pacheco

unread,
Apr 26, 2016, 8:07:24 PM4/26/16
to bacula-ba...@googlegroups.com
Opa Maurício, 

Pode ser isso!  Como você descobriu os arquivos corrompidos? 

--
Você recebeu essa mensagem porque está inscrito em um tópico no grupo "Bacula Backup-Pt-Br" dos Grupos do Google.
Para cancelar inscrição nesse tópico, acesse https://groups.google.com/d/topic/bacula-backup-pt-br/9wy0qmrOI7M/unsubscribe.
Para cancelar inscrição nesse grupo e todos os seus tópicos, envie um e-mail para bacula-backup-p...@googlegroups.com.

Para postar nesse grupo, envie um e-mail para bacula-ba...@googlegroups.com.
Acesse esse grupo em https://groups.google.com/group/bacula-backup-pt-br.

Para mais opções, acesse https://groups.google.com/d/optout.



--

André Luiz F. Pacheco  
LPIC-3 Mixed Environments Certification ID: LPI000229683
CCNA : CSCO12080741
Bacula Administrator Certified - BAC-101

Mauricio Neto

unread,
Apr 27, 2016, 5:50:05 PM4/27/16
to bacula-ba...@googlegroups.com
André boa noite.
Desculpe a demora na resposta.
Eu fui meio que na "orelhada", usei o list files jobid=<numero-do-job> para ver ate onde ele havia feito o backup e a  partir desse ponto fui verificar os arquivos.

Atenciosamente
Mauricio Neto

André Luiz Félix Pacheco

unread,
Apr 27, 2016, 6:33:38 PM4/27/16
to bacula-ba...@googlegroups.com
Maurício Muito obrigado!!!

Vou ver aqui e posto as novidades!




Para mais opções, acesse https://groups.google.com/d/optout.

André Luiz Félix Pacheco

unread,
Apr 28, 2016, 11:23:58 AM4/28/16
to bacula-ba...@googlegroups.com
ola o erro via debug no fd

srv0-fd: backup.c:477-505 type=3 do_read=1
srv01-fd: backup.c:857-505 Send data to SD len=62444
srv01-fd: backup.c:853-505 Network send error to SD. ERR=Pipe quebrado
srv01-fd: backup.c:555-505 Job canceled by user or marked incomplete.
srv01-fd: backup.c:274-505 Job canceled by user or marked incomplete.
srv01-fd: backup.c:274-505 Job canceled by user or marked incomplete.
srv01-fd: backup.c:274-505 Job canceled by user or marked incomplete.
srv01-fd: backup.c:274-505 Job canceled by user or marked incomplete.
srv01-fd: backup.c:274-505 Job canceled by user or marked incomplete.
srv01-fd: backup.c:274-505 Job canceled by user or marked incomplete.
srv01-fd: backup.c:230-505 end blast_data ok=0
srv01-fd: job.c:2052-505 Error in blast_data.
srv01-fd: job.c:314-505 Quit command loop. Canceled=1
srv01-fd: job.c:425-505 Calling term_find_files
srv01-fd: job.c:428-505 Done with term_find_files
srv01-fd: jcr.c:174-505 write_last_jobs seek to 192
srv01-fd: job.c:431-0 Done with free_jcr

Alguém pode me dizer o que significa?

Ana Emília M. Arruda

unread,
Apr 30, 2016, 10:51:15 AM4/30/16
to bacula-ba...@googlegroups.com
Olá André,

Você consegue status client desse client com problemas? Estimate consegue? Porque aparentemente não está gravando nenhum arquivo. Você testou um tar para esse drive de fita (/dev/nst0) para verificar se o problema não é no drive após o pico de energia? Tanto o client como o director perdem a conexão com o storage daemon.

[]s
Ana

André Luiz Félix Pacheco

unread,
Apr 30, 2016, 8:26:45 PM4/30/16
to bacula-ba...@googlegroups.com
Oi Ana, 

estava gravando sim, visto que demorava horas e os volumes em disco iam se enchendo. Mas resolvi o problema com uma dica do Wanderlei.

Eu abri o fd de um cliente em modo debug

/etc/init.d/bacula-fd -n 150 -c /etc/bacula/bacula-df.conf

e deixei rodando, quando parou eu rodei novamente em outro momento e parava sempre na mesma pasta, retirei a pasta e pronto. Como era uma pasta que não estava mais em produção, não faria falta.  Sempre que o FD lia essa pasta a load da CPU ia lá em cima e o cliente resetava.


Para mais opções, acesse https://groups.google.com/d/optout.

Ana Emília M. Arruda

unread,
May 1, 2016, 3:37:55 AM5/1/16
to bacula-ba...@googlegroups.com
Obrigada pelo feedback André.

Reply all
Reply to author
Forward
0 new messages