centos hardware problem?

188 views
Skip to first unread message

Daniel Veloso - Infolider

unread,
Sep 8, 2018, 4:58:00 PM9/8/18
to tche...@googlegroups.com
Pessoal

Boa tarde.

Seria o "systemd-journald killed by SIGABRT" um indicador que o sistema de arquivos foi forçosamente interrompido por uma falha de hardware que levaria o servidor a travar? Estou desconfiado desse SSD, estava num storage e após certo tempo o dispositivo travava.

Tenho um atom com processador 32 bits rodando de teste o centos 7.5.1804 e o servidor para de responder a ping remotamente, só desligando e ligando novamente o bicho no botão.
Ao logar no console ele dá a seguinte mensagem

ABRT has detected 2 problem(s). For more info run: abrt-cli list --since 1533818261
[root@localhost ~]#  abrt-cli list --since 1533818261
id b3413b19a5c48361d68e1e4aad041cb7d8633311
reason:         NMI watchdog: BUG: soft lockup - CPU#1 stuck for 22s! [pickup:1645]
time:           Tue 04 Sep 2018 04:49:18 PM EDT
cmdline:        BOOT_IMAGE=/vmlinuz-3.10.0-862.9.1.el7.x86_64 root=/dev/mapper/centos-root ro crashkernel=auto rd.lvm.lv=centos/root rd.lvm.lv=centos/swap rhgb quiet LANG=en_US.UTF-8
package:        kernel
uid:            0 (root)
count:          1
Directory:      /var/spool/abrt/oops-2018-09-04-16:49:14-858-4
Reported:       cannot be reported

id cb980df428a96d614effd1cdd3465643ae545eb3
reason:         systemd-journald killed by SIGABRT
time:           Tue 04 Sep 2018 03:00:54 PM EDT
cmdline:        /usr/lib/systemd/systemd-journald
package:        systemd-219-57.el7
uid:            0 (root)
count:          1
Directory:      /var/spool/abrt/ccpp-2018-09-04-15:00:54-473


The Autoreporting feature is disabled. Please consider enabling it by issuing
'abrt-auto-reporting enabled' as a user with root privileges


__________________
Daniel Veloso
vel...@infolider.inf.br
+55 54 9 9127 5752
+55 54 3025 7666
Infolider Informática Ltda.
Caxias do Sul - RS - Brasil




Política de Privacidade: Esta mensagem (incluindo qualquer anexo) é CONFIDENCIAL e legalmente protegida, somente podendo ser usada pelo indivíduo ou entidade a quem foi endereçada. Caso você a tenha recebido por engano, deverá devolvê-la ao remetente e apagá-la. A disseminação, encaminhamento, uso, impressão ou cópia do conteúdo desta mensagem são expressamente proibidos.

 

Privacy Policy: This email (including any attachments) is CONFIDENTIAL, legally protected and intended solely for the use of the individual or entity to whom it is addressed. If you have received this email by mistake, please notify the sender and delete this e-mail from your system. Disclosing, forwarding, printing or copying the content of this email is strictly prohibited.

Leonardo Vaz

unread,
Sep 8, 2018, 7:13:37 PM9/8/18
to Tchelinux

On Saturday, September 8, 2018 at 5:58:00 PM UTC-3, Daniel Veloso wrote:
Pessoal

Boa tarde.

Seria o "systemd-journald killed by SIGABRT" um indicador que o sistema de arquivos foi forçosamente interrompido por uma falha de hardware que levaria o servidor a travar? Estou desconfiado desse SSD, estava num storage e após certo tempo o dispositivo travava.

Mais alguma coisa nos logs que consiga sustentar o rant acima? 
 
Tenho um atom com processador 32 bits rodando de teste o centos 7.5.1804 e o servidor para de responder a ping remotamente, só desligando e ligando novamente o bicho no botão.
Ao logar no console ele dá a seguinte mensagem

ABRT has detected 2 problem(s). For more info run: abrt-cli list --since 1533818261
[root@localhost ~]#  abrt-cli list --since 1533818261
id b3413b19a5c48361d68e1e4aad041cb7d8633311
reason:         NMI watchdog: BUG: soft lockup - CPU#1 stuck for 22s! [pickup:1645]

Tudo que se sabe é que sistema operacional congelou depois que um dos processos Postfix travou. Consegue reproduzir? Já tentou fazer rollback com a versão anterior do kernel? O erro acontece se tu desabilita o Postfix durante o boot?

Leo

Rafael Aquini

unread,
Sep 12, 2018, 8:19:57 PM9/12/18
to Daniel Veloso - Infolider, tche...@googlegroups.com
On Sat, Sep 08, 2018 at 03:58:38PM -0300, Daniel Veloso - Infolider wrote:
> Pessoal
>
> Boa tarde.
>
> Seria o "systemd-journald killed by SIGABRT" um indicador que o sistema de
> arquivos foi forçosamente interrompido por uma falha de hardware que levaria o
> servidor a travar? Estou desconfiado desse SSD, estava num storage e após certo
> tempo o dispositivo travava.
>
> Tenho um atom com processador 32 bits rodando de teste o centos 7.5.1804 e o
> servidor para de responder a ping remotamente, só desligando e ligando
> novamente o bicho no botão.
> Ao logar no console ele dá a seguinte mensagem
>
> ABRT has detected 2 problem(s). For more info run: abrt-cli list --since
> 1533818261
> [root@localhost ~]#  abrt-cli list --since 1533818261
> id b3413b19a5c48361d68e1e4aad041cb7d8633311
> reason:         NMI watchdog: BUG: soft lockup - CPU#1 stuck for 22s!

Esse pode ser um indicativo do provavel root cause do teu problema de interatividade
Eu recomendaria ajustar o sistema para capturar um crash dump em casos de NMI watchdog
ou hungtasks via esses 2 passos:

1) habilitar o kdump;
https://access.redhat.com/documentation/en-us/red_hat_enterprise_linux/7/html/kernel_administration_guide/kernel_crash_dump_guide

2) setar os seguintes sysctls (/etc/sysctl.conf):
kernel.softlockup_panic=1
kernel.hung_task_panic=1

De posse de um crash dump, tu pode utilizar o utilitario crash para determinar
as causas mais prováveis dos softlockups ou outros hangs...
https://access.redhat.com/documentation/en-us/red_hat_enterprise_linux/7/html/kernel_administration_guide/kernel_crash_dump_guide#chap-analyzing-a-core-dump


> [pickup:1645]
> time:           Tue 04 Sep 2018 04:49:18 PM EDT
> cmdline:        BOOT_IMAGE=/vmlinuz-3.10.0-862.9.1.el7.x86_64 root=/dev/mapper/
> centos-root ro crashkernel=auto rd.lvm.lv=centos/root rd.lvm.lv=centos/swap
> rhgb quiet LANG=en_US.UTF-8
> package:        kernel
> uid:            0 (root)
> count:          1
> Directory:      /var/spool/abrt/oops-2018-09-04-16:49:14-858-4
> Reported:       cannot be reported
>
> id cb980df428a96d614effd1cdd3465643ae545eb3
> reason:         systemd-journald killed by SIGABRT
> time:           Tue 04 Sep 2018 03:00:54 PM EDT
> cmdline:        /usr/lib/systemd/systemd-journald
> package:        systemd-219-57.el7
> uid:            0 (root)
> count:          1
> Directory:      /var/spool/abrt/ccpp-2018-09-04-15:00:54-473
>

systemd-journald é o daemon de logs e, aparentemente, o hang acusado
pelo NMI watchdog + o dedão no power-button podem ter causado uma corrupção
no log journal -- há indicios de que systemd-journald é bem sensivel a
situações de falta de tempo de resposta, levando o proprio systemd a
matar seu filho de logs, como apontado em:
https://bugzilla.redhat.com/show_bug.cgi?id=1381088
e
https://bugs.centos.org/view.php?id=11015

--
Rafael Aquini <aqu...@linux.com>
Reply all
Reply to author
Forward
0 new messages