On Sat, Sep 08, 2018 at 03:58:38PM -0300, Daniel Veloso - Infolider wrote:
> Pessoal
>
> Boa tarde.
>
> Seria o "systemd-journald killed by SIGABRT" um indicador que o sistema de
> arquivos foi forçosamente interrompido por uma falha de hardware que levaria o
> servidor a travar? Estou desconfiado desse SSD, estava num storage e após certo
> tempo o dispositivo travava.
>
> Tenho um atom com processador 32 bits rodando de teste o centos 7.5.1804 e o
> servidor para de responder a ping remotamente, só desligando e ligando
> novamente o bicho no botão.
> Ao logar no console ele dá a seguinte mensagem
>
> ABRT has detected 2 problem(s). For more info run: abrt-cli list --since
> 1533818261
> [root@localhost ~]# abrt-cli list --since 1533818261
> id b3413b19a5c48361d68e1e4aad041cb7d8633311
> reason: NMI watchdog: BUG: soft lockup - CPU#1 stuck for 22s!
Esse pode ser um indicativo do provavel root cause do teu problema de interatividade
Eu recomendaria ajustar o sistema para capturar um crash dump em casos de NMI watchdog
ou hungtasks via esses 2 passos:
1) habilitar o kdump;
https://access.redhat.com/documentation/en-us/red_hat_enterprise_linux/7/html/kernel_administration_guide/kernel_crash_dump_guide
2) setar os seguintes sysctls (/etc/sysctl.conf):
kernel.softlockup_panic=1
kernel.hung_task_panic=1
De posse de um crash dump, tu pode utilizar o utilitario crash para determinar
as causas mais prováveis dos softlockups ou outros hangs...
https://access.redhat.com/documentation/en-us/red_hat_enterprise_linux/7/html/kernel_administration_guide/kernel_crash_dump_guide#chap-analyzing-a-core-dump
> [pickup:1645]
> time: Tue 04 Sep 2018 04:49:18 PM EDT
> cmdline: BOOT_IMAGE=/vmlinuz-3.10.0-862.9.1.el7.x86_64 root=/dev/mapper/
> centos-root ro crashkernel=auto
rd.lvm.lv=centos/root
rd.lvm.lv=centos/swap
> rhgb quiet LANG=en_US.UTF-8
> package: kernel
> uid: 0 (root)
> count: 1
> Directory: /var/spool/abrt/oops-2018-09-04-16:49:14-858-4
> Reported: cannot be reported
>
> id cb980df428a96d614effd1cdd3465643ae545eb3
> reason: systemd-journald killed by SIGABRT
> time: Tue 04 Sep 2018 03:00:54 PM EDT
> cmdline: /usr/lib/systemd/systemd-journald
> package: systemd-219-57.el7
> uid: 0 (root)
> count: 1
> Directory: /var/spool/abrt/ccpp-2018-09-04-15:00:54-473
>
systemd-journald é o daemon de logs e, aparentemente, o hang acusado
pelo NMI watchdog + o dedão no power-button podem ter causado uma corrupção
no log journal -- há indicios de que systemd-journald é bem sensivel a
situações de falta de tempo de resposta, levando o proprio systemd a
matar seu filho de logs, como apontado em:
https://bugzilla.redhat.com/show_bug.cgi?id=1381088
e
https://bugs.centos.org/view.php?id=11015
--
Rafael Aquini <
aqu...@linux.com>