Google Groups no longer supports new Usenet posts or subscriptions. Historical content remains viewable.
Dismiss

Server hängt

1 view
Skip to first unread message

Jan Novak

unread,
May 19, 2022, 2:02:50 AM5/19/22
to

Moin,

fast jede Nacht hängt sich ein Rechner mit einer ryzen5 CPU auf.
Genauer: es gibt kein Netzwerk mehr, aber auf der Konsole kann ich mich
noch anmelden... allerdings dann nichts mehr tun. Es muss jedesmal ein
Reset gemacht werden.

Unten ein Log Auszug, welcher auch auf die Konsole ausgegeben wird.
Kennt jemand das Problem?



May 19 07:39:22 mond1 kernel: [64360.303495] watchdog: BUG: soft lockup
- CPU#6 stuck for 28212s! [sed:89449]
May 19 07:39:22 mond1 kernel: [64360.304440] Modules linked in: msr
ebtable_filter ebtables ip_set ip6table_raw iptable_raw ip6table_filter
ip6_tables iptable_filter bpfilter sctp ip6_udp_tunnel udp_tunnel
nf_tables libcrc32c bonding tls softdog nfnetlink_log nfnetlink
intel_rapl_msr intel_rapl_common snd_hda_codec_realtek edac_mce_amd
snd_hda_codec_generic ledtrig_audio snd_hda_codec_hdmi kvm_amd radeon
snd_hda_intel kvm drm_ttm_helper snd_intel_dspcfg ttm snd_intel_sdw_acpi
irqbypass snd_hda_codec drm_kms_helper crct10dif_pclmul
ghash_clmulni_intel snd_hda_core cec aesni_intel snd_hwdep rc_core
snd_pcm crypto_simd eeepc_wmi i2c_algo_bit fb_sys_fops cryptd asus_wmi
syscopyarea snd_timer sparse_keymap sysfillrect sysimgblt rapl video
input_leds wmi_bmof snd pcspkr ccp soundcore k10temp efi_pstore mac_hid
zfs(PO) zunicode(PO) zzstd(O) zlua(O) zavl(PO) icp(PO) zcommon(PO)
znvpair(PO) spl(O) vhost_net vhost vhost_iotlb tap ib_iser rdma_cm iw_cm
ib_cm ib_core iscsi_tcp libiscsi_tcp libiscsi scsi_transport_iscsi drm
sunrpc
May 19 07:39:22 mond1 kernel: [64360.304493] ip_tables x_tables autofs4
hid_generic usbmouse usbkbd usbhid hid crc32_pclmul xhci_pci
xhci_pci_renesas i2c_piix4 r8169 ahci realtek xhci_hcd libahci wmi
gpio_amdpt gpio_generic
May 19 07:39:22 mond1 kernel: [64360.310608] CPU: 6 PID: 89449 Comm: sed
Tainted: P S D O L 5.13.19-6-pve #1
May 19 07:39:22 mond1 kernel: [64360.311627] Hardware name: System
manufacturer System Product Name/PRIME B350-PLUS, BIOS 5602 07/14/2020
May 19 07:39:22 mond1 kernel: [64360.312714] RIP:
0010:native_queued_spin_lock_slowpath+0x65/0x1e0
May 19 07:39:22 mond1 kernel: [64360.313854] Code: 0f 92 c0 0f b6 c0 c1
e0 08 89 c2 8b 07 30 e4 09 d0 a9 00 01 ff ff 0f 85 13 01 00 00 85 c0 74
0e 8b 07 84 c0 74 08 f3 90 8b 07 <84> c0 75 f8 b8 01 00 00 00 5d 66 89
07 c3 8b 37 ba 00 02 00 00 81
May 19 07:39:22 mond1 kernel: [64360.314926] RSP: 0018:ffffa1418cfc7c58
EFLAGS: 00000202
May 19 07:39:22 mond1 kernel: [64360.316056] RAX: 0000000000000101 RBX:
ffffc87004338080 RCX: 000fffffffe00000
May 19 07:39:22 mond1 kernel: [64360.317232] RDX: 0000000000000000 RSI:
0000000000000000 RDI: ffffc870043380a8
May 19 07:39:22 mond1 kernel: [64360.318418] RBP: ffffa1418cfc7c58 R08:
00007fb9d2fff000 R09: 00000000ffffffff
May 19 07:39:22 mond1 kernel: [64360.319535] R10: ffffffffffffffe0 R11:
0000000000000001 R12: ffff90b280000000
May 19 07:39:22 mond1 kernel: [64360.320732] R13: ffff90b38ce02000 R14:
00007fb9d3000000 R15: ffffa1418cfc7e18
May 19 07:39:22 mond1 kernel: [64360.321968] FS: 00007fb9d2f21800(0000)
GS:ffff90b496500000(0000) knlGS:0000000000000000
May 19 07:39:22 mond1 kernel: [64360.323097] CS: 0010 DS: 0000 ES: 0000
CR0: 0000000080050033
May 19 07:39:22 mond1 kernel: [64360.324283] CR2: 00007ff751df3670 CR3:
000000015efbc000 CR4: 00000000003506e0
May 19 07:39:22 mond1 kernel: [64360.325527] Call Trace:
May 19 07:39:22 mond1 kernel: [64360.326686] <TASK>
May 19 07:39:22 mond1 kernel: [64360.327838] _raw_spin_lock+0x1e/0x30
May 19 07:39:22 mond1 kernel: [64360.329044] unmap_page_range+0x690/0xe80
May 19 07:39:22 mond1 kernel: [64360.330260] unmap_single_vma+0x7f/0xf0
May 19 07:39:22 mond1 kernel: [64360.331377] unmap_vmas+0x77/0xf0
May 19 07:39:22 mond1 kernel: [64360.332571] exit_mmap+0xab/0x1f0
May 19 07:39:22 mond1 kernel: [64360.333801] mmput+0x5f/0x140
May 19 07:39:22 mond1 kernel: [64360.334890] do_exit+0x30d/0xa20
May 19 07:39:22 mond1 kernel: [64360.335995] rewind_stack_do_exit+0x17/0x20
May 19 07:39:22 mond1 kernel: [64360.337109] RIP: 0033:0x7fb9d30f1640
May 19 07:39:22 mond1 kernel: [64360.338205] Code: Unable to access
opcode bytes at RIP 0x7fb9d30f1616.
May 19 07:39:22 mond1 kernel: [64360.339194] RSP: 002b:00007ffda18707e8
EFLAGS: 00010202
May 19 07:39:22 mond1 kernel: [64360.340206] RAX: 0000000000000015 RBX:
00007fb9d31b0870 RCX: 00007fb9d2ff7768
May 19 07:39:22 mond1 kernel: [64360.341220] RDX: 000000000000000a RSI:
000000000000000e RDI: 0000000000000001
May 19 07:39:22 mond1 kernel: [64360.342223] RBP: 00007ffda18708f0 R08:
000000000000ffff R09: 00007fb9d2ff7768
May 19 07:39:22 mond1 kernel: [64360.343135] R10: 00007fb9d30f1640 R11:
00007fb9d31f9420 R12: 0000000000000007
May 19 07:39:22 mond1 kernel: [64360.344091] R13: 0000003f00000007 R14:
00007fb9d31ac060 R15: 00007fb9d31f8f20
May 19 07:39:22 mond1 kernel: [64360.345029] </TASK>
May 19 07:39:34 mond1 kernel: [64372.455537] rcu: INFO: rcu_sched
self-detected stall on CPU
May 19 07:39:34 mond1 kernel: [64372.456478] rcu: 6-....: (7564220
ticks this GP) idle=c1a/1/0x4000000000000000 softirq=362490/362492
fqs=3303135
May 19 07:39:34 mond1 kernel: [64372.457423] (t=7575505 jiffies
g=450005 q=4154568)
May 19 07:39:34 mond1 kernel: [64372.458304] NMI backtrace for cpu 6
May 19 07:39:34 mond1 kernel: [64372.459151] CPU: 6 PID: 89449 Comm: sed
Tainted: P S D O L 5.13.19-6-pve #1
May 19 07:39:34 mond1 kernel: [64372.460053] Hardware name: System
manufacturer System Product Name/PRIME B350-PLUS, BIOS 5602 07/14/2020
May 19 07:39:34 mond1 kernel: [64372.460975] Call Trace:
May 19 07:39:34 mond1 kernel: [64372.461915] <IRQ>
May 19 07:39:34 mond1 kernel: [64372.462757] dump_stack+0x7d/0x9c
May 19 07:39:34 mond1 kernel: [64372.463612]
nmi_cpu_backtrace.cold+0x32/0x6a
May 19 07:39:34 mond1 kernel: [64372.464521] ?
lapic_can_unplug_cpu+0x80/0x80
May 19 07:39:34 mond1 kernel: [64372.465459]
nmi_trigger_cpumask_backtrace+0xe4/0xf0
May 19 07:39:34 mond1 kernel: [64372.466332]
arch_trigger_cpumask_backtrace+0x19/0x20
May 19 07:39:34 mond1 kernel: [64372.467182] rcu_dump_cpu_stacks+0xcd/0xff
May 19 07:39:34 mond1 kernel: [64372.468075]
rcu_sched_clock_irq.cold+0xcc/0x1ee
May 19 07:39:34 mond1 kernel: [64372.468995] ?
account_system_index_time+0x99/0xb0
May 19 07:39:34 mond1 kernel: [64372.469941] update_process_times+0x94/0xd0
May 19 07:39:34 mond1 kernel: [64372.470799] tick_sched_handle+0x29/0x60
May 19 07:39:34 mond1 kernel: [64372.471670] tick_sched_timer+0x88/0xf0
May 19 07:39:34 mond1 kernel: [64372.472590] ?
tick_do_update_jiffies64.part.0+0xa0/0xa0
May 19 07:39:34 mond1 kernel: [64372.473543]
__hrtimer_run_queues+0x12b/0x270
May 19 07:39:34 mond1 kernel: [64372.474463] hrtimer_interrupt+0xfe/0x290
May 19 07:39:34 mond1 kernel: [64372.475372]
__sysvec_apic_timer_interrupt+0x64/0xe0
May 19 07:39:34 mond1 kernel: [64372.476305]
sysvec_apic_timer_interrupt+0x77/0x90
May 19 07:39:34 mond1 kernel: [64372.477214] </IRQ>
May 19 07:39:34 mond1 kernel: [64372.478114] <TASK>





Jan

Jan Novak

unread,
May 19, 2022, 2:04:42 AM5/19/22
to
Am 19.05.22 um 08:02 schrieb Jan Novak:
>
> Moin,
>
> fast jede Nacht hängt sich ein Rechner mit einer ryzen5 CPU auf.
> Genauer: es gibt kein Netzwerk mehr, aber auf der Konsole kann ich mich
> noch anmelden... allerdings dann nichts mehr tun. Es muss jedesmal ein
> Reset gemacht werden.


Ich vergaß anzumerken:
CPU ist nicht übertaktet und auch nicht zu Heiss. RAM Test ist
fehlerfrei. Auch hatte mal versucht die CPU zu untertakten, gleiches
Ergebnis.

Jan

Tim Ritberg

unread,
May 19, 2022, 3:42:29 AM5/19/22
to
Am 19.05.22 um 08:02 schrieb Jan Novak:
>
> Moin,
>
> fast jede Nacht hängt sich ein Rechner mit einer ryzen5 CPU auf.
> Genauer: es gibt kein Netzwerk mehr, aber auf der Konsole kann ich mich
> noch anmelden... allerdings dann nichts mehr tun. Es muss jedesmal ein
> Reset gemacht werden.
>
> Unten ein Log Auszug, welcher auch auf die Konsole ausgegeben wird.
> Kennt jemand das Problem?
>
> May 19 07:39:22 mond1 kernel: [64360.311627] Hardware name: System
> manufacturer System Product Name/PRIME B350-PLUS, BIOS 5602 07/14/2020
> May 19 07:39:22 mond1 kernel: [64360.312714] RIP:
> 0010:native_queued_spin_lock_slowpath+0x65/0x1e0


Das hier?
https://www.suse.com/support/kb/doc/?id=000020516

Schon mal einen neueren Vanilla Kernel probiert?

Tim

--
Xubuntu 21.10 64 bit, Kernel 5.13 (native)
ASRock x470 Taichi, 32 GB RAM, Ryzen 7 3700X


Jan Novak

unread,
May 19, 2022, 4:01:48 AM5/19/22
to

Am 19.05.22 um 09:42 schrieb Tim Ritberg:
> Am 19.05.22 um 08:02 schrieb Jan Novak:
>>
>> Moin,
>>
>> fast jede Nacht hängt sich ein Rechner mit einer ryzen5 CPU auf.
>> Genauer: es gibt kein Netzwerk mehr, aber auf der Konsole kann ich
>> mich noch anmelden... allerdings dann nichts mehr tun. Es muss
>> jedesmal ein Reset gemacht werden.
>>
>> Unten ein Log Auszug, welcher auch auf die Konsole ausgegeben wird.
>> Kennt jemand das Problem?
>>
>> May 19 07:39:22 mond1 kernel: [64360.311627] Hardware name: System
>> manufacturer System Product Name/PRIME B350-PLUS, BIOS 5602 07/14/2020
>> May 19 07:39:22 mond1 kernel: [64360.312714] RIP:
>> 0010:native_queued_spin_lock_slowpath+0x65/0x1e0
>
>
> Das hier?
> https://www.suse.com/support/kb/doc/?id=000020516

Halo Tim,


ich habe (wissentlich) gar keine serielle Konsole in Benutzung.
Woraus schliesst du das, dass es damit zu tun haben könnte?


> Schon mal einen neueren Vanilla Kernel probiert?

Nein - noch nicht. Es ist eine Debian 12 mit dem pve Kernel von Proxmox,
welcher auf vielen unserer Server problemlos läuft (auch auf Ryzen CPU's).
Ich habe gerade nochmal nach eine Bios Update geschaut. Es gibt eine
neuere Version. Die installiere ich erstmal. Vielleicht hilft das schon ...

Jan

Andreas Kohlbach

unread,
May 19, 2022, 3:17:19 PM5/19/22
to
On Thu, 19 May 2022 08:02:44 +0200, Jan Novak wrote:
>
> fast jede Nacht hängt sich ein Rechner mit einer ryzen5 CPU
> auf.

Etwa zur selben Zeit?

> Genauer: es gibt kein Netzwerk mehr, aber auf der Konsole kann ich mich
> noch anmelden... allerdings dann nichts mehr tun. Es muss jedesmal ein
> Reset gemacht werden.

Nichts mehr tun? Werden keine Kommandos angenommen?

> Unten ein Log Auszug, welcher auch auf die Konsole ausgegeben wird.
> Kennt jemand das Problem?

Soft-Lockup hatte ich vor Jahrzehnten. IIRC ein Kernel Bug, der irgendwann
von selbst verschwand.

Mag bei Dir aber anders liegen, wenn der Rest sonst läuft. Vielleicht den
Server mal herunterfahren, und dem Rest des Systems viel zum Spielen
geben, ob es dann auch auftritt.
--
Andreas

Jan Novak

unread,
May 20, 2022, 4:36:40 AM5/20/22
to
Am 19.05.22 um 21:17 schrieb Andreas Kohlbach:
> On Thu, 19 May 2022 08:02:44 +0200, Jan Novak wrote:
>>
>> fast jede Nacht hängt sich ein Rechner mit einer ryzen5 CPU
>> auf.
>
> Etwa zur selben Zeit?

Nein, ist unterschiedlich. Mal läuft er auch 2 oder 3 Tage. Aber idr.
einen Tag.


>> Genauer: es gibt kein Netzwerk mehr, aber auf der Konsole kann ich mich
>> noch anmelden... allerdings dann nichts mehr tun. Es muss jedesmal ein
>> Reset gemacht werden.
>
> Nichts mehr tun? Werden keine Kommandos angenommen?

Korrekt. ich kann mich mit Benutzernamen und PW anmelden, dann kommt
noch die MOTD Ausgabe aber kein Prompt mehr.



>> Unten ein Log Auszug, welcher auch auf die Konsole ausgegeben wird.
>> Kennt jemand das Problem?
>
> Soft-Lockup hatte ich vor Jahrzehnten. IIRC ein Kernel Bug, der irgendwann
> von selbst verschwand.
> Mag bei Dir aber anders liegen, wenn der Rest sonst läuft. Vielleicht den
> Server mal herunterfahren, und dem Rest des Systems viel zum Spielen
> geben, ob es dann auch auftritt.

Ich habe gestern ein BIOS Update gemacht ... er läuft immer noch :-)
Mal kucken wie es in ein paar Tagen aussieht (ich bin jetzt eh erstmal
in Urlaub, so dass ich es gar nicht beobachten kann) ;-)
Wenn er nach meinem Urlaub immer noch läuft,dann ist ja alle sgut, wenn
nicht, dann lasse ich ihn mal von nem Stick laufen. Das Problem tritt
übrigesn nur auf, wenn die CPU unter hoher Last ist (Berechnungen). Ohne
Last läuft er ohne Problem.

Jan

Marcel Mueller

unread,
May 20, 2022, 6:56:45 PM5/20/22
to
Am 19.05.22 um 08:02 schrieb Jan Novak:
> fast jede Nacht hängt sich ein Rechner mit einer ryzen5 CPU auf.
> Genauer: es gibt kein Netzwerk mehr, aber auf der Konsole kann ich mich
> noch anmelden... allerdings dann nichts mehr tun. Es muss jedesmal ein
> Reset gemacht werden.

Vmtl. Root Dateisystem weg oder kernel Treiber hat sich festgefressen.

> Unten ein Log Auszug, welcher auch auf die Konsole ausgegeben wird.
> Kennt jemand das Problem?

> May 19 07:39:22 mond1 kernel: [64360.303495] watchdog: BUG: soft lockup
> - CPU#6 stuck for 28212s! [sed:89449]
[...]

Das ist ein Deadlock, also Kernel oder Treiberproblem. Laut Callstack
irgendwas mit dem Memory-Management. Da hat wohl irgendwer ein Spinlock
vergessen freizugeben. Das was man hier sieht, ist aber mutmaßlich der
Leidtragende, nicht der Auslöser.

=> Anderen Kernel nehmen. Älter, neuer, was halt verfügbar ist. Wenn es
mit einem der anderen geht, die kaputte Version blacklisten.

Hardwaredefekte sind natürlich auch nie auszuschließen. Am ehesten noch
im Dunstkreis der Stromversorgung oder evtl. auch RAM.


Marcel

Jan Novak

unread,
Jun 7, 2022, 4:45:20 AM6/7/22
to

Am 21.05.22 um 00:56 schrieb Marcel Mueller:
Hatte ich auch schon gedacht. Habe einen Memtest mehrere Tage ohne
Probleme laufen lassen können. Das scheint es nicht zu sein.
Bleibt nur noch die Möglichkeit, einen anderen Kernel zu nehmen, was ich
demnächst testen werde.
BIOS Update hatte ich auch schon gemacht, ohne Verbesserung.

Der Fehler tritt übrigens nur bei dauerhafter und hoher CPU Last ein.
DIe hohe CPU Last ist aber für die Anwendung, bzw. die VM's
unumgänglich (Proxmox cluster). Die VM's auf diesem Host brauchen halt
viel CPU Leistung. Gleiche VM auf anderen Hosts laufen ohne Probleme.

Jan
0 new messages