Od momentu zmiany lokalizacji serwerowni, powi�zanej ze zmian� operatora z
tktelekom na tpsa metroethernet, wiesza siďż˝ mi jeden router (linux gentoo)
Kernel panic: not syncing fatal exception in interrupt
Podejrzewa�em z pocz�tku maszyne, jednak wymieni�em ca�� platform� intela 1u
na now� - niestety nie pomog�o.
Zadaniem tego routera to routowanie ruchu z 1 routera na router pppoe plus qos
bez mark�w (routowane i ograniczane s� zew adresy IP)
Procesor to Xeon 4 rdzeniowy
Kernel 2.6.25
Every 1.0s:
cat /proc/interrupts
Sun Sep 27
23:07:11 2009
CPU0 CPU1 CPU2 CPU3
0: 133 1 0 0 IO-APIC-edge timer
1: 2 2 2 2 IO-APIC-edge i8042
6: 1 1 0 1 IO-APIC-edge floppy
8: 73 1 1 0 IO-APIC-edge rtc
9: 0 0 0 0 IO-APIC-fasteoi acpi
12: 1 1 1 1 IO-APIC-edge i8042
18: 19341454 22676779 26507280 29309895 IO-APIC-fasteoi eth0
220: 29893083 24057871 17630288 13839502 PCI-MSI-edge eth1
221: 343981 394787 355089 85524 PCI-MSI-edge ahci
NMI: 0 0 0 0 Non-maskable interrupts
LOC: 30720268 30750456 32190938 33646442 Local timer interrupts
RES: 222091 291869 242629 294131 Rescheduling interrupts
CAL: 7405 7228 7206 5023 function call interrupts
TLB: 107021 147143 133107 175156 TLB shootdowns
TRM: 0 0 0 0 Thermal event interrupts
SPU: 0 0 0 0 Spurious interrupts
Bardyo prosy o pomoc
--
Wys�ano z serwisu OnetNiusy: http://niusy.onet.pl
> Od momentu zmiany lokalizacji serwerowni, powiązanej ze zmianą operatora z
> tktelekom na tpsa metroethernet, wiesza się mi jeden router (linux gentoo)
>
> Kernel panic: not syncing fatal exception in interrupt
Brak danych. Mozesz zrobic przynajmniej zdjecie ekranu z komunikatem?
--
Krzysztof Halasa
> Od momentu zmiany lokalizacji serwerowni, powi�zanej ze zmian� operatora z
> tktelekom na tpsa metroethernet, wiesza siďż˝ mi jeden router (linux gentoo)
A w konfiguracji/pakietach nic nie zmienia�e�?
Kernela r�wnie�? Sprz�t r�wnie� przeniesiony, czy tylko system?
Moja szklana kula m�wi, �e przyczyn� mo�e by� stary kernel
lub w��czone MSI. Dodaj "pci=nomsi" do parametr�w kernela (bootloadera)
i sprawdďż˝ ponownie.
PS: u mnie te� lecia�y kernel panic na wszystkich kernelach
<=2.6.29.* Dopiero 2.6.30 i nowsze poprawnie obs�uguj� kart� RTL8111.
Jacek
> PS: u mnie też leciały kernel panic na wszystkich kernelach
> <=2.6.29.* Dopiero 2.6.30 i nowsze poprawnie obsługują kartę RTL8111.
Na jakiejs specyficznej maszynce, domyslam sie - bo normalnie nie bylo
z tym problemow.
--
Krzysztof Halasa
Podaje zdj�cie do b�edu jaki wyskakuje
http://www.fotosik.pl/pokaz_obrazek/69d94837308cac51.html
>> > PS: u mnie teş leciały kernel panic na wszystkich kernelach
>> > <=2.6.29.* Dopiero 2.6.30 i nowsze poprawnie obsługują kartę RTL8111.
> Podaje zdjęcie do błedu jaki wyskakuje
> http://www.fotosik.pl/pokaz_obrazek/69d94837308cac51.html
Rozumiem ze nie jest srodek dnia ale raczej E1000 z RTL8111 nie pomyle.
Swoja droga, proponuje parametr kernela vga=XXX, albo np. szeregowa
konsole lub cos podobnego, co pozwoli zobaczyc caly komunikat.
I moze statyw do aparatu, zeby nie uzywac flasha :-)
Nie mowie ze jakas ksiazke o robieniu zdjec bo to bylby przerost formy
w tym przypadku.
--
Krzysztof Halasa
Panowie zmiana dystrybucji nic raczej nie da z racji takiej, �e mam stary serwer
kt�ry dzia��� przez 2 lata te� platforma 1U Intela i to dzia�o bez problemu. Gdy
po przeniesieniu serwerowni i zmianie operatora problem si� pojawi� to kupi�em
now� platform� Intela 1U, postawi�em na nowo gentoo skompilowa�em wszystko od
nowa i nadal problem jest ten sam. Zmiana kart sieciowych raczej nie wchodzi w
grďż˝, gdyďż˝ jest to wszystko zintegorowane.
Poni�ej LSPCI
00:00.0 Host bridge: Intel Corporation 3200/3210 Chipset DRAM Controller
00:19.0 Ethernet controller: Intel Corporation 82566DM-2 Gigabit Network
Connection (rev 02)
00:1c.0 PCI bridge: Intel Corporation 82801I (ICH9 Family) PCI Express Port 1
(rev 02)
00:1c.4 PCI bridge: Intel Corporation 82801I (ICH9 Family) PCI Express Port 5
(rev 02)
00:1e.0 PCI bridge: Intel Corporation 82801 PCI Bridge (rev 92)
00:1f.0 ISA bridge: Intel Corporation 82801IR (ICH9R) LPC Interface Controller
(rev 02)
00:1f.2 SATA controller: Intel Corporation 82801IR/IO/IH (ICH9R/DO/DH) 6 port
SATA AHCI Controller (rev 02)
00:1f.3 SMBus: Intel Corporation 82801I (ICH9 Family) SMBus Controller (rev 02)
02:00.0 VGA compatible controller: Matrox Graphics, Inc. MGA G200e [Pilot]
ServerEngines (SEP1) (rev 02)
03:02.0 Ethernet controller: Intel Corporation 82541GI Gigabit Ethernet
Controller (rev 05)
> ... spokojnie, chodzi tylko o sprawdzenie czy zadziala. Dystrybucje
> maja czasmi baaardzo duzo wlasnych patchy na jadro. Sproboj , pokombinujemy.
> Z powazaniem
Nie prościej byłoby ściągnąć czysty kernel z kernel.org i sprawdzić
zamiast zmieniać całą dystrybucję? Sieciówka działa Ci na e1000 czy e1000e?
Pozdrawiam
Daniel
Ma�e pytanko: jajko masz w�asnej produkcji, czy budujesz genkernel'em ?
Pozdrawiam
�anet Kaleta
> ... sproboj wymioenic ta karte, albo zapodac inny sterownik.
> tam byly hcyab rozne warianty e1000 przyznam przymierzam sie dopiero
> do rozgryzania tematu. Z powazaniem
Znalezienie przyczyny podobnego problemu jest zwykle proste po
spelnieniu trzech warunkow:
- uzywamy w miare wspolczesnego kernela, np. 2.6.27.ostatni,
2.6.30.ostatni albo 2.6.31.ostatni, oraz
- mozemy podac potrzebne szczegoly w rodzaju lspci -vv, dmesg itp.
- potrafimy uzyskac caly komunikat, np. uzywajac "vga=xxx" itp.
Pierwsze dwa warunki sa krytyczne (moze nie liczac tego "ostatni"). Nikt
(pomijajac platny techsupp) po prostu nie bedzie wnikal w stare kernele,
bo jest bardzo duza szansa, ze blad jest dawno poprawiony.
--
Krzysztof Halasa
A wi�c Panowie i Panie.
Pragn� zaznaczy� ze stary serwer dzia�a� od 2 lat i si� nic nie dzia�o. Od
momentu zmiany ��cza ( nie rusza�em nic przy serwerze pr�cz adresacji) serwer
zacz�� si� wiesza�. My�la�em, �e poprostu sprz�t zawini� i go zmieni�em,
jednak po zmianie dalej siďż˝ wiesza.
Distro to gentoo, kernel buduje sam, tylko sci�gam �r�d�a przy u�yciu emerge.
>> PS: u mnie te� lecia�y kernel panic na wszystkich kernelach
>> <=2.6.29.* Dopiero 2.6.30 i nowsze poprawnie obs�uguj� kart� RTL8111.
>
> Na jakiejs specyficznej maszynce, domyslam sie - bo normalnie nie bylo
> z tym problemow.
Czy specyficznej - nie wiem. 2 p�yty g��wne:
Gigabyte GA-EP45-DS4 i GA-EP45-DQ6
Maj� 2-4 karty zintegrowane na p�ycie, a specyficzna sytuacja to nic
innego jak obci��enie karty sieciowej (im wi�cej tym lepiej) transmisja
pakiet�w (u mnie kopiowanie plik�w przez sie�).
Kernel panic gwarantowany :)
PS: nie jest wykluczone, �e mia�o to zwi�zek r�wnie� z zapisem tych
danych na dysk. Ale w to �miem w�tpi�.
Jacek
> Czy specyficznej - nie wiem. 2 płyty główne:
> Gigabyte GA-EP45-DS4 i GA-EP45-DQ6
Czyli dwa warianty praktycznie tej samej plyty, z tymi samymi
scalakami i BIOSem? :-)
> Mają 2-4 karty zintegrowane na płycie, a specyficzna sytuacja to nic
> innego jak obciążenie karty sieciowej (im więcej tym lepiej) transmisja
> pakietów (u mnie kopiowanie plików przez sieć).
Specyficzna sytuacja to specyficzny sprzet. Inna plyta (wiele roznych)
i problemow nie ma.
Masz najnowszy BIOS oczywiscie?
--
Krzysztof Halasa
>> Czy specyficznej - nie wiem. 2 p�yty g��wne:
>> Gigabyte GA-EP45-DS4 i GA-EP45-DQ6
>
> Czyli dwa warianty praktycznie tej samej plyty, z tymi samymi
> scalakami i BIOSem? :-)
Pocz�tkowo BIOSy w r�nych wersjach (fabrycznych). P�niej zaktualizowane
do najnowszych i te same problemy.
Nie jest wykluczone, �e to wina sprz�tu, aczkolwiek (nie pami�tam
dok�adnie changeloga) chyba to by�a wina wielko�ci bufora.
Jacek
> Od momentu zmiany lokalizacji serwerowni, powi�zanej ze zmian� operatora z
> tktelekom na tpsa metroethernet, wiesza siďż˝ mi jeden router (linux gentoo)
>
> Kernel panic: not syncing fatal exception in interrupt
>
> Podejrzewa�em z pocz�tku maszyne, jednak wymieni�em ca�� platform� intela 1u
> na now� - niestety nie pomog�o.
>
> Zadaniem tego routera to routowanie ruchu z 1 routera na router pppoe plus qos
> bez mark�w (routowane i ograniczane s� zew adresy IP)
>
> Procesor to Xeon 4 rdzeniowy
> Kernel 2.6.25
Jakbym mia� co� sugerowa� to sugerowa�bym mocny upgrade. 2.6.25 jest do�� starym
kernel, ma znane b��dy dotycz�ce stabiolno�ci i bezpiecze�stwa, na dodatek nie
zawiera on kilkuset �atek, kt�re pojawi�y si� w trakcie jego stabilizacji
w ramach wydaďż˝ -stable.
> 23:07:11 2009
>
> CPU0 CPU1 CPU2 CPU3
> 0: 133 1 0 0 IO-APIC-edge timer
> 1: 2 2 2 2 IO-APIC-edge i8042
> 6: 1 1 0 1 IO-APIC-edge floppy
> 8: 73 1 1 0 IO-APIC-edge rtc
> 9: 0 0 0 0 IO-APIC-fasteoi acpi
> 12: 1 1 1 1 IO-APIC-edge i8042
> 18: 19341454 22676779 26507280 29309895 IO-APIC-fasteoi eth0
> 220: 29893083 24057871 17630288 13839502 PCI-MSI-edge eth1
> 221: 343981 394787 355089 85524 PCI-MSI-edge ahci
> NMI: 0 0 0 0 Non-maskable interrupts
> LOC: 30720268 30750456 32190938 33646442 Local timer interrupts
> RES: 222091 291869 242629 294131 Rescheduling interrupts
> CAL: 7405 7228 7206 5023 function call interrupts
> TLB: 107021 147143 133107 175156 TLB shootdowns
> TRM: 0 0 0 0 Thermal event interrupts
> SPU: 0 0 0 0 Spurious interrupts
O, i jeszcze �le obs�ugujesz przerwania.
Pozdrawiam,
Krzysztof Oledzki
--
Krzysztof Ol�dzki
e-mail address: ole(a-t)ans(d-o-t)pl
Registered User: Linux - 189200, BSD - 51140
Nick Handles: KO60-RIPE, KO581 (Network Solutions)
> A wi�c Panowie i Panie.
>
> Pragn� zaznaczy� ze stary serwer dzia�a� od 2 lat i si� nic nie dzia�o. Od
> momentu zmiany ��cza ( nie rusza�em nic przy serwerze pr�cz adresacji) serwer
> zacz�� si� wiesza�. My�la�em, �e poprostu sprz�t zawini� i go zmieni�em,
> jednak po zmianie dalej siďż˝ wiesza.
>
> Distro to gentoo, kernel buduje sam, tylko sci�gam �r�d�a przy u�yciu emerge.
I na ten przyk�ad masz szybsze ��cze i ruch sieciowy triggeruje Ci
jakiegoďż˝ race w kodzie? ;)
BTW: skoro to jest "serwer" to potrzebujesz w og�le na nim conntracka?
Mo�esz co� wi�cej na temat przerwa� powiedzie� ?
> Mo�esz co� wi�cej na temat przerwa� powiedzie� ?
http://www.alexonlinux.com/why-interrupt-affinity-with-multiple-cores-is-not-such-a-good-thing
Do tego dochodzi jeszcze kwestia zmiany kolejno�ci pakiet�w, czego high
speed TCP *bardzo* nie lubi i co powoduje teďż˝ problem np. z voicem po UDP.
Pozdrawiam,
Krzysztof Oledzki
--
Krzysztof Ol�dzki
e-mail address: ole(a-t)ans(d-o-t)pl
Registered User: Linux - 189200, BSD - 51140
Nick Handles: KO60-RIPE, KO581 (Network Solutions)
Hm no faktycznie. Czyli najlepiej b�dzie rozdzieli� obs�ug� kart sieciowych
pomi�dzy 3 i 4 cor. A o co chodzi z kolejno�ci� pakiet�w ?
np.
> A o co chodzi z kolejno�ci� pakiet�w ?
Za�u�my, �e mamy jaki� flow (np. nawi�zana sesja TCP), w kt�rym przesy�ane
s� pakiety. Pakiet x trafiaj�c na CPUa mo�e zosta� szybciej obs�u�ony ni� pakiet
x-1, kiedy trafi CPUb. Zminia si� wtedy ich kolejno�� i do odbiorcy dotrze najpierw x,
a potem x-1. Oczywi�cie TCP sobie z tym radzi, ale jest to szkodliwe.
Pozdrawiam,
Krzysztof Oledzki
--
Krzysztof Ol�dzki
e-mail address: ole(a-t)ans(d-o-t)pl
Registered User: Linux - 189200, BSD - 51140
Nick Handles: KO60-RIPE, KO581 (Network Solutions)
> Początkowo BIOSy w różnych wersjach (fabrycznych). Później zaktualizowane
> do najnowszych i te same problemy.
> Nie jest wykluczone, że to wina sprzętu, aczkolwiek (nie pamiętam
> dokładnie changeloga) chyba to była wina wielkości bufora.
Zmian w rtl8169 bylo sporo ale tak czy owak te karty dzialaly normalnie.
Uzywasz jumbo frames? Cos tam bylo z tym zwiazanego.
--
Krzysztof Halasa
np.
> A o co chodzi z kolejno�ci� pakiet�w ?
Za��my, �e mamy jaki� flow (np. nawi�zana sesja TCP), w kt�rym przesy�ane
s� pakiety. Pakiet x trafiaj�c na CPUa mo�e zosta� szybciej obs�u�ony ni� pakiet
x-1, kiedy trafi CPUb. Zminia si� wtedy ich kolejno�� i do odbiorcy dotrze najpierw x,
a potem x-1. Oczywi�cie TCP sobie z tym radzi, ale jest to szkodliwe.
Pozdrawiam,
Krzysztof Oledzki
--
Krzysztof Ol�dzki
e-mail address: ole(a-t)ans(d-o-t)pl
Registered User: Linux - 189200, BSD - 51140
Nick Handles: KO60-RIPE, KO581 (Network Solutions)
A o co chodzi?
Pozdrawiam,
Krzysztof Oledzki
--
Krzysztof Ol�dzki
e-mail address: ole(a-t)ans(d-o-t)pl
Registered User: Linux - 189200, BSD - 51140
Nick Handles: KO60-RIPE, KO581 (Network Solutions)
> Zmian w rtl8169 bylo sporo ale tak czy owak te karty dzialaly normalnie.
> Uzywasz jumbo frames? Cos tam bylo z tym zwiazanego.
Nie, MTU mam na defaultowe 1500.
Po zrobieniu diffa mi�dzy 2.6.29.5 (chyba) i 2.6.30, wysz�y mi na
oko mog�ce mie� wp�yw na dzia�anie r�nice (mniej istotne pomin��em):
- RTL_W16(RxMaxSize, 16383);
+ RTL_W16(RxMaxSize, rx_buf_sz);
- rtl_set_rx_max_size(ioaddr);
+ rtl_set_rx_max_size(ioaddr, tp->rx_buf_sz);
- if (likely(netif_rx_schedule_prep(&tp->napi)))
- __netif_rx_schedule(&tp->napi);
+ if (likely(napi_schedule_prep(&tp->napi)))
+ __napi_schedule(&tp->napi);
- netif_rx_complete(napi);
+ napi_complete(napi);
Aczkolwiek podejrzewam, �e zmiany w wielko�ci bufora (2 pierwsze
r�nice) mia�y najwi�kszy wp�yw na stabilno�� dzia�ania.
Na czym si� znam, to si� znam. Ale na kodzie �r�d�owym kernela
wcale (i jakie powy�sze zmiany maj� wp�yw na dzia�anie, tego nie wiem).
Sk�d wiem, �e na pewno zmiany w r8169.c na 100% by�y powodem?
Bo wzi��em �r�d�a od 2.6.29.5, podmieni�em tylko plik r8169.c z wersji
2.6.30 i po wgraniu nowego j�dra, system zacz�� stabilnie dzia�a�.
I jak wcze�niej na interfejscie karty sieciowej nie pojawia�y si� �adne
b��dy, tak teraz pojawiaj� si� (RX errors), np:
eth0 Link encap:Ethernet HWaddr 00:1f:d0:21:94:1f
inet addr:192.168.19.104 Bcast:192.168.255.255 Mask:255.255.0.0
inet6 addr: fe80::21f:d0ff:fe21:8cb3/64 Scope:Link
UP BROADCAST RUNNING MULTICAST MTU:1500 Metric:1
RX packets:11351461643 errors:18 dropped:0 overruns:0 frame:18
TX packets:15779823788 errors:0 dropped:0 overruns:0 carrier:0
collisions:0 txqueuelen:1000
RX bytes:3333681484919 (3.0 TiB) TX bytes:18481931977888 (16.8 TiB)
Interrupt:33 Base address:0x8000
Obecny uptime systemu: 91 dni. A po ilo�ci RX/TX wida�, �e karta sieciowa
nigdy siďż˝ nie nudzi.
Jacek
<CIACH>
> Obecny uptime systemu: 91 dni. A po ilo�ci RX/TX wida�, �e karta sieciowa
> nigdy siďż˝ nie nudzi.
Sugeruj� zobaczy�, jak to wygl�da na 2.6.31-stable albo jeszcze lepiej 2.6.32-rc1.
Je�eli problem nadal bedzie wyst�powa� to maj�c tak konkretne informacje wskazane jest
zaatakowaďż˝ na netdev.
>> Zmian w rtl8169 bylo sporo ale tak czy owak te karty dzialaly normalnie.
>> Uzywasz jumbo frames? Cos tam bylo z tym zwiazanego.
>
> Nie, MTU mam na defaultowe 1500.
> Po zrobieniu diffa między 2.6.29.5 (chyba) i 2.6.30, wyszły mi na
> oko mogące mieć wpływ na działanie różnice (mniej istotne pominąłem):
> - RTL_W16(RxMaxSize, 16383);
> + RTL_W16(RxMaxSize, rx_buf_sz);
>
> - rtl_set_rx_max_size(ioaddr);
> + rtl_set_rx_max_size(ioaddr, tp->rx_buf_sz);
Na pierwszy rzut oka rx_buf_sz jest pewnie ustawione normalnie na 1514,
1518, 1536 itp, wiec w pierwotnej wersji wieksze ramki (= jumbo frames),
np. broadcastowe, moglyby powodowac kernel panic albo inna korupcje
(pierwsza linia ustawia scalakowi maksymalny rozmiar pakietow, ktore ten
ma akceptowac).
> - if (likely(netif_rx_schedule_prep(&tp->napi)))
> - __netif_rx_schedule(&tp->napi);
> + if (likely(napi_schedule_prep(&tp->napi)))
> + __napi_schedule(&tp->napi);
>
> - netif_rx_complete(napi);
> + napi_complete(napi);
Powyzsze to tylko zamiana nazw w calym kernelu, bez wplywu na dzialanie.
> Skąd wiem, że na pewno zmiany w r8169.c na 100% były powodem?
> Bo wziąłem źródła od 2.6.29.5, podmieniłem tylko plik r8169.c z wersji
> 2.6.30 i po wgraniu nowego jądra, system zaczął stabilnie działać.
Wniosek: najprawdopodobniej masz jednak w sieci jumbo frames.
> I jak wcześniej na interfejscie karty sieciowej nie pojawiały się żadne
> błędy, tak teraz pojawiają się (RX errors), np:
> eth0 Link encap:Ethernet HWaddr 00:1f:d0:21:94:1f
> inet addr:192.168.19.104 Bcast:192.168.255.255 Mask:255.255.0.0
> inet6 addr: fe80::21f:d0ff:fe21:8cb3/64 Scope:Link
> UP BROADCAST RUNNING MULTICAST MTU:1500 Metric:1
> RX packets:11351461643 errors:18 dropped:0 overruns:0 frame:18
Moga to byc wlasnie jumbo frames.
> TX packets:15779823788 errors:0 dropped:0 overruns:0 carrier:0
> collisions:0 txqueuelen:1000
> RX bytes:3333681484919 (3.0 TiB) TX bytes:18481931977888 (16.8 TiB)
> Interrupt:33 Base address:0x8000
>
> Obecny uptime systemu: 91 dni. A po ilości RX/TX widać, że karta sieciowa
> nigdy się nie nudzi.
Tego to akurat nie widac, nalezaloby przyjrzec sie wykresowi z np. mrtg.
Sredni ruch TX < 20 Mb/s, jak dla karty GbE to lekka nuda :-)
--
Krzysztof Halasa