Google Groups no longer supports new Usenet posts or subscriptions. Historical content remains viewable.
Dismiss

Kernel panic

5 views
Skip to first unread message

przemeksw

unread,
Sep 27, 2009, 5:08:54 PM9/27/09
to
Witam

Od momentu zmiany lokalizacji serwerowni, powi�zanej ze zmian� operatora z
tktelekom na tpsa metroethernet, wiesza siďż˝ mi jeden router (linux gentoo)

Kernel panic: not syncing fatal exception in interrupt

Podejrzewa�em z pocz�tku maszyne, jednak wymieni�em ca�� platform� intela 1u
na now� - niestety nie pomog�o.

Zadaniem tego routera to routowanie ruchu z 1 routera na router pppoe plus qos
bez mark�w (routowane i ograniczane s� zew adresy IP)

Procesor to Xeon 4 rdzeniowy
Kernel 2.6.25

Every 1.0s:
cat /proc/interrupts
Sun Sep 27
23:07:11 2009

CPU0 CPU1 CPU2 CPU3
0: 133 1 0 0 IO-APIC-edge timer
1: 2 2 2 2 IO-APIC-edge i8042
6: 1 1 0 1 IO-APIC-edge floppy
8: 73 1 1 0 IO-APIC-edge rtc
9: 0 0 0 0 IO-APIC-fasteoi acpi
12: 1 1 1 1 IO-APIC-edge i8042
18: 19341454 22676779 26507280 29309895 IO-APIC-fasteoi eth0
220: 29893083 24057871 17630288 13839502 PCI-MSI-edge eth1
221: 343981 394787 355089 85524 PCI-MSI-edge ahci
NMI: 0 0 0 0 Non-maskable interrupts
LOC: 30720268 30750456 32190938 33646442 Local timer interrupts
RES: 222091 291869 242629 294131 Rescheduling interrupts
CAL: 7405 7228 7206 5023 function call interrupts
TLB: 107021 147143 133107 175156 TLB shootdowns
TRM: 0 0 0 0 Thermal event interrupts
SPU: 0 0 0 0 Spurious interrupts

Bardyo prosy o pomoc

--
Wys�ano z serwisu OnetNiusy: http://niusy.onet.pl

Krzysztof Halasa

unread,
Sep 28, 2009, 6:28:31 AM9/28/09
to
"przemeksw" <prze...@ksiezyc.pl> writes:

> Od momentu zmiany lokalizacji serwerowni, powiązanej ze zmianą operatora z
> tktelekom na tpsa metroethernet, wiesza się mi jeden router (linux gentoo)


>
> Kernel panic: not syncing fatal exception in interrupt

Brak danych. Mozesz zrobic przynajmniej zdjecie ekranu z komunikatem?
--
Krzysztof Halasa

Jacek Kalinski

unread,
Sep 28, 2009, 7:33:30 AM9/28/09
to
W artykule <1557.000001...@newsgate.onet.pl>, przemeksw napisaďż˝(a):

> Od momentu zmiany lokalizacji serwerowni, powi�zanej ze zmian� operatora z
> tktelekom na tpsa metroethernet, wiesza siďż˝ mi jeden router (linux gentoo)

A w konfiguracji/pakietach nic nie zmienia�e�?
Kernela r�wnie�? Sprz�t r�wnie� przeniesiony, czy tylko system?

Moja szklana kula m�wi, �e przyczyn� mo�e by� stary kernel
lub w��czone MSI. Dodaj "pci=nomsi" do parametr�w kernela (bootloadera)
i sprawdďż˝ ponownie.

PS: u mnie te� lecia�y kernel panic na wszystkich kernelach
<=2.6.29.* Dopiero 2.6.30 i nowsze poprawnie obs�uguj� kart� RTL8111.

Jacek

Krzysztof Halasa

unread,
Sep 28, 2009, 8:42:43 AM9/28/09
to
Jacek Kalinski <jacek_kal@go2._NOSPAMPLEASE_.pl> writes:

> PS: u mnie też leciały kernel panic na wszystkich kernelach
> <=2.6.29.* Dopiero 2.6.30 i nowsze poprawnie obsługują kartę RTL8111.

Na jakiejs specyficznej maszynce, domyslam sie - bo normalnie nie bylo
z tym problemow.
--
Krzysztof Halasa

prze...@ksiezyc.pl

unread,
Sep 28, 2009, 1:28:53 PM9/28/09
to
> Jacek Kalinski <jacek_kal@go2._NOSPAMPLEASE_.pl> writes:
>
> > PS: u mnie teĹź leciaĹ y kernel panic na wszystkich kernelach
> > <=2.6.29.* Dopiero 2.6.30 i nowsze poprawnie obsĹ ugujÄ kartÄ RTL8111.

>
> Na jakiejs specyficznej maszynce, domyslam sie - bo normalnie nie bylo
> z tym problemow.
> --
> Krzysztof Halasa

Podaje zdj�cie do b�edu jaki wyskakuje
http://www.fotosik.pl/pokaz_obrazek/69d94837308cac51.html

Krzysztof Halasa

unread,
Sep 28, 2009, 5:48:45 PM9/28/09
to
prze...@ksiezyc.pl writes:

>> > PS: u mnie teş leciały kernel panic na wszystkich kernelach
>> > <=2.6.29.* Dopiero 2.6.30 i nowsze poprawnie obsługują kartę RTL8111.

> Podaje zdjęcie do błedu jaki wyskakuje
> http://www.fotosik.pl/pokaz_obrazek/69d94837308cac51.html

Rozumiem ze nie jest srodek dnia ale raczej E1000 z RTL8111 nie pomyle.

Swoja droga, proponuje parametr kernela vga=XXX, albo np. szeregowa
konsole lub cos podobnego, co pozwoli zobaczyc caly komunikat.

I moze statyw do aparatu, zeby nie uzywac flasha :-)
Nie mowie ze jakas ksiazke o robieniu zdjec bo to bylby przerost formy
w tym przypadku.
--
Krzysztof Halasa

Adam Przybyla

unread,
Sep 29, 2009, 3:35:14 AM9/29/09
to
przemeksw <prze...@ksiezyc.pl> wrote:
> Witam
>
> Od momentu zmiany lokalizacji serwerowni, powiązanej ze zmianą operatora z
> tktelekom na tpsa metroethernet, wiesza się mi jeden router (linux gentoo)

>
> Kernel panic: not syncing fatal exception in interrupt
>
> Podejrzewałem z początku maszyne, jednak wymieniłem całą platformę intela 1u
> na nową - niestety nie pomogło.

>
> Zadaniem tego routera to routowanie ruchu z 1 routera na router pppoe plus qos
> bez marków (routowane i ograniczane są zew adresy IP)
>
> Procesor to Xeon 4 rdzeniowy
> Kernel 2.6.25
... sproboj skompilowac wlasny kernel, albo postaw tam na szybko inna
dystrybucje ze standardowymi kernelami tamtej dystrybucji. Z powazaniem
Adam Przybyla

Adam Przybyla

unread,
Sep 29, 2009, 3:38:08 AM9/29/09
to
Krzysztof Halasa <k...@pm.waw.pl> wrote:
> prze...@ksiezyc.pl writes:
>
>>> > PS: u mnie teĹź leciaĹ?y kernel panic na wszystkich kernelach
>>> > <=2.6.29.* Dopiero 2.6.30 i nowsze poprawnie obsĹ?ugujÄ? kartÄ? RTL8111.

>
>> Podaje zdjęcie do błedu jaki wyskakuje
>> http://www.fotosik.pl/pokaz_obrazek/69d94837308cac51.html
>
> Rozumiem ze nie jest srodek dnia ale raczej E1000 z RTL8111 nie pomyle.
>
> Swoja droga, proponuje parametr kernela vga=XXX, albo np. szeregowa
> konsole lub cos podobnego, co pozwoli zobaczyc caly komunikat.
>
> I moze statyw do aparatu, zeby nie uzywac flasha :-)
> Nie mowie ze jakas ksiazke o robieniu zdjec bo to bylby przerost formy
> w tym przypadku.
... sproboj wymioenic ta karte, albo zapodac inny sterownik.
tam byly hcyab rozne warianty e1000 przyznam przymierzam sie dopiero
do rozgryzania tematu. Z powazaniem
Adam Przybyla

przemeksw

unread,
Sep 29, 2009, 7:11:24 AM9/29/09
to
> przemeksw <prze...@ksiezyc.pl> wrote:
> > Witam
> >
> > Od momentu zmiany lokalizacji serwerowni, powiďż˝&#65533;zanej ze zmianďż˝&#65533; operatora z
> > tktelekom na tpsa metroethernet, wiesza siďż˝&#65533; mi jeden router (linux gentoo)

> >
> > Kernel panic: not syncing fatal exception in interrupt
> >
> > Podejrzewaďż˝&#65533;em z poczďż˝&#65533;tku maszyne, jednak wymieniďż˝&#65533;em caďż˝&#65533;ďż˝&#65533; platformďż˝&#65533;
intela 1u
> > na nowďż˝&#65533; - niestety nie pomogďż˝&#65533;o.

> >
> > Zadaniem tego routera to routowanie ruchu z 1 routera na router pppoe plus qos
> > bez markĂłw (routowane i ograniczane sďż˝&#65533; zew adresy IP)
> >
> > Procesor to Xeon 4 rdzeniowy
> > Kernel 2.6.25
> ďż˝ ďż˝ ďż˝ ďż˝... sproboj skompilowac wlasny kernel, albo postaw tam na szybko inna

> dystrybucje ze standardowymi kernelami tamtej dystrybucji. Z powazaniem
> � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � �Adam Przybyla


Panowie zmiana dystrybucji nic raczej nie da z racji takiej, �e mam stary serwer
kt�ry dzia��� przez 2 lata te� platforma 1U Intela i to dzia�o bez problemu. Gdy
po przeniesieniu serwerowni i zmianie operatora problem si� pojawi� to kupi�em
now� platform� Intela 1U, postawi�em na nowo gentoo skompilowa�em wszystko od
nowa i nadal problem jest ten sam. Zmiana kart sieciowych raczej nie wchodzi w
grďż˝, gdyďż˝ jest to wszystko zintegorowane.

Poni�ej LSPCI

00:00.0 Host bridge: Intel Corporation 3200/3210 Chipset DRAM Controller
00:19.0 Ethernet controller: Intel Corporation 82566DM-2 Gigabit Network
Connection (rev 02)
00:1c.0 PCI bridge: Intel Corporation 82801I (ICH9 Family) PCI Express Port 1
(rev 02)
00:1c.4 PCI bridge: Intel Corporation 82801I (ICH9 Family) PCI Express Port 5
(rev 02)
00:1e.0 PCI bridge: Intel Corporation 82801 PCI Bridge (rev 92)
00:1f.0 ISA bridge: Intel Corporation 82801IR (ICH9R) LPC Interface Controller
(rev 02)
00:1f.2 SATA controller: Intel Corporation 82801IR/IO/IH (ICH9R/DO/DH) 6 port
SATA AHCI Controller (rev 02)
00:1f.3 SMBus: Intel Corporation 82801I (ICH9 Family) SMBus Controller (rev 02)
02:00.0 VGA compatible controller: Matrox Graphics, Inc. MGA G200e [Pilot]
ServerEngines (SEP1) (rev 02)
03:02.0 Ethernet controller: Intel Corporation 82541GI Gigabit Ethernet
Controller (rev 05)

Adam Przybyla

unread,
Sep 29, 2009, 7:48:46 AM9/29/09
to
przemeksw <prze...@ksiezyc.pl> wrote:
>> przemeksw <prze...@ksiezyc.pl> wrote:
>> > Witam
>> >
>> > Od momentu zmiany lokalizacji serwerowni, powiÄ&#65533;zanej ze zmianÄ&#65533; operatora z
>> > tktelekom na tpsa metroethernet, wiesza siÄ&#65533; mi jeden router (linux gentoo)

>> >
>> > Kernel panic: not syncing fatal exception in interrupt
>> >
>> > PodejrzewaĹ&#65533;em z poczÄ&#65533;tku maszyne, jednak wymieniĹ&#65533;em caĹ&#65533;Ä&#65533; platformÄ&#65533;
> intela 1u
>> > na nowÄ&#65533; - niestety nie pomogĹ&#65533;o.

>> >
>> > Zadaniem tego routera to routowanie ruchu z 1 routera na router pppoe plus qos
>> > bez markĂłw (routowane i ograniczane sÄ&#65533; zew adresy IP)
>> >
>> > Procesor to Xeon 4 rdzeniowy
>> > Kernel 2.6.25
>>        ... sproboj skompilowac wlasny kernel, albo postaw tam na szybko inna
>> dystrybucje ze standardowymi kernelami tamtej dystrybucji. Z powazaniem
>>                                                                Adam Przybyla
>
>
> Panowie zmiana dystrybucji nic raczej nie da z racji takiej, że mam stary serwer
> który działął przez 2 lata też platforma 1U Intela i to działo bez problemu. Gdy
> po przeniesieniu serwerowni i zmianie operatora problem się pojawił to kupiłem
> nową platformę Intela 1U, postawiłem na nowo gentoo skompilowałem wszystko od

> nowa i nadal problem jest ten sam. Zmiana kart sieciowych raczej nie wchodzi w
> grę, gdyż jest to wszystko zintegorowane.
... spokojnie, chodzi tylko o sprawdzenie czy zadziala. Dystrybucje
maja czasmi baaardzo duzo wlasnych patchy na jadro. Sproboj , pokombinujemy.
Z powazaniem
Adam Przybyla

Daniel

unread,
Sep 29, 2009, 8:11:17 AM9/29/09
to
Adam Przybyla pisze:

> ... spokojnie, chodzi tylko o sprawdzenie czy zadziala. Dystrybucje
> maja czasmi baaardzo duzo wlasnych patchy na jadro. Sproboj , pokombinujemy.
> Z powazaniem

Nie prościej byłoby ściągnąć czysty kernel z kernel.org i sprawdzić
zamiast zmieniać całą dystrybucję? Sieciówka działa Ci na e1000 czy e1000e?

Pozdrawiam
Daniel

Żanet Kaleta

unread,
Sep 29, 2009, 8:38:01 AM9/29/09
to

U�ytkownik "przemeksw" <prze...@ksiezyc.pl> napisa� w wiadomo�ci
news:1557.000002...@newsgate.onet.pl...

>> przemeksw <prze...@ksiezyc.pl> wrote:
>> > Witam
>> >
>> > Od momentu zmiany lokalizacji serwerowni, powiďż˝&#65533;zanej ze
>> > zmianďż˝&#65533; operatora z
>> > tktelekom na tpsa metroethernet, wiesza siďż˝&#65533; mi jeden router
>> > (linux gentoo)
>> >
>> > Kernel panic: not syncing fatal exception in interrupt
>> >
>> > Podejrzewaďż˝&#65533;em z poczďż˝&#65533;tku maszyne, jednak
>> > wymieniďż˝&#65533;em caďż˝&#65533;ďż˝&#65533; platformďż˝&#65533;
> intela 1u
>> > na nowďż˝&#65533; - niestety nie pomogďż˝&#65533;o.
>> >
>> > Zadaniem tego routera to routowanie ruchu z 1 routera na router pppoe
>> > plus qos
>> > bez markĂłw (routowane i ograniczane sďż˝&#65533; zew adresy IP)
>> >
>> > Procesor to Xeon 4 rdzeniowy
>> > Kernel 2.6.25
>> ... sproboj skompilowac wlasny kernel, albo postaw tam na szybko inna
>> dystrybucje ze standardowymi kernelami tamtej dystrybucji. Z powazaniem


Ma�e pytanko: jajko masz w�asnej produkcji, czy budujesz genkernel'em ?

Pozdrawiam
�anet Kaleta

Krzysztof Halasa

unread,
Sep 29, 2009, 8:57:51 AM9/29/09
to
Adam Przybyla <ad...@rybnik.pl> writes:

> ... sproboj wymioenic ta karte, albo zapodac inny sterownik.
> tam byly hcyab rozne warianty e1000 przyznam przymierzam sie dopiero
> do rozgryzania tematu. Z powazaniem

Znalezienie przyczyny podobnego problemu jest zwykle proste po
spelnieniu trzech warunkow:
- uzywamy w miare wspolczesnego kernela, np. 2.6.27.ostatni,
2.6.30.ostatni albo 2.6.31.ostatni, oraz
- mozemy podac potrzebne szczegoly w rodzaju lspci -vv, dmesg itp.
- potrafimy uzyskac caly komunikat, np. uzywajac "vga=xxx" itp.

Pierwsze dwa warunki sa krytyczne (moze nie liczac tego "ostatni"). Nikt
(pomijajac platny techsupp) po prostu nie bedzie wnikal w stare kernele,
bo jest bardzo duza szansa, ze blad jest dawno poprawiony.
--
Krzysztof Halasa

prze...@ksiezyc.pl

unread,
Sep 29, 2009, 3:13:05 PM9/29/09
to
>
> U�ytkownik "przemeksw" <prze...@ksiezyc.pl> napisa� w wiadomo�ci
> news:1557.000002...@newsgate.onet.pl...
> >> przemeksw <prze...@ksiezyc.pl> wrote:
> >> > Witam
> >> >
> >> > Od momentu zmiany lokalizacji serwerowni, powiďż˝&#65533;zanej ze
> >> > zmianďż˝&#65533; operatora z
> >> > tktelekom na tpsa metroethernet, wiesza siďż˝&#65533; mi jeden router
> >> > (linux gentoo)
> >> >
> >> > Kernel panic: not syncing fatal exception in interrupt
> >> >
> >> > Podejrzewaďż˝&#65533;em z poczďż˝&#65533;tku maszyne, jednak
> >> > wymieniďż˝&#65533;em caďż˝&#65533;ďż˝&#65533; platformďż˝&#65533;
> > intela 1u
> >> > na nowďż˝&#65533; - niestety nie pomogďż˝&#65533;o.
> >> >
> >> > Zadaniem tego routera to routowanie ruchu z 1 routera na router pppoe
> >> > plus qos
> >> > bez markĂłw (routowane i ograniczane sďż˝&#65533; zew adresy IP)
> >> >
> >> > Procesor to Xeon 4 rdzeniowy
> >> > Kernel 2.6.25
> >> ďż˝... sproboj skompilowac wlasny kernel, albo postaw tam na szybko inna

> >> dystrybucje ze standardowymi kernelami tamtej dystrybucji. Z powazaniem
> >> �Adam Przybyla

A wi�c Panowie i Panie.

Pragn� zaznaczy� ze stary serwer dzia�a� od 2 lat i si� nic nie dzia�o. Od
momentu zmiany ��cza ( nie rusza�em nic przy serwerze pr�cz adresacji) serwer
zacz�� si� wiesza�. My�la�em, �e poprostu sprz�t zawini� i go zmieni�em,
jednak po zmianie dalej siďż˝ wiesza.

Distro to gentoo, kernel buduje sam, tylko sci�gam �r�d�a przy u�yciu emerge.

Jacek Kalinski

unread,
Sep 30, 2009, 3:45:06 AM9/30/09
to
W artykule <m3y6nz5...@intrepid.localdomain>, Krzysztof Halasa napisaďż˝(a):

>> PS: u mnie te� lecia�y kernel panic na wszystkich kernelach
>> <=2.6.29.* Dopiero 2.6.30 i nowsze poprawnie obs�uguj� kart� RTL8111.


>
> Na jakiejs specyficznej maszynce, domyslam sie - bo normalnie nie bylo
> z tym problemow.

Czy specyficznej - nie wiem. 2 p�yty g��wne:
Gigabyte GA-EP45-DS4 i GA-EP45-DQ6
Maj� 2-4 karty zintegrowane na p�ycie, a specyficzna sytuacja to nic
innego jak obci��enie karty sieciowej (im wi�cej tym lepiej) transmisja
pakiet�w (u mnie kopiowanie plik�w przez sie�).

Kernel panic gwarantowany :)

PS: nie jest wykluczone, �e mia�o to zwi�zek r�wnie� z zapisem tych
danych na dysk. Ale w to �miem w�tpi�.

Jacek

Krzysztof Halasa

unread,
Sep 30, 2009, 9:10:17 AM9/30/09
to
Jacek Kalinski <jacek_kal@go2._NOSPAMPLEASE_.pl> writes:

> Czy specyficznej - nie wiem. 2 płyty główne:
> Gigabyte GA-EP45-DS4 i GA-EP45-DQ6

Czyli dwa warianty praktycznie tej samej plyty, z tymi samymi
scalakami i BIOSem? :-)

> Mają 2-4 karty zintegrowane na płycie, a specyficzna sytuacja to nic
> innego jak obciążenie karty sieciowej (im więcej tym lepiej) transmisja
> pakietów (u mnie kopiowanie plików przez sieć).

Specyficzna sytuacja to specyficzny sprzet. Inna plyta (wiele roznych)
i problemow nie ma.

Masz najnowszy BIOS oczywiscie?
--
Krzysztof Halasa

Jacek Kalinski

unread,
Sep 30, 2009, 5:50:47 PM9/30/09
to
W artykule <m3my4ce...@intrepid.localdomain>, Krzysztof Halasa napisaďż˝(a):

>> Czy specyficznej - nie wiem. 2 p�yty g��wne:

>> Gigabyte GA-EP45-DS4 i GA-EP45-DQ6
>
> Czyli dwa warianty praktycznie tej samej plyty, z tymi samymi
> scalakami i BIOSem? :-)

Pocz�tkowo BIOSy w r�nych wersjach (fabrycznych). P�niej zaktualizowane
do najnowszych i te same problemy.
Nie jest wykluczone, �e to wina sprz�tu, aczkolwiek (nie pami�tam
dok�adnie changeloga) chyba to by�a wina wielko�ci bufora.

Jacek

Krzysztof Oledzki

unread,
Sep 30, 2009, 6:10:30 PM9/30/09
to
przemeksw <prze...@ksiezyc.pl> wrote:
> Witam
Witam,

> Od momentu zmiany lokalizacji serwerowni, powi�zanej ze zmian� operatora z
> tktelekom na tpsa metroethernet, wiesza siďż˝ mi jeden router (linux gentoo)
>
> Kernel panic: not syncing fatal exception in interrupt
>
> Podejrzewa�em z pocz�tku maszyne, jednak wymieni�em ca�� platform� intela 1u
> na now� - niestety nie pomog�o.
>
> Zadaniem tego routera to routowanie ruchu z 1 routera na router pppoe plus qos
> bez mark�w (routowane i ograniczane s� zew adresy IP)
>
> Procesor to Xeon 4 rdzeniowy
> Kernel 2.6.25

Jakbym mia� co� sugerowa� to sugerowa�bym mocny upgrade. 2.6.25 jest do�� starym
kernel, ma znane b��dy dotycz�ce stabiolno�ci i bezpiecze�stwa, na dodatek nie
zawiera on kilkuset �atek, kt�re pojawi�y si� w trakcie jego stabilizacji
w ramach wydaďż˝ -stable.

> 23:07:11 2009
>
> CPU0 CPU1 CPU2 CPU3
> 0: 133 1 0 0 IO-APIC-edge timer
> 1: 2 2 2 2 IO-APIC-edge i8042
> 6: 1 1 0 1 IO-APIC-edge floppy
> 8: 73 1 1 0 IO-APIC-edge rtc
> 9: 0 0 0 0 IO-APIC-fasteoi acpi
> 12: 1 1 1 1 IO-APIC-edge i8042
> 18: 19341454 22676779 26507280 29309895 IO-APIC-fasteoi eth0
> 220: 29893083 24057871 17630288 13839502 PCI-MSI-edge eth1
> 221: 343981 394787 355089 85524 PCI-MSI-edge ahci
> NMI: 0 0 0 0 Non-maskable interrupts
> LOC: 30720268 30750456 32190938 33646442 Local timer interrupts
> RES: 222091 291869 242629 294131 Rescheduling interrupts
> CAL: 7405 7228 7206 5023 function call interrupts
> TLB: 107021 147143 133107 175156 TLB shootdowns
> TRM: 0 0 0 0 Thermal event interrupts
> SPU: 0 0 0 0 Spurious interrupts

O, i jeszcze �le obs�ugujesz przerwania.

Pozdrawiam,

Krzysztof Oledzki

--
Krzysztof Ol�dzki
e-mail address: ole(a-t)ans(d-o-t)pl
Registered User: Linux - 189200, BSD - 51140
Nick Handles: KO60-RIPE, KO581 (Network Solutions)

Krzysztof Oledzki

unread,
Sep 30, 2009, 6:12:50 PM9/30/09
to
prze...@ksiezyc.pl wrote:
<CIACH>

> A wi�c Panowie i Panie.
>
> Pragn� zaznaczy� ze stary serwer dzia�a� od 2 lat i si� nic nie dzia�o. Od
> momentu zmiany ��cza ( nie rusza�em nic przy serwerze pr�cz adresacji) serwer
> zacz�� si� wiesza�. My�la�em, �e poprostu sprz�t zawini� i go zmieni�em,
> jednak po zmianie dalej siďż˝ wiesza.
>
> Distro to gentoo, kernel buduje sam, tylko sci�gam �r�d�a przy u�yciu emerge.

I na ten przyk�ad masz szybsze ��cze i ruch sieciowy triggeruje Ci
jakiegoďż˝ race w kodzie? ;)

BTW: skoro to jest "serwer" to potrzebujesz w og�le na nim conntracka?

przemeksw

unread,
Oct 1, 2009, 6:30:41 AM10/1/09
to
> przemeksw <prze...@ksiezyc.pl> wrote:
> > Witam
> Witam,
>
> > Od momentu zmiany lokalizacji serwerowni, powi�zanej ze zmian� operatora z
> > tktelekom na tpsa metroethernet, wiesza siďż˝ mi jeden router (linux gentoo)
> >
> > Kernel panic: not syncing fatal exception in interrupt
> >
> > Podejrzewa�em z pocz�tku maszyne, jednak wymieni�em ca�� platform� intela 1u
> > na now� - niestety nie pomog�o.
> >
> > Zadaniem tego routera to routowanie ruchu z 1 routera na router pppoe plus qos
> > bez mark�w (routowane i ograniczane s� zew adresy IP)
> >
> > Procesor to Xeon 4 rdzeniowy
> > Kernel 2.6.25
>
> Jakbym mia� co� sugerowa� to sugerowa�bym mocny upgrade. 2.6.25 jest do�� starym
> kernel, ma znane b��dy dotycz�ce stabiolno�ci i bezpiecze�stwa, na dodatek nie
> zawiera on kilkuset �atek, kt�re pojawi�y si� w trakcie jego stabilizacji
> w ramach wydaďż˝ -stable.
>
> > 23:07:11 2009
> >
> > � � � � � �CPU0 � � � CPU1 � � � CPU2 � � � CPU3
> > � 0: � � � �133 � � � � �1 � � � � �0 � � � � �0 � IO-APIC-edge � � �timer
> > � 1: � � � � �2 � � � � �2 � � � � �2 � � � � �2 � IO-APIC-edge � � �i8042
> > � 6: � � � � �1 � � � � �1 � � � � �0 � � � � �1 � IO-APIC-edge � � �floppy
> > � 8: � � � � 73 � � � � �1 � � � � �1 � � � � �0 � IO-APIC-edge � � �rtc
> > � 9: � � � � �0 � � � � �0 � � � � �0 � � � � �0 � IO-APIC-fasteoi � acpi
> > �12: � � � � �1 � � � � �1 � � � � �1 � � � � �1 � IO-APIC-edge � � �i8042
> > �18: � 19341454 � 22676779 � 26507280 � 29309895 � IO-APIC-fasteoi � eth0
> > 220: � 29893083 � 24057871 � 17630288 � 13839502 � PCI-MSI-edge � � �eth1
> > 221: � � 343981 � � 394787 � � 355089 � � �85524 � PCI-MSI-edge � � �ahci
> > NMI: � � � � �0 � � � � �0 � � � � �0 � � � � �0 � Non-maskable interrupts
> > LOC: ďż˝ 30720268 ďż˝ 30750456 ďż˝ 32190938 ďż˝ 33646442 ďż˝ Local timer interrupts
> > RES: ďż˝ ďż˝ 222091 ďż˝ ďż˝ 291869 ďż˝ ďż˝ 242629 ďż˝ ďż˝ 294131 ďż˝ Rescheduling interrupts
> > CAL: ďż˝ ďż˝ ďż˝ 7405 ďż˝ ďż˝ ďż˝ 7228 ďż˝ ďż˝ ďż˝ 7206 ďż˝ ďż˝ ďż˝ 5023 ďż˝ function call interrupts
> > TLB: ďż˝ ďż˝ 107021 ďż˝ ďż˝ 147143 ďż˝ ďż˝ 133107 ďż˝ ďż˝ 175156 ďż˝ TLB shootdowns
> > TRM: � � � � �0 � � � � �0 � � � � �0 � � � � �0 � Thermal event interrupts
> > SPU: � � � � �0 � � � � �0 � � � � �0 � � � � �0 � Spurious interrupts

>
> O, i jeszcze �le obs�ugujesz przerwania.
>
> Pozdrawiam,
>
> � � � � � � � � � � � �Krzysztof Oledzki
>
> --
> Krzysztof Ol�dzki
> e-mail address: ďż˝ ďż˝ ďż˝ ďż˝ ole(a-t)ans(d-o-t)pl
> Registered User: � � � �Linux - 189200, BSD - 51140
> Nick Handles: ďż˝ ďż˝ ďż˝ ďż˝ ďż˝ KO60-RIPE, KO581 (Network Solutions)


Mo�esz co� wi�cej na temat przerwa� powiedzie� ?

Krzysztof Oledzki

unread,
Oct 1, 2009, 6:59:05 AM10/1/09
to

> Mo�esz co� wi�cej na temat przerwa� powiedzie� ?

http://www.alexonlinux.com/why-interrupt-affinity-with-multiple-cores-is-not-such-a-good-thing

Do tego dochodzi jeszcze kwestia zmiany kolejno�ci pakiet�w, czego high
speed TCP *bardzo* nie lubi i co powoduje teďż˝ problem np. z voicem po UDP.

Pozdrawiam,

Krzysztof Oledzki

--
Krzysztof Ol�dzki
e-mail address: ole(a-t)ans(d-o-t)pl
Registered User: Linux - 189200, BSD - 51140
Nick Handles: KO60-RIPE, KO581 (Network Solutions)

przemeksw

unread,
Oct 1, 2009, 7:04:27 AM10/1/09
to
> � � � � � � � � � � � �Krzysztof Oledzki
>
> --
> Krzysztof Ol�dzki

> e-mail address: ďż˝ ďż˝ ďż˝ ďż˝ ole(a-t)ans(d-o-t)pl
> Registered User: � � � �Linux - 189200, BSD - 51140
> Nick Handles: ďż˝ ďż˝ ďż˝ ďż˝ ďż˝ KO60-RIPE, KO581 (Network Solutions)


Hm no faktycznie. Czyli najlepiej b�dzie rozdzieli� obs�ug� kart sieciowych
pomi�dzy 3 i 4 cor. A o co chodzi z kolejno�ci� pakiet�w ?

Krzysztof Oledzki

unread,
Oct 1, 2009, 8:49:26 AM10/1/09
to
przemeksw <prze...@ksiezyc.pl> wrote:
> > > > > � � � � � �CPU0 � � � CPU1 � � � CPU2 � � � CPU3
> > > > > � 0: � � � �133 � � � � �1 � � � � �0 � � � � �0 � IO-APIC-edge � � �timer
> > > > > � 1: � � � � �2 � � � � �2 � � � � �2 � � � � �2 � IO-APIC-edge � � �i8042
> > > > > � 6: � � � � �1 � � � � �1 � � � � �0 � � � � �1 � IO-APIC-edge � � �floppy
> > > > > � 8: � � � � 73 � � � � �1 � � � � �1 � � � � �0 � IO-APIC-edge � � �rtc
> > > > > � 9: � � � � �0 � � � � �0 � � � � �0 � � � � �0 � IO-APIC-fasteoi � acpi
> > > > > �12: � � � � �1 � � � � �1 � � � � �1 � � � � �1 � IO-APIC-edge � � �i8042
> > > > > �18: � 19341454 � 22676779 � 26507280 � 29309895 � IO-APIC-fasteoi � eth0
> > > > > 220: � 29893083 � 24057871 � 17630288 � 13839502 � PCI-MSI-edge � � �eth1
> > > > > 221: � � 343981 � � 394787 � � 355089 � � �85524 � PCI-MSI-edge � � �ahci
> > > > > NMI: � � � � �0 � � � � �0 � � � � �0 � � � � �0 � Non-maskable interrupts
> > > > > LOC: ďż˝ 30720268 ďż˝ 30750456 ďż˝ 32190938 ďż˝ 33646442 ďż˝ Local timer interrupts
> > > > > RES: ďż˝ ďż˝ 222091 ďż˝ ďż˝ 291869 ďż˝ ďż˝ 242629 ďż˝ ďż˝ 294131 ďż˝ Rescheduling interrupts
> > > > > CAL: ďż˝ ďż˝ ďż˝ 7405 ďż˝ ďż˝ ďż˝ 7228 ďż˝ ďż˝ ďż˝ 7206 ďż˝ ďż˝ ďż˝ 5023 ďż˝ function call interrupts
> > > > > TLB: ďż˝ ďż˝ 107021 ďż˝ ďż˝ 147143 ďż˝ ďż˝ 133107 ďż˝ ďż˝ 175156 ďż˝ TLB shootdowns
> > > > > TRM: � � � � �0 � � � � �0 � � � � �0 � � � � �0 � Thermal event interrupts
> > > > > SPU: � � � � �0 � � � � �0 � � � � �0 � � � � �0 � Spurious interrupts
> > > >
> > > > O, i jeszcze �le obs�ugujesz przerwania.
> >
> > > Mo�esz co� wi�cej na temat przerwa� powiedzie� ?
> >
> >
> http://www.alexonlinux.com/why-interrupt-affinity-with-multiple-cores-is-not-such-a-good-thing
> >
> > Do tego dochodzi jeszcze kwestia zmiany kolejno�ci pakiet�w, czego high
> > speed TCP *bardzo* nie lubi i co powoduje teďż˝ problem np. z voicem po UDP.
>
> Hm no faktycznie. Czyli najlepiej b�dzie rozdzieli� obs�ug� kart sieciowych
> pomi�dzy 3 i 4 cor.

np.

> A o co chodzi z kolejno�ci� pakiet�w ?

Za�u�my, �e mamy jaki� flow (np. nawi�zana sesja TCP), w kt�rym przesy�ane
s� pakiety. Pakiet x trafiaj�c na CPUa mo�e zosta� szybciej obs�u�ony ni� pakiet
x-1, kiedy trafi CPUb. Zminia si� wtedy ich kolejno�� i do odbiorcy dotrze najpierw x,
a potem x-1. Oczywi�cie TCP sobie z tym radzi, ale jest to szkodliwe.

Pozdrawiam,

Krzysztof Oledzki

--
Krzysztof Ol�dzki
e-mail address: ole(a-t)ans(d-o-t)pl
Registered User: Linux - 189200, BSD - 51140
Nick Handles: KO60-RIPE, KO581 (Network Solutions)

Krzysztof Halasa

unread,
Oct 1, 2009, 1:51:34 PM10/1/09
to
Jacek Kalinski <jacek_kal@go2._NOSPAMPLEASE_.pl> writes:

> Początkowo BIOSy w różnych wersjach (fabrycznych). Później zaktualizowane


> do najnowszych i te same problemy.

> Nie jest wykluczone, że to wina sprzętu, aczkolwiek (nie pamiętam
> dokładnie changeloga) chyba to była wina wielkości bufora.

Zmian w rtl8169 bylo sporo ale tak czy owak te karty dzialaly normalnie.
Uzywasz jumbo frames? Cos tam bylo z tym zwiazanego.
--
Krzysztof Halasa

prze...@ksiezyc.pl

unread,
Oct 1, 2009, 3:14:56 PM10/1/09
to
> � � � � � � � � � � � �Krzysztof Oledzki
>
> --
> Krzysztof Ol�dzki

> e-mail address: ďż˝ ďż˝ ďż˝ ďż˝ ole(a-t)ans(d-o-t)pl
> Registered User: � � � �Linux - 189200, BSD - 51140
> Nick Handles: ďż˝ ďż˝ ďż˝ ďż˝ ďż˝ KO60-RIPE, KO581 (Network Solutions)

Krzysztof Oledzki

unread,
Oct 2, 2009, 4:25:24 AM10/2/09
to
przemeksw <prze...@ksiezyc.pl> wrote:
> > > > > � � � � � �CPU0 � � � CPU1 � � � CPU2 � � � CPU3
> > > > > � 0: � � � �133 � � � � �1 � � � � �0 � � � � �0 � IO-APIC-edge � � �timer
> > > > > � 1: � � � � �2 � � � � �2 � � � � �2 � � � � �2 � IO-APIC-edge � � �i8042
> > > > > � 6: � � � � �1 � � � � �1 � � � � �0 � � � � �1 � IO-APIC-edge � � �floppy
> > > > > � 8: � � � � 73 � � � � �1 � � � � �1 � � � � �0 � IO-APIC-edge � � �rtc
> > > > > � 9: � � � � �0 � � � � �0 � � � � �0 � � � � �0 � IO-APIC-fasteoi � acpi
> > > > > �12: � � � � �1 � � � � �1 � � � � �1 � � � � �1 � IO-APIC-edge � � �i8042
> > > > > �18: � 19341454 � 22676779 � 26507280 � 29309895 � IO-APIC-fasteoi � eth0
> > > > > 220: � 29893083 � 24057871 � 17630288 � 13839502 � PCI-MSI-edge � � �eth1
> > > > > 221: � � 343981 � � 394787 � � 355089 � � �85524 � PCI-MSI-edge � � �ahci
> > > > > NMI: � � � � �0 � � � � �0 � � � � �0 � � � � �0 � Non-maskable interrupts
> > > > > LOC: ďż˝ 30720268 ďż˝ 30750456 ďż˝ 32190938 ďż˝ 33646442 ďż˝ Local timer interrupts
> > > > > RES: ďż˝ ďż˝ 222091 ďż˝ ďż˝ 291869 ďż˝ ďż˝ 242629 ďż˝ ďż˝ 294131 ďż˝ Rescheduling interrupts
> > > > > CAL: ďż˝ ďż˝ ďż˝ 7405 ďż˝ ďż˝ ďż˝ 7228 ďż˝ ďż˝ ďż˝ 7206 ďż˝ ďż˝ ďż˝ 5023 ďż˝ function call interrupts
> > > > > TLB: ďż˝ ďż˝ 107021 ďż˝ ďż˝ 147143 ďż˝ ďż˝ 133107 ďż˝ ďż˝ 175156 ďż˝ TLB shootdowns
> > > > > TRM: � � � � �0 � � � � �0 � � � � �0 � � � � �0 � Thermal event interrupts
> > > > > SPU: � � � � �0 � � � � �0 � � � � �0 � � � � �0 � Spurious interrupts
> > > >
> > > > O, i jeszcze �le obs�ugujesz przerwania.
> >
> > > Mo�esz co� wi�cej na temat przerwa� powiedzie� ?
> >
> >
> http://www.alexonlinux.com/why-interrupt-affinity-with-multiple-cores-is-not-such-a-good-thing
> >
> > Do tego dochodzi jeszcze kwestia zmiany kolejno�ci pakiet�w, czego high
> > speed TCP *bardzo* nie lubi i co powoduje teďż˝ problem np. z voicem po UDP.
>
> Hm no faktycznie. Czyli najlepiej b�dzie rozdzieli� obs�ug� kart sieciowych
> pomi�dzy 3 i 4 cor.

np.

> A o co chodzi z kolejno�ci� pakiet�w ?

Za��my, �e mamy jaki� flow (np. nawi�zana sesja TCP), w kt�rym przesy�ane


s� pakiety. Pakiet x trafiaj�c na CPUa mo�e zosta� szybciej obs�u�ony ni� pakiet
x-1, kiedy trafi CPUb. Zminia si� wtedy ich kolejno�� i do odbiorcy dotrze najpierw x,
a potem x-1. Oczywi�cie TCP sobie z tym radzi, ale jest to szkodliwe.

Pozdrawiam,

Krzysztof Oledzki

--
Krzysztof Ol�dzki
e-mail address: ole(a-t)ans(d-o-t)pl
Registered User: Linux - 189200, BSD - 51140
Nick Handles: KO60-RIPE, KO581 (Network Solutions)

Krzysztof Oledzki

unread,
Oct 2, 2009, 4:26:06 AM10/2/09
to
prze...@ksiezyc.pl wrote:
<CUT>

A o co chodzi?


Pozdrawiam,

Krzysztof Oledzki

--
Krzysztof Ol�dzki
e-mail address: ole(a-t)ans(d-o-t)pl
Registered User: Linux - 189200, BSD - 51140
Nick Handles: KO60-RIPE, KO581 (Network Solutions)

Jacek Kalinski

unread,
Oct 3, 2009, 1:50:01 PM10/3/09
to
W artykule <m3pr97f...@intrepid.localdomain>, Krzysztof Halasa napisaďż˝(a):

> Zmian w rtl8169 bylo sporo ale tak czy owak te karty dzialaly normalnie.
> Uzywasz jumbo frames? Cos tam bylo z tym zwiazanego.

Nie, MTU mam na defaultowe 1500.
Po zrobieniu diffa mi�dzy 2.6.29.5 (chyba) i 2.6.30, wysz�y mi na
oko mog�ce mie� wp�yw na dzia�anie r�nice (mniej istotne pomin��em):
- RTL_W16(RxMaxSize, 16383);
+ RTL_W16(RxMaxSize, rx_buf_sz);

- rtl_set_rx_max_size(ioaddr);
+ rtl_set_rx_max_size(ioaddr, tp->rx_buf_sz);

- if (likely(netif_rx_schedule_prep(&tp->napi)))
- __netif_rx_schedule(&tp->napi);
+ if (likely(napi_schedule_prep(&tp->napi)))
+ __napi_schedule(&tp->napi);

- netif_rx_complete(napi);
+ napi_complete(napi);

Aczkolwiek podejrzewam, �e zmiany w wielko�ci bufora (2 pierwsze
r�nice) mia�y najwi�kszy wp�yw na stabilno�� dzia�ania.

Na czym si� znam, to si� znam. Ale na kodzie �r�d�owym kernela
wcale (i jakie powy�sze zmiany maj� wp�yw na dzia�anie, tego nie wiem).

Sk�d wiem, �e na pewno zmiany w r8169.c na 100% by�y powodem?
Bo wzi��em �r�d�a od 2.6.29.5, podmieni�em tylko plik r8169.c z wersji
2.6.30 i po wgraniu nowego j�dra, system zacz�� stabilnie dzia�a�.

I jak wcze�niej na interfejscie karty sieciowej nie pojawia�y si� �adne
b��dy, tak teraz pojawiaj� si� (RX errors), np:
eth0 Link encap:Ethernet HWaddr 00:1f:d0:21:94:1f
inet addr:192.168.19.104 Bcast:192.168.255.255 Mask:255.255.0.0
inet6 addr: fe80::21f:d0ff:fe21:8cb3/64 Scope:Link
UP BROADCAST RUNNING MULTICAST MTU:1500 Metric:1
RX packets:11351461643 errors:18 dropped:0 overruns:0 frame:18
TX packets:15779823788 errors:0 dropped:0 overruns:0 carrier:0
collisions:0 txqueuelen:1000
RX bytes:3333681484919 (3.0 TiB) TX bytes:18481931977888 (16.8 TiB)
Interrupt:33 Base address:0x8000

Obecny uptime systemu: 91 dni. A po ilo�ci RX/TX wida�, �e karta sieciowa
nigdy siďż˝ nie nudzi.

Jacek

Krzysztof Oledzki

unread,
Oct 3, 2009, 3:39:35 PM10/3/09
to
Jacek Kalinski <jacek_kal@go2._nospamplease_.pl> wrote:
> W artykule <m3pr97f...@intrepid.localdomain>, Krzysztof Halasa napisaďż˝(a):
>
> > Zmian w rtl8169 bylo sporo ale tak czy owak te karty dzialaly normalnie.
> > Uzywasz jumbo frames? Cos tam bylo z tym zwiazanego.
>
> Nie, MTU mam na defaultowe 1500.
> Po zrobieniu diffa mi�dzy 2.6.29.5 (chyba) i 2.6.30, wysz�y mi na
> oko mog�ce mie� wp�yw na dzia�anie r�nice (mniej istotne pomin��em):
> - RTL_W16(RxMaxSize, 16383);
> + RTL_W16(RxMaxSize, rx_buf_sz);
>
> - rtl_set_rx_max_size(ioaddr);
> + rtl_set_rx_max_size(ioaddr, tp->rx_buf_sz);
>
> - if (likely(netif_rx_schedule_prep(&tp->napi)))
> - __netif_rx_schedule(&tp->napi);
> + if (likely(napi_schedule_prep(&tp->napi)))
> + __napi_schedule(&tp->napi);
>
> - netif_rx_complete(napi);
> + napi_complete(napi);
>
> Aczkolwiek podejrzewam, �e zmiany w wielko�ci bufora (2 pierwsze
> r�nice) mia�y najwi�kszy wp�yw na stabilno�� dzia�ania.
>
> Na czym si� znam, to si� znam. Ale na kodzie �r�d�owym kernela
> wcale (i jakie powy�sze zmiany maj� wp�yw na dzia�anie, tego nie wiem).
>
> Sk�d wiem, �e na pewno zmiany w r8169.c na 100% by�y powodem?
> Bo wzi��em �r�d�a od 2.6.29.5, podmieni�em tylko plik r8169.c z wersji
> 2.6.30 i po wgraniu nowego j�dra, system zacz�� stabilnie dzia�a�.

<CIACH>

> Obecny uptime systemu: 91 dni. A po ilo�ci RX/TX wida�, �e karta sieciowa
> nigdy siďż˝ nie nudzi.

Sugeruj� zobaczy�, jak to wygl�da na 2.6.31-stable albo jeszcze lepiej 2.6.32-rc1.
Je�eli problem nadal bedzie wyst�powa� to maj�c tak konkretne informacje wskazane jest
zaatakowaďż˝ na netdev.

Krzysztof Halasa

unread,
Oct 3, 2009, 4:15:49 PM10/3/09
to
Jacek Kalinski <jacek_kal@go2._NOSPAMPLEASE_.pl> writes:

>> Zmian w rtl8169 bylo sporo ale tak czy owak te karty dzialaly normalnie.
>> Uzywasz jumbo frames? Cos tam bylo z tym zwiazanego.
>
> Nie, MTU mam na defaultowe 1500.

> Po zrobieniu diffa między 2.6.29.5 (chyba) i 2.6.30, wyszły mi na
> oko mogące mieć wpływ na działanie różnice (mniej istotne pominąłem):


> - RTL_W16(RxMaxSize, 16383);
> + RTL_W16(RxMaxSize, rx_buf_sz);
>
> - rtl_set_rx_max_size(ioaddr);
> + rtl_set_rx_max_size(ioaddr, tp->rx_buf_sz);

Na pierwszy rzut oka rx_buf_sz jest pewnie ustawione normalnie na 1514,
1518, 1536 itp, wiec w pierwotnej wersji wieksze ramki (= jumbo frames),
np. broadcastowe, moglyby powodowac kernel panic albo inna korupcje
(pierwsza linia ustawia scalakowi maksymalny rozmiar pakietow, ktore ten
ma akceptowac).

> - if (likely(netif_rx_schedule_prep(&tp->napi)))
> - __netif_rx_schedule(&tp->napi);
> + if (likely(napi_schedule_prep(&tp->napi)))
> + __napi_schedule(&tp->napi);
>
> - netif_rx_complete(napi);
> + napi_complete(napi);

Powyzsze to tylko zamiana nazw w calym kernelu, bez wplywu na dzialanie.

> Skąd wiem, że na pewno zmiany w r8169.c na 100% były powodem?
> Bo wziąłem źródła od 2.6.29.5, podmieniłem tylko plik r8169.c z wersji
> 2.6.30 i po wgraniu nowego jądra, system zaczął stabilnie działać.

Wniosek: najprawdopodobniej masz jednak w sieci jumbo frames.

> I jak wcześniej na interfejscie karty sieciowej nie pojawiały się żadne
> błędy, tak teraz pojawiają się (RX errors), np:


> eth0 Link encap:Ethernet HWaddr 00:1f:d0:21:94:1f
> inet addr:192.168.19.104 Bcast:192.168.255.255 Mask:255.255.0.0
> inet6 addr: fe80::21f:d0ff:fe21:8cb3/64 Scope:Link
> UP BROADCAST RUNNING MULTICAST MTU:1500 Metric:1
> RX packets:11351461643 errors:18 dropped:0 overruns:0 frame:18

Moga to byc wlasnie jumbo frames.

> TX packets:15779823788 errors:0 dropped:0 overruns:0 carrier:0
> collisions:0 txqueuelen:1000
> RX bytes:3333681484919 (3.0 TiB) TX bytes:18481931977888 (16.8 TiB)
> Interrupt:33 Base address:0x8000
>

> Obecny uptime systemu: 91 dni. A po ilości RX/TX widać, że karta sieciowa
> nigdy się nie nudzi.

Tego to akurat nie widac, nalezaloby przyjrzec sie wykresowi z np. mrtg.
Sredni ruch TX < 20 Mb/s, jak dla karty GbE to lekka nuda :-)
--
Krzysztof Halasa

0 new messages