Meine treugediente (mind 4 Jahre alte) Seagate ST328040A verursacht
derzeit (seit dem 5 Okober, ungefaehr) seltsame Meldungen, aus denen
ich nicht schlau werde.
Kurze Rahmenbedingungen: Athlon 1GHz, NMC-Board, mit Debian Linux mit
selbstgebackenem Kernel 2.4.20 als OS. Platte ist als Datengrab auf
hdc (Secondary master) eingerichtet. Als Bootplatte fungiert eine IBM
IC35L080AVVA07-0, die sich absolut unauffaellig verhaelt.
Nachdem ich den Rechner morgens hochfahre, verhaelt scih die Platte
zunaechst ganz normal. Erst nach mehreren Stunden Betrieb erscheinen
die folgenden Fehler:
Oct 13 12:25:37 Daniel smartd: /dev/hdc:Failed to read smart values
Oct 13 12:25:37 Daniel smartd: /dev/hdc:Failed to read smart thresholds
Oct 13 12:25:37 Daniel kernel: hdc: status error: status=0x58 {DriveReady SeekC omplete DataRequest }
Oct 13 12:25:37 Daniel kernel: hdc: drive not ready for command
Oct 13 12:25:37 Daniel kernel: hdc: status error: status=0x58 {DriveReady SeekC omplete DataRequest }
Diese Meldungen erscheinen im regelmaessigen Abstaenden, zwischendurch
klappts dann auch mal wieder, wie folgender Log-Auszug zeigt:
Oct 13 17:46:03 Daniel kernel: hdc: drive not ready for command
Oct 13 17:55:39 Daniel smartd: Device: /dev/hdc, S.M.A.R.T. Attribute:1 Changed 26
Oct 13 17:55:39 Daniel smartd: Device: /dev/hdc, S.M.A.R.T. Attribute:5 Changed 35
Oct 13 17:55:39 Daniel smartd: Device: /dev/hdc, S.M.A.R.T. Attribute:7 Changed -44
Oct 13 17:55:39 Daniel smartd: Device: /dev/hdc, S.M.A.R.T. Attribute:193 Changed -100
Freitag hatte ich sogar den Fall, dass ich mit "smartctl -a /dev/hdc"
die Meldung bekam, die Platte sei nicht smartkompatibel.
Ansonsten laeuft die Platte aber wie immer, kein Klacken, etc. Ich
haenge einfach mal meine jetzt ausgelesenen smart-Daten an, in der
Hoffnung, dass jemand von euch da was rauslesen kann.
Ach ja, die Platte laeuft bei einer Umgebungstemperatur von ca 26 Grad
Celsius (Ausgabe von lm-sensors, gegengeprueft mit einem Thermomether
mit externem Temperaturfuehler), somit schliesse ich Hitze eigentlich
als Grund aus.
Auch habe ich das System hardwaremaessig seit gut zwei Monaten nicht
mehr angeruehrt. Der Kernel ist auch schon mehrere Monate alt.
Da ich einen Plattendefekt vermute, habe ich bis auf weiteres alle
Daten von der Platte verbannt.
Vielen Danke fuer eure Hilfen...
Stefan
Daniel:~# smartctl -a /dev/hdc
Device: IC35L080AVVA07-0 Supports ATA Version 5
Drive supports S.M.A.R.T. and is enabled
Check S.M.A.R.T. Passed.
General Smart Values:
Off-line data collection status: (0x00) Offline data collection
activity was
never started
Self-test execution status: ( 0) The previous self-test routine
completed
without error or no self-test
has ever
been run
Total time to complete off-line
data collection: (2288) Seconds
Offline data collection
Capabilities: (0x1b)SMART EXECUTE OFF-LINE
IMMEDIATE
Automatic timer ON/OFF support
Suspend Offline Collection
upon new
command
Offline surface scan supported
Self-test supported
Smart Capablilities: (0x0003) Saves SMART data before
entering
power-saving mode
Supports SMART auto save timer
Error logging capability: (0x01) Error logging supported
Short self-test routine
recommended polling time: ( 1) Minutes
Extended self-test routine
recommended polling time: ( 38) Minutes
Vendor Specific SMART Attributes with Thresholds:
Revision Number: 16
Attribute Flag Value Worst Threshold Raw Value
( 1)Raw Read Error Rate 0x000b 099 099 060 2
( 2)Throughput Performance 0x0005 100 100 050 0
( 3)Spin Up Time 0x0007 101 101 024 17826069
( 4)Start Stop Count 0x0012 100 100 000 878
( 5)Reallocated Sector Ct 0x0033 100 100 005 0
( 7)Seek Error Rate 0x000b 100 100 067 0
( 8)Seek Time Preformance 0x0005 100 100 020 0
( 9)Power On Hours 0x0012 100 100 000 4710
( 10)Spin Retry Count 0x0013 100 100 060 0
( 12)Power Cycle Count 0x0032 100 100 000 878
(192)Power-Off Retract Count 0x0032 100 100 050 878
(193)Load Cycle Count 0x0012 100 100 050 878
(194)Temperature 0x0002 157 157 000 983099
(196)Reallocated Event Count 0x0032 100 100 000 0
(197)Current Pending Sector 0x0022 100 100 000 0
(198)Offline Uncorrectable 0x0008 100 100 000 0
(199)UDMA CRC Error Count 0x000a 200 200 000 0
SMART Error Log:
SMART Error Logging Version: 1
No Errors Logged
--
Weird enough for government work.
> Hallo Leute, ich hoffe, ihr koennt mir mal eben helfen, ich werde
> nicht ganz schlau aus der Sache.
Ich auch nicht. Denn das
> Meine treugediente (mind 4 Jahre alte) Seagate ST328040A verursacht
und das
> Daniel:~# smartctl -a /dev/hdc
>
> Device: IC35L080AVVA07-0 Supports ATA Version 5
wiederspricht sich. Scheinbar kommen deine IDE-Geräte durcheinander, denn
das hier ist wohl eher deine Bootplatte, wie man hieraus sehen kann:
> hdc (Secondary master) eingerichtet. Als Bootplatte fungiert eine IBM
> IC35L080AVVA07-0, die sich absolut unauffaellig verhaelt.
Ich würd mal prüfen, ob die Zuordnung deiner IDE-Geräte wirklich richtig
ist.
Gruß, Dirk
--
Mein PC, sein Zusammenbau und Bilder:
http://www.dirksteins.de/pc.html
http://www.dirksteins.de/gallery.php?gallery=17&caller=pc.html
> On Mon, 13 Oct 2003 18:32:49 +0200, Stefan Denker wrote:
> Ich würd mal prüfen, ob die Zuordnung deiner IDE-Geräte wirklich richtig
> ist.
Hmm, kurze Nachforschung ergab: Ich hab simpel den falschen Output
gepostet, tut mir sorry. :(
Hier dann doch der richtige von soeben:
Daniel:~# smartctl -a /dev/hdc
Device: ST328040A Supports ATA Version 4
Drive supports S.M.A.R.T. and is enabled
Check S.M.A.R.T. Passed.
General Smart Values:
Off-line data collection status: (0x82) Offline data collection
activity
completed without error
Self-test execution status: ( 0) The previous self-test routine
completed
without error or no self-test
has ever
been run
Total time to complete off-line
data collection: (2222) Seconds
Offline data collection
Capabilities: (0x1b)SMART EXECUTE OFF-LINE
IMMEDIATE
Automatic timer ON/OFF support
Suspend Offline Collection
upon new
command
Offline surface scan supported
Self-test supported
Smart Capablilities: (0x0003) Saves SMART data before
entering
power-saving mode
Supports SMART auto save timer
Error logging capability: (0x01) Error logging supported
Short self-test routine
recommended polling time: ( 2) Minutes
Extended self-test routine
recommended polling time: ( 35) Minutes
Vendor Specific SMART Attributes with Thresholds:
Revision Number: 10
Attribute Flag Value Worst Threshold Raw Value
( 1)Raw Read Error Rate 0x0008 073 072 000 232449882
( 3)Spin Up Time 0x0006 070 070 000 0
( 4)Start Stop Count 0x0013 098 098 020 2316
( 5)Reallocated Sector Ct 0x0013 100 100 036 0
( 7)Seek Error Rate 0x000b 065 057 030 18524503
( 9)Power On Hours 0x0012 142 001 000 10847
( 10)Spin Retry Count 0x0013 100 100 097 0
( 12)Power Cycle Count 0x0013 098 098 020 3051
(196)Reallocated Event Count 0x0012 100 100 000 0
(197)Current Pending Sector 0x0030 100 100 000 0
(198)Offline Uncorrectable 0x0030 100 100 000 0
(199)UDMA CRC Error Count 0x000a 200 200 000 19
SMART Error Log:
SMART Error Logging Version: 1
No Errors Logged
So, das sollte hoffentlich mehr Klaerung bringen. Ich verspreche, nie
wieder den Output eines Programms in mehreren Schritten zu pasten.
bis dann
Stefan
--
Speak softly and carry a cellular phone.
Meine ST320430A liegt bei 76, IIRC.
> ( 3)Spin Up Time 0x0006 070 070 000 0
> ( 4)Start Stop Count 0x0013 098 098 020 2316
> ( 5)Reallocated Sector Ct 0x0013 100 100 036 0
Keine, gut.
> ( 7)Seek Error Rate 0x000b 065 057 030 18524503
Meine war mal bei 50, ist aber im Laufe der Zeit auf 57 geklettert.
> (199)UDMA CRC Error Count 0x000a 200 200 000 19
Das bringt uns der Sache womöglich näher. Entweder es hakt am Kabel,
oder die (e-)ik produziert in warmem Zustand Daten- und sonstige Fehler.
Ungenügende Kühlung und/oder Alterung, würde ich sagen. Eine
Temperaturmessung an der Plattenoberfläche mag nicht schaden. (Und falls
kein Thermometer mit Fühler vorhanden ist, kann man die Temperatur immer
noch grob manuell ermitteln).
Stephan
--
Home: http://stephan.win31.de/ | Webm.: http://www.i24.com/
PC#6: i440LX, 2xCel300A, 448 MB, 18 GB, ATI AGP 32 MB, 110W
This is a SCSI-inside, Legacy-plus, TCPA-free computer :)
Reply to newsgroup only. | See home page for working e-mail address.
> Dirk Steins <dirk....@expires-2003-10-31.arcornews.de> writes:
>
>> On Mon, 13 Oct 2003 18:32:49 +0200, Stefan Denker wrote:
>> Ich würd mal prüfen, ob die Zuordnung deiner IDE-Geräte wirklich richtig
>> ist.
>
> Hmm, kurze Nachforschung ergab: Ich hab simpel den falschen Output
> gepostet, tut mir sorry. :(
Wie auch immer du das geschafft hast ;-)
> Hier dann doch der richtige von soeben:
>
> Daniel:~# smartctl -a /dev/hdc
> Device: ST328040A Supports ATA Version 4
> Drive supports S.M.A.R.T. and is enabled
> Check S.M.A.R.T. Passed.
>
> [...]
>
> Vendor Specific SMART Attributes with Thresholds:
> Revision Number: 10
> Attribute Flag Value Worst Threshold Raw Value
> ( 1)Raw Read Error Rate 0x0008 073 072 000 232449882
Mir fehlt dazu die Angabe vom Hardware ECC Recovered. Kann es sein, das
dein smartctl etwas alt ist? Evtl. mal updaten, dann kommen vielleicht noch
ein paar Werte mehr raus.
> ( 3)Spin Up Time 0x0006 070 070 000 0
> ( 4)Start Stop Count 0x0013 098 098 020 2316
Relativ hoch. Wird die öfters rauf und runter gefahren?
> ( 5)Reallocated Sector Ct 0x0013 100 100 036 0
> ( 7)Seek Error Rate 0x000b 065 057 030 18524503
Scheint normal zu sein bei Seagate, bei meiner 80er Cuda IV liegt das zur
Zeit bei 99271425, und die hat 4000h weniger auf dem Buckel als deine.
> ( 9)Power On Hours 0x0012 142 001 000 10847
> ( 10)Spin Retry Count 0x0013 100 100 097 0
> ( 12)Power Cycle Count 0x0013 098 098 020 3051
> (196)Reallocated Event Count 0x0012 100 100 000 0
> (197)Current Pending Sector 0x0030 100 100 000 0
> (198)Offline Uncorrectable 0x0030 100 100 000 0
> (199)UDMA CRC Error Count 0x000a 200 200 000 19
Das dagegen könnte das Problem sein (wie Stefan auch schon schrieb). Da
solltest du das Kabel mal prüfen. Wenn das Kabel nämlich einen leichten
Defekt hat (oder das MoBo an dem Anschluß), dann würde das auch erklären,
das du temporär einige Daten nicht auslesen kannst.
> So, das sollte hoffentlich mehr Klaerung bringen. Ich verspreche, nie
> wieder den Output eines Programms in mehreren Schritten zu pasten.
Brav. :-)
> On Tue, 14 Oct 2003 11:29:33 +0200, Stefan Denker wrote:
>> Hmm, kurze Nachforschung ergab: Ich hab simpel den falschen Output
>> gepostet, tut mir sorry. :(
> Wie auch immer du das geschafft hast ;-)
Och, das war einfach... Man nehme eine laggy ssh-Verbindung, dazu
mehrere smartctl-Ausgaben von hda und hdc sowie einen Operator mit
Schnupfen. Man gebe noch mehrere Bild-hoch und bild-runter-Aufrufe
hinzu... fertig.
>> Vendor Specific SMART Attributes with Thresholds:
>> Revision Number: 10
>> Attribute Flag Value Worst Threshold Raw Value
>> ( 1)Raw Read Error Rate 0x0008 073 072 000 232449882
> Mir fehlt dazu die Angabe vom Hardware ECC Recovered. Kann es sein, das
> dein smartctl etwas alt ist? Evtl. mal updaten, dann kommen vielleicht noch
> ein paar Werte mehr raus.
Ist ne Debian woody - also ziemlich alt. *g* Package smartsuite. V2.1,
was laut sourceforge wohl auch die letzte Version ist. Von 2001. Werde
wohl mal auf das Package smartmontools aus testing wechseln. Aber
solche Basteleien erst, wenn ich den Rechner nicht mehr dringend
brauche. Damit fruehestens am WE.
>> ( 3)Spin Up Time 0x0006 070 070 000 0
>> ( 4)Start Stop Count 0x0013 098 098 020 2316
> Relativ hoch. Wird die öfters rauf und runter gefahren?
Zur Zeit wohl ja. Immerhin ist die Platte als reines Datengrab und
swap gedacht, und beides brauche ich nicht so wirklich oft.
>> (199)UDMA CRC Error Count 0x000a 200 200 000 19
> Das dagegen könnte das Problem sein (wie Stefan auch schon schrieb). Da
> solltest du das Kabel mal prüfen. Wenn das Kabel nämlich einen leichten
> Defekt hat (oder das MoBo an dem Anschluß), dann würde das auch erklären,
> das du temporär einige Daten nicht auslesen kannst.
Hmm, ich hatte frueher (vor >3Jahren) mal ein Problem mit einem
defekten IDE-Kabel. Da bekam ich teilweise keine Partitionierungsdaten
raus. Nach dem ich das Kabel gewechselt habe, gings dann. Kann es
sein, dass die Fehler aus dieser Zeit stammen?
Gut, aber Kabel tauschen und mein Thermometer auf die Platte legen
kann ich ruhig mal, der Aufwand ist ja relativ gering.
mfg
Stefan
--
"Winter bzw Kältestürme haben wir doch fast nie im Februar;
davon haben wir mehr im Sommer."
[Meine Oma]
> Dirk Steins <dirk....@expires-2003-10-31.arcornews.de> writes:
>
>> On Tue, 14 Oct 2003 11:29:33 +0200, Stefan Denker wrote:
>>> Hmm, kurze Nachforschung ergab: Ich hab simpel den falschen Output
>>> gepostet, tut mir sorry. :(
>> Wie auch immer du das geschafft hast ;-)
>
> Och, das war einfach... Man nehme eine laggy ssh-Verbindung, dazu
> mehrere smartctl-Ausgaben von hda und hdc sowie einen Operator mit
> Schnupfen. Man gebe noch mehrere Bild-hoch und bild-runter-Aufrufe
> hinzu... fertig.
Ah. Hm. Ok. Gute Besserung :)
>>> (199)UDMA CRC Error Count 0x000a 200 200 000 19
>> Das dagegen könnte das Problem sein (wie Stefan auch schon schrieb). Da
>> solltest du das Kabel mal prüfen. Wenn das Kabel nämlich einen leichten
>> Defekt hat (oder das MoBo an dem Anschluß), dann würde das auch erklären,
>> das du temporär einige Daten nicht auslesen kannst.
>
> Hmm, ich hatte frueher (vor >3Jahren) mal ein Problem mit einem
> defekten IDE-Kabel. Da bekam ich teilweise keine Partitionierungsdaten
> raus. Nach dem ich das Kabel gewechselt habe, gings dann. Kann es
> sein, dass die Fehler aus dieser Zeit stammen?
Wenn das noch die gleiche Platte ist, könnte das sein. Der Counter wird
meines Erachtens nämlich nicht zurückgesetzt. Aber du kannst den ja einfach
mal beobachten, ob sich der Wert verändert, insbesondere dann, wenn du mal
wieder keine Daten von der bekommst (bzw. wenn du dann wieder welche
bekommst).
> Gut, aber Kabel tauschen und mein Thermometer auf die Platte legen
> kann ich ruhig mal, der Aufwand ist ja relativ gering.
Naja, man muß den Rechner runterfahren, und die schöne Uptime ist dahin...
>> (199)UDMA CRC Error Count 0x000a 200 200 000 19
>
> Das bringt uns der Sache womöglich näher. Entweder es hakt am Kabel,
Kabel habe ich ausgetauscht, neues Kabel bewirkt keinerlei Änderung.
> oder die (e-)ik produziert in warmem Zustand Daten- und sonstige Fehler.
> Ungenügende Kühlung und/oder Alterung, würde ich sagen.
Hmm..
> Eine Temperaturmessung an der Plattenoberfläche mag nicht
> schaden. (Und falls kein Thermometer mit Fühler vorhanden ist, kann
> man die Temperatur immer noch grob manuell ermitteln).
Thermometer mit Fühler liegt auf der Plattenoberfläche, zeigt einen
Wert von 28.4°C an. Platte liegt direkt über einem Lüfter, der
Umgebungsluft ins Gehäuse pustet.
Soweit mein kleiner Zwischenbericht. Als nächstes werde ich die
smart-Utils updaten, um vielleicht was mehr zu sehen.
Anbei wollte ich doch noch die jetzigen Smartdaten reinpasten... geht
aber gerade nicht:
Daniel:~# smartctl -a /dev/hdc
Device: ST328040A Supports ATA Version 4
Drive supports S.M.A.R.T. and is disabled
Use option -e to enable
Daniel:~# smartctl -e /dev/hdc
Smart Enable failed: Input/output error
Smartctl: Smart Enable Failed
Hmm, jetzt habe ich kurz auf das Laufwerk zugegriffen, und schon
gehts:
Vendor Specific SMART Attributes with Thresholds:
Revision Number: 10
Attribute Flag Value Worst Threshold Raw Value
( 1)Raw Read Error Rate 0x0008 073 072 000 232580950
( 3)Spin Up Time 0x0006 072 070 000 0
( 4)Start Stop Count 0x0013 098 098 020 2417
( 5)Reallocated Sector Ct 0x0013 100 100 036 0
( 7)Seek Error Rate 0x000b 065 057 030 18542159
( 9)Power On Hours 0x0012 134 001 000 10918
( 10)Spin Retry Count 0x0013 100 100 097 0
( 12)Power Cycle Count 0x0013 098 098 020 3057
(196)Reallocated Event Count 0x0012 100 100 000 0
(197)Current Pending Sector 0x0030 100 100 000 0
(198)Offline Uncorrectable 0x0030 100 100 000 0
(199)UDMA CRC Error Count 0x000a 200 200 000 19
SMART Error Log:
SMART Error Logging Version: 1
No Errors Logged
Ich rätsele weiter...
Stefan
--
This is Linux country. If you listen carefully, you can hear Windows reboot...