Dysk mi pada - kto zdiagnozuje S.M.A.R.T?

Jacek Osiecki

unread,

Nov 5, 2007, 12:08:08 PM11/5/07

to

Witam,

Właśnie dzisiaj mój dysk - Samsung Spinpoint SP2504C - zaczął robić "cyk,
cyk, cyk"... W momencie takiego "cyk" transmisja z dysku się zatrzymuje,
więc ewidentnie jest coś na rzeczy. Ale, co ciekawe - nie ma żadnych błędów
odczytu, dmesg (pracuję pod linuxem) nie pokazuje jakichkolwiek komunikatów
typowych dla padającego dysku. Podejrzewam jednak, że ów niedługo padnie -
normalny dysk się tak nie zachowuje :)

Będę dziś w nocy skanował go w poszukiwaniu badblocków, ale podejrzewam że
niewiele to da. Sięgnąłem więc po SMART... No i niestety wiele z tego nie
rozumiem :)

Czy ktoś obeznany w liczbach podawanych przez S.M.A.R.T byłby w stanie
stwierdzić, czy coś tu jest nie tak? Byłbym wdzięczny...

=== START OF INFORMATION SECTION ===
Model Family: SAMSUNG SpinPoint P120 series
Device Model: SAMSUNG SP2504C
Serial Number: S09QJ1JL320159
Firmware Version: VT100-33
User Capacity: 250,058,268,160 bytes
Device is: In smartctl database [for details use: -P show]

MODEL: SAMSUNG SP2504C
FIRMWARE: VT100-33
match smartmontools Drive Database entry:
MODEL REGEXP: ^SAMSUNG SP(16[01]3|2[05][01]4)[CN]$
FIRMWARE REGEXP: .*
MODEL FAMILY: SAMSUNG SpinPoint P120 series
ATTRIBUTE OPTIONS: None preset; no -v options are required.

ATA Version is: 7
ATA Standard is: ATA/ATAPI-7 T13 1532D revision 4a
Local Time is: Mon Nov 5 18:04:34 2007 CET
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

General SMART Values:
Offline data collection status: (0x84) Offline data collection activity
was suspended by an interrupting command from host.
Auto Offline Data Collection: Enabled.
Self-test execution status: ( 0) The previous self-test routine completed
without error or no self-test has ever
been run.
Total time to complete Offline
data collection: (4973) seconds.
Offline data collection
capabilities: (0x5b) SMART execute Offline immediate.
Auto Offline data collection on/off support.
Suspend Offline collection upon new
command.
Offline surface scan supported.
Self-test supported.
No Conveyance Self-test supported.
Selective Self-test supported.
SMART capabilities: (0x0003) Saves SMART data before entering
power-saving mode.
Supports SMART auto save timer.
Error logging capability: (0x01) Error logging supported.
General Purpose Logging supported.
Short self-test routine
recommended polling time: ( 1) minutes.
Extended self-test routine
recommended polling time: ( 82) minutes.

SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE
1 Raw_Read_Error_Rate 0x000f 253 100 051 Pre-fail Always - 0
3 Spin_Up_Time 0x0007 100 100 025 Pre-fail Always - 6592
4 Start_Stop_Count 0x0032 100 100 000 Old_age Always - 142
5 Reallocated_Sector_Ct 0x0033 095 095 010 Pre-fail Always - 55
7 Seek_Error_Rate 0x000f 253 253 051 Pre-fail Always - 0
8 Seek_Time_Performance 0x0025 253 253 015 Pre-fail Offline - 0
9 Power_On_Hours 0x0032 100 100 000 Old_age Always - 5731
10 Spin_Retry_Count 0x0033 253 253 051 Pre-fail Always - 0
11 Calibration_Retry_Count 0x0012 100 002 000 Old_age Always - 527
12 Power_Cycle_Count 0x0032 100 100 000 Old_age Always - 142
190 Temperature_Celsius 0x0022 124 082 000 Old_age Always - 38
194 Temperature_Celsius 0x0022 124 082 000 Old_age Always - 38
195 Hardware_ECC_Recovered 0x001a 100 100 000 Old_age Always - 29128
196 Reallocated_Event_Count 0x0032 095 095 000 Old_age Always - 55
197 Current_Pending_Sector 0x0012 100 100 000 Old_age Always - 1
198 Offline_Uncorrectable 0x0030 253 253 000 Old_age Offline - 0
199 UDMA_CRC_Error_Count 0x003e 200 200 000 Old_age Always - 0
200 Multi_Zone_Error_Rate 0x000a 253 100 000 Old_age Always - 0
201 Soft_Read_Error_Rate 0x000a 253 100 000 Old_age Always - 0
202 TA_Increase_Count 0x0032 253 253 000 Old_age Always - 0

SMART Error Log Version: 1
No Errors Logged

SMART Self-test log structure revision number 1
No self-tests have been logged. [To run self-tests, use: smartctl -t]

SMART Selective Self-Test Log Data Structure Revision Number (0) should be 1
SMART Selective self-test log data structure revision number 0
Warning: ATA Specification requires selective self-test log data structure revision number = 1
SPAN MIN_LBA MAX_LBA CURRENT_TEST_STATUS
1 0 0 Not_testing
2 0 0 Not_testing
3 0 0 Not_testing
4 0 0 Not_testing
5 0 0 Not_testing
Selective self-test flags (0x0):
After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.

Pozdrawiam,
--
Jacek Osiecki jos...@ceti.pl GG:3828944
"To nie logika, to polityka"
(c) Kabaret pod Wydrwigroszem 2006

Marcin Kocur

unread,

Nov 5, 2007, 1:36:16 PM11/5/07

to

Osoba Jacek Osiecki napisała na pl.comp.pecet:

Po pierwsze takie coś wklejaj na odpowiednie serwisy, bo tak ciężko się
połapać. Co jest z dyskiem?

196 Reallocated_Event_Count 0x0032 095 095 000 Old_age
Always - 55

Na pewno 55 sektorów jest uszkodzonych, zostały one zastąpione przez
zapasowe

197 Current_Pending_Sector 0x0012 100 100 000 Old_age
Always - 1

Na pewno jeden jest w trakcie przenoszenia (znajdują się na nim dane,
więc dopiero po nadpisaniu tego sektora może on zostać zastąpiony.

> SMART Error Log Version: 1
> No Errors Logged
>
> SMART Self-test log structure revision number 1
> No self-tests have been logged. [To run self-tests, use: smartctl -t]

No i na pewno nie przeprowadziłeś żadnych testów smarta. Zamiast
badblocks (który wcale nie jest złym programem) możesz użyć właśnie
takiego testu. Odpala się go mniej więcej tak:
smartctl -t=long /dev/hda. Informację o postępach uzyskasz każdorazowo
przy smartctl -a /dev/hda. Polecam man smartctl, stronę
http://apcoln.linuxpl.org/doku.php?id=smart i porównanie ze sprawnym
dyskiem http://www.wklej.org/id/330c49aaad. No i linuksowe grupy
dyskusyjne, bo tutaj nie uzyskałem odpowiedzi na pytania związane z
wyjściem smartctl.

Acha, jeśli możesz zbackupować dane z tego dysku, oczywiście zrób to jak
najszybciej. Aby wymusić zastąpienie uszkodzonych sektorów, możesz
nadpisać dysk zerami dd if=/dev/hda of=/dev/zero (czy jakoś tak), albo
użyć kilkukrotnego destrukcyjnego testu zapisu badblocks (opcja w
bodajże).

--
Pozdrawiam
Marcin Kocur

Jacek Osiecki

unread,

Nov 5, 2007, 2:26:07 PM11/5/07

to

Dnia Mon, 05 Nov 2007 19:36:16 +0100, Marcin Kocur napisał(a):
> Osoba Jacek Osiecki napisała na pl.comp.pecet:

> Po pierwsze takie coś wklejaj na odpowiednie serwisy, bo tak ciężko się
> połapać. Co jest z dyskiem?

Hmm, uznałem że chyba więcej pożytku z takiego wątku na pececie ;)
Tym bardziej, że różniaste fora często są martwe, ciężko komuś nie
siedzącemu w temacie wywnioskować gdzie warto napisać... No i tradycyjnie
trzeba na każdym kolejnym forum się rejestrować grrr :)

> 196 Reallocated_Event_Count 0x0032 095 095 000 Old_age
> Always - 55
> Na pewno 55 sektorów jest uszkodzonych, zostały one zastąpione przez
> zapasowe

Hmm, właśnie ten parametr wydał mi się nieco podejrzany :)

> 197 Current_Pending_Sector 0x0012 100 100 000 Old_age
> Always - 1
> Na pewno jeden jest w trakcie przenoszenia (znajdują się na nim dane,
> więc dopiero po nadpisaniu tego sektora może on zostać zastąpiony.

Czy to już jest wystarczająca przesłanka do wymiany dysku na gwarancji?
Z tego co pamiętam to na ten dysk była gwarancja trzyletnia...

>> SMART Error Log Version: 1
>> No Errors Logged

>> SMART Self-test log structure revision number 1
>> No self-tests have been logged. [To run self-tests, use: smartctl -t]

> No i na pewno nie przeprowadziłeś żadnych testów smarta.

Ditto.

> Zamiast badblocks (który wcale nie jest złym programem) możesz użyć
> właśnie takiego testu. Odpala się go mniej więcej tak:
> smartctl -t=long /dev/hda. Informację o postępach uzyskasz każdorazowo
> przy smartctl -a /dev/hda. Polecam man smartctl, stronę

Dzięki, będę testował.
Za dwa dni będę akurat się wybierał w okolice sklepu gdzie kupiłem dysk,
to wtedy kupię nowy a ten oddam do serwisu...

> Acha, jeśli możesz zbackupować dane z tego dysku, oczywiście zrób to jak
> najszybciej.

Backup się zaczął w 5 minut od pierwszego cyk-cyk ;)

> Aby wymusić zastąpienie uszkodzonych sektorów, możesz
> nadpisać dysk zerami dd if=/dev/hda of=/dev/zero (czy jakoś tak), albo
> użyć kilkukrotnego destrukcyjnego testu zapisu badblocks (opcja w
> bodajże).

Aż tak mi się nie chce, generalnie po prostu chcę mieć jakieś dowody na
wadliwą pracę dysku - mam nadzieję że te informacje ze smarta wystarczą :)

Marcin Kocur

unread,

Nov 5, 2007, 2:39:54 PM11/5/07

to

Osoba Jacek Osiecki napisała na pl.comp.pecet:

> Dnia Mon, 05 Nov 2007 19:36:16 +0100, Marcin Kocur napisał(a):
>> Osoba Jacek Osiecki napisała na pl.comp.pecet:
>
>> Po pierwsze takie coś wklejaj na odpowiednie serwisy, bo tak ciężko
>> się połapać. Co jest z dyskiem?
>
> Hmm, uznałem że chyba więcej pożytku z takiego wątku na pececie ;)
> Tym bardziej, że różniaste fora często są martwe, ciężko komuś nie
> siedzącemu w temacie wywnioskować gdzie warto napisać... No i
> tradycyjnie trzeba na każdym kolejnym forum się rejestrować grrr :)

Nie nie, miałem na myśli serwisy typu http://pastebin.com/

>
> Czy to już jest wystarczająca przesłanka do wymiany dysku na
> gwarancji? Z tego co pamiętam to na ten dysk była gwarancja
> trzyletnia...

Noo... nie. Przesłanka będzie wtedy, gdy tych sektorów (zapasowych)
zabraknie i te uszkodzone staną się widoczne dla systemu. Musisz
niestety przeprowadzić kilka testów no i najlepiej nadpisać ten dysk,
znowu przetestować i przeanalizować wyniki. Albo go oddaj, i tak
pójdzie pod młotek ;)

>> No i na pewno nie przeprowadziłeś żadnych testów smarta.
>
> Ditto.

Albo to coś z łaciny, albo... pokémon, przynajmniej wg Wikipedii ;)

>> Acha, jeśli możesz zbackupować dane z tego dysku, oczywiście zrób to
>> jak najszybciej.
>
> Backup się zaczął w 5 minut od pierwszego cyk-cyk ;)

No i źle, on powinien był być już gotowy ;)

--
Pozdrawiam
Marcin Kocur

Kamikazee

unread,

Nov 5, 2007, 3:31:41 PM11/5/07

to

Marcin Kocur pisze:

> znowu przetestować i przeanalizować wyniki. Albo go oddaj, i tak
> pójdzie pod młotek ;)

Znaczy się trafi na alledrogo jako nietestowany.

Marcin Kocur

unread,

Nov 5, 2007, 4:11:51 PM11/5/07

to

Osoba Kamikazee napisała na pl.comp.pecet:

Nie, trafi do serwisu, gdzie nikt go nie przetestuje. Związek
frazeologiczny pod młotek ma tutaj tym razem inne znaczenie :]
--
Pozdrawiam
Marcin Kocur

Jacek Osiecki

unread,

Nov 5, 2007, 6:38:07 PM11/5/07

to

Dnia Mon, 05 Nov 2007 20:39:54 +0100, Marcin Kocur napisał(a):
> Osoba Jacek Osiecki napisała na pl.comp.pecet:

>>> Po pierwsze takie coś wklejaj na odpowiednie serwisy, bo tak ciężko
>>> się połapać. Co jest z dyskiem?
>> Hmm, uznałem że chyba więcej pożytku z takiego wątku na pececie ;)

> Nie nie, miałem na myśli serwisy typu http://pastebin.com/

Hmm, ale tam chyba nie bardzo to pasuje - z tego co zrozumiałem z pobieżnej
lektury, to tam się debuguje kod :)

>> Czy to już jest wystarczająca przesłanka do wymiany dysku na
>> gwarancji? Z tego co pamiętam to na ten dysk była gwarancja
>> trzyletnia...
> Noo... nie. Przesłanka będzie wtedy, gdy tych sektorów (zapasowych)
> zabraknie i te uszkodzone staną się widoczne dla systemu.

No, ale chyba w połączeniu z "cyk-trrrrr..." to już jest jakaś przesłanka? :)
Swoją drogą, odpaliłem ten test - tylko nie bardzo widzę jaki jest jego
status...

Natomiast teraz przy smartctl -a jest trochę zmian:
- Raw_Read_Error_Rate ma wartość "1", wcześniej było "0"
- Hardware_ECC_Recovered ma wartość "3396608" a było "29128" - spora zmiana...

I jeszcze to:

SMART Self-test log structure revision number 1

Num Test_Description Status Remaining LifeTime(hours) LBA_of_first_error
# 1 Extended offline Completed: read failure 90% 5733 -

Chyba zapuszczę non-destructive badblocks, może coś znajdzie...
W dmesg nadal ani śladu problemów.

Marcin Kocur

unread,

Nov 6, 2007, 9:39:00 AM11/6/07

to

Osoba Jacek Osiecki napisała na pl.comp.pecet:

> Dnia Mon, 05 Nov 2007 20:39:54 +0100, Marcin Kocur napisał(a):
>> Osoba Jacek Osiecki napisała na pl.comp.pecet:
>
>>>> Po pierwsze takie coś wklejaj na odpowiednie serwisy, bo tak ciężko
>>>> się połapać. Co jest z dyskiem?
>>> Hmm, uznałem że chyba więcej pożytku z takiego wątku na pececie ;)
>> Nie nie, miałem na myśli serwisy typu http://pastebin.com/
> Hmm, ale tam chyba nie bardzo to pasuje - z tego co zrozumiałem z
> pobieżnej lektury, to tam się debuguje kod :)

Grr. Wklejasz log na taki serwis, podsyłasz linka i już na grupie można
sobie pooglądać nierozjechany output.

>
>>> Czy to już jest wystarczająca przesłanka do wymiany dysku na
>>> gwarancji? Z tego co pamiętam to na ten dysk była gwarancja
>>> trzyletnia...
>> Noo... nie. Przesłanka będzie wtedy, gdy tych sektorów (zapasowych)
>> zabraknie i te uszkodzone staną się widoczne dla systemu.
>
> No, ale chyba w połączeniu z "cyk-trrrrr..." to już jest jakaś
> przesłanka? :)

;)

> Swoją drogą, odpaliłem ten test - tylko nie bardzo
> widzę jaki jest jego status...

Można go dostać przez smartctl -a :

>
> Natomiast teraz przy smartctl -a jest trochę zmian:
> - Raw_Read_Error_Rate ma wartość "1", wcześniej było "0"
> - Hardware_ECC_Recovered ma wartość "3396608" a było "29128" - spora
> zmiana...

To akurat nie ma większego znaczenia.

>
> I jeszcze to:
> SMART Self-test log structure revision number 1
> Num Test_Description Status Remaining
> LifeTime(hours) LBA_of_first_error
> # 1 Extended offline Completed: read failure 90% 5733

> # -
A tu masz wspomniany status. Completed: read failure to Twoja
przesłanka, a właściwie dowód. Dysk jest niesprawny. Powinno być tak
jak tu http://www.wklej.org/id/330c49aaad linia 168.

>
> Chyba zapuszczę non-destructive badblocks, może coś znajdzie...
> W dmesg nadal ani śladu problemów.

W tej chwili to już bez znaczenia.

--
Pozdrawiam
Marcin Kocur

gotar

unread,

Nov 9, 2007, 5:14:50 AM11/9/07

to

Jacek Osiecki <jos...@ceti.pl> wrote:

> typowych dla padającego dysku. Podejrzewam jednak, że ów niedługo padnie -
> normalny dysk się tak nie zachowuje :)

> 5 Reallocated_Sector_Ct 0x0033 095 095 010 Pre-fail Always - 55

Nie używaj go do niczego bardziej cennego niż śmieszne filmiki
ściągnięte z sieci.

A reszta wygląda dobrze.

--
Tomek http://tccs.sourceforge.net/
http://pld-linux.org/ http://vfmg.sourceforge.net/

gotar

unread,

Nov 9, 2007, 5:16:47 AM11/9/07

to

Jacek Osiecki <jos...@ceti.pl> wrote:

> Natomiast teraz przy smartctl -a jest trochę zmian:
> - Raw_Read_Error_Rate ma wartość "1", wcześniej było "0"
> - Hardware_ECC_Recovered ma wartość "3396608" a było "29128" - spora zmiana...

To często oznacza słabej jakości kable.

Marcin Kocur

unread,

Nov 11, 2007, 11:24:40 AM11/11/07

to

Osoba gotar napisała na pl.comp.pecet:

> Jacek Osiecki <jos...@ceti.pl> wrote:
>
>> Natomiast teraz przy smartctl -a jest trochę zmian:
>> - Raw_Read_Error_Rate ma wartość "1", wcześniej było "0"
>> - Hardware_ECC_Recovered ma wartość "3396608" a było "29128" - spora
>> zmiana...
>
> To często oznacza słabej jakości kable.
>

O, a to ciekawa sugestia. Żeby było jeszcze ciekawiej, u mnie te
wartości występowały tylko na dyskach Maxtora i Seagate (to samo). W
Samsungu nie dzieją się takie rzeczy. Innych firm nie sprawdzałem.
--
Pozdrawiam
Marcin Kocur

Jacek Osiecki

unread,

Nov 15, 2007, 2:24:21 AM11/15/07

to

Dnia Fri, 9 Nov 2007 11:14:50 +0100, gotar napisał(a):
> Jacek Osiecki <jos...@ceti.pl> wrote:
>> typowych dla padającego dysku. Podejrzewam jednak, że ów niedługo padnie -
>> normalny dysk się tak nie zachowuje :)
>> 5 Reallocated_Sector_Ct 0x0033 095 095 010 Pre-fail Always - 55
> Nie używaj go do niczego bardziej cennego niż śmieszne filmiki
> ściągnięte z sieci.

Dzięki wszystkim za odpowiedzi - dane są bezpieczne, a po uruchomieniu
zwykłego testowania badblocków dysk się zwiesił. Potem już za każdym razem
znajdywało te badblocki, tak więc poszedł do wymiany :)
Szkoda że serwisy robią klientów na szaro i każą czekać maksymalny czas...

Tomasz Potega

unread,

Nov 15, 2007, 3:26:50 AM11/15/07

to

gotar wrote:
>> Natomiast teraz przy smartctl -a jest trochę zmian:
>> - Raw_Read_Error_Rate ma wartość "1", wcześniej było "0"
>> - Hardware_ECC_Recovered ma wartość "3396608" a było "29128" - spora zmiana...
> To często oznacza słabej jakości kable.

Przy tego typu podejrzeniach warto raczej zwrócić uwagę na
UDMA_CRC_Error_Count...

pozdrowienia,
shadow