Google Groups no longer supports new Usenet posts or subscriptions. Historical content remains viewable.
Dismiss

Диску скоро капут?

2 views
Skip to first unread message

artiom

unread,
Jun 16, 2021, 5:30:03 PM6/16/21
to
Ноут Asus Zenbook U310U. Диск sda:

```
*-disk:0
description: ATA Disk
product: ST1000LM035-1RK1
physical id: 0
bus info: scsi@0:0.0.0
logical name: /dev/sda
version: SDM1
serial: WCB0R70V
size: 931GiB (1TB)
capabilities: gpt-1.00 partitioned partitioned:gpt
configuration: ansiversion=5
guid=aa9dfad3-a0a0-4243-ae53-8e93af8eefc1 logicalsectorsize=512
sectorsize=4096
```

Почему-то стоял discard в fstab, при монтировании /home.
Провёл fsck, на диске бэды.
В процессе работы fsck вываливаются ATA ошибки, которые не фиксируются в
логе.

Капут ли диску?

Лог fsck:

```
fsck from util-linux 2.33.1
home_fs: Updating bad block inode.
home_fs: Duplicate or bad block in use!
home_fs: Multiply-claimed block(s) in inode 5242929: 220200900
home_fs: Multiply-claimed block(s) in inode 40894466: 32127845 32129072
32129087--32129092 32129094 32129206 32129335--32129336
home_fs: Multiply-claimed block(s) in inode 40946001: 32265779 32265786
home_fs: Multiply-claimed block(s) in inode 40953847: 30906067
home_fs: Multiply-claimed block(s) in inode 40995387: 69568162
69568181--69568182 69568195
home_fs: Multiply-claimed block(s) in inode 41334470: 220220442--220220446
home_fs: Multiply-claimed block(s) in inode 43861431: 220220896--220220897
home_fs: Multiply-claimed block(s) in inode 52824254: 100699255
home_fs: Multiply-claimed block(s) in inode 54923806: 220021920
home_fs: Multiply-claimed block(s) in inode 54923863: 220022050--220022051
home_fs: Multiply-claimed block(s) in inode 55147267: 53764774
home_fs: Multiply-claimed block(s) in inode 55341409: 78955690--78955691
home_fs: Multiply-claimed block(s) in inode 57940837: 232277364
home_fs: Multiply-claimed block(s) in inode 57940842: 232277363
home_fs: Multiply-claimed block(s) in inode 57940848: 232277369--232277371
home_fs: Multiply-claimed block(s) in inode 57940849:
232277385--232277388 232277409--232277414 232277417 232277426--232277429
232277434--232277436 232277440 232277443 232277477 232277479--232277480
home_fs: Multiply-claimed block(s) in inode 57940850:
232277487--232277488 232277496 232277515
home_fs: Multiply-claimed block(s) in inode 57940873: 232277539
home_fs: (There are 18 inodes containing multiply-claimed blocks.)

home_fs: File
/vmachines/windows/10/main/w10_main/windows_system-000001.vmdk (inode
#5242929, mod time Tue Jun 9 22:48:01 2020)
has 1 multiply-claimed block(s), shared with 1 file(s):
home_fs: <The bad blocks inode> (inode #1, mod time Wed Jun 16 11:29:00
2021)
home_fs:

home_fs: UNEXPECTED INCONSISTENCY; RUN fsck MANUALLY.
(i.e., without -a or -p options)
```

Eugene Berdnikov

unread,
Jun 16, 2021, 6:20:03 PM6/16/21
to
On Thu, Jun 17, 2021 at 12:18:58AM +0300, artiom wrote:
> Провёл fsck, на диске бэды.
> В процессе работы fsck вываливаются ATA ошибки, которые не фиксируются в
> логе.
>
> Капут ли диску?

Чтобы сказать, капут ли диску, нужно смотреть состояние диска, а не
файловой системы на нём. Потому что ошибки уровня ATA и разрушение fs
могут произойти и при рабочем диске, например, при капуте контроллера
на материнке и даже окислении контактов на шлейфе. Поэтому в идеале
желательно вынуть диск, вставить его в проверенную машину, посмотреть
smart (особенно reallocated sectors count) и погонять badblocks.
--
Eugene Berdnikov

artiom

unread,
Jun 16, 2021, 6:30:02 PM6/16/21
to
Запустил тесты. Завтра пришлю результат. Судя по обзорам, диск этот - говно.


17.06.2021 01:03, sergio пишет:
> SMART в студию.
> И прогоните все тесты перед этим smartctl -t {short|long|conveyance}
> /dev/sdX
>

sergio

unread,
Jun 16, 2021, 6:30:02 PM6/16/21
to
SMART в студию.
И прогоните все тесты перед этим smartctl -t {short|long|conveyance}
/dev/sdX

--
sergio.

artiom

unread,
Jun 16, 2021, 6:40:03 PM6/16/21
to
Да, вероятность такого есть. Раньше была нерабочая система охлаждения,
всё грелось.
Но сейчас лето, в комнате порядка 27 C, а ноут работает в закрытом
состоянии (подключен к внешке через KVM), что не вполне штатный режим.
И уже выключался от перегрева.

В проверенную машину вставить могу только сильно позже: что в работе, то
работает, не могу пока отключать, ну и второй ноут разбирать - не вариант.
Пока запустил long SMART.
Завтра будут результаты.

Не в пользу шлейфа или контроллера говорит то, что ошибки появляются
достаточно стабильно, хотя и по субъективным ощущениям, примерно в одних
и тех же местах (по времени, когда гоняю fsck).


17.06.2021 01:06, Eugene Berdnikov пишет:

Nefedo...@jinr.ru

unread,
Jun 16, 2021, 6:40:03 PM6/16/21
to
On Thu, 17 Jun 2021, artiom wrote:

> Ноут Asus Zenbook U310U. Диск sda:
>
> ```
> *-disk:0
> description: ATA Disk
> product: ST1000LM035-1RK1
> physical id: 0
> bus info: scsi@0:0.0.0
> logical name: /dev/sda
> version: SDM1
> serial: WCB0R70V
> size: 931GiB (1TB)
> capabilities: gpt-1.00 partitioned partitioned:gpt
> configuration: ansiversion=5
> guid=aa9dfad3-a0a0-4243-ae53-8e93af8eefc1 logicalsectorsize=512
> sectorsize=4096
> ```
>
> Почему-то стоял discard в fstab, при монтировании /home.

Это не важно, для не ssd дисков просто игнорируется.

> Провёл fsck, на диске бэды.
> В процессе работы fsck вываливаются ATA ошибки, которые не фиксируются в
> логе.

Что за ошибки и где вы их видите?
Ну так и запустите fsck /dev/sda1

Multiply-claimed block(s) означает, что несколько файлов ссылаются на
один блок данных, что он их, хотя такого быть не должно.
Скорее всего эти файлы будут запорчены, но вот почему такое случилось
и вина ли в этом физического диска сомнительны.

Ю.

artiom

unread,
Jun 16, 2021, 6:50:02 PM6/16/21
to
> Это не важно, для не ssd дисков просто игнорируется.

Убрал всё-таки, чтобы не было лишнего.


> Что за ошибки и где вы их видите?

Когда:

- Запускается fsck на первой консоли в SU режиме.
- Комп начинает глючить и лагать в графическом MU режиме, переключаюсь
на 1 консоль, и видно, что ядро выбрасывает кучу SATA ошибок (после -
только перезагрузка).

Что интересно: в dmesg ошибок SATA нет.
Зато, есть проблемы с ACPI (это Asus, больше не куплю такое):

```
[ 216.420174] battery: ACPI: Battery Slot [BAT0] (battery present)
[ 216.442356] tpm_crb MSFT0101:00: [Firmware Bug]: ACPI region does not
cover the entire command/response buffer. [mem 0xfed40000-0xfed4087f
flags 0x200] vs fed40080 f80
[ 216.442364] tpm_crb MSFT0101:00: [Firmware Bug]: ACPI region does not
cover the entire command/response buffer. [mem 0xfed40000-0xfed4087f
flags 0x200] vs fed40080 f80
...
[ 229.145201] acpi_call: Cannot get handle: Error: AE_NOT_FOUND
[ 229.169945] acpi_call: Cannot get handle: Error: AE_NOT_FOUND
```

Кроме того, у этого ноута есть проблемы с RAM. Он перестаёт видеть
дополнительную память. На первой загрузке видит. Потом - нет.
Думал, проблема в RAM, заказал немецкую, совместимость заявлена с этим
ноутом была. Тоже самое: после установки видит, а следующая перезагрузка
всё ломает.

Также запустил SMART long test. Уже видно, что были ошибки. Так что, с
диском есть проблемы.
Купил только что барракуду на замену и внешний SSD для переписывания, на
всякий случай.


17.06.2021 01:03, Nefedo...@jinr.ru пишет:

artiom

unread,
Jun 17, 2021, 1:00:03 PM6/17/21
to


17.06.2021 01:03, sergio пишет:
> SMART в студию.
> И прогоните все тесты перед этим smartctl -t {short|long|conveyance}
> /dev/sdX
>


smartctl -a /dev/sda
smartctl 6.6 2017-11-05 r4594 [x86_64-linux-4.19.0-16-amd64] (local build)
Copyright (C) 2002-17, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF INFORMATION SECTION ===
Device Model: ST1000LM035-1RK172
Serial Number:
LU WWN Device Id:
Firmware Version: SDM1
User Capacity: 1 000 204 886 016 bytes [1,00 TB]
Sector Sizes: 512 bytes logical, 4096 bytes physical
Rotation Rate: 5400 rpm
Form Factor: 2.5 inches
Device is: Not in smartctl database [for details use: -P showall]
ATA Version is: ACS-3 T13/2161-D revision 3b
SATA Version is: SATA 3.1, 6.0 Gb/s (current: 6.0 Gb/s)
Local Time is: Thu Jun 17 19:54:18 2021 MSK
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED
See vendor-specific Attribute list for marginal Attributes.

General SMART Values:
Offline data collection status: (0x82) Offline data collection activity
was completed without error.
Auto Offline Data Collection:
Enabled.
Self-test execution status: ( 0) The previous self-test routine
completed
without error or no self-test
has ever
been run.
Total time to complete Offline
data collection: ( 0) seconds.
Offline data collection
capabilities: (0x79) SMART execute Offline immediate.
No Auto Offline data collection
support.
Suspend Offline collection upon new
command.
Offline surface scan supported.
Self-test supported.
Conveyance Self-test supported.
Selective Self-test supported.
SMART capabilities: (0x0003) Saves SMART data before entering
power-saving mode.
Supports SMART auto save timer.
Error logging capability: (0x01) Error logging supported.
General Purpose Logging supported.
Short self-test routine
recommended polling time: ( 1) minutes.
Extended self-test routine
recommended polling time: ( 168) minutes.
Conveyance self-test routine
recommended polling time: ( 2) minutes.
SCT capabilities: (0x3035) SCT Status supported.
SCT Feature Control supported.
SCT Data Table supported.

SMART Attributes Data Structure revision number: 10
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE
UPDATED WHEN_FAILED RAW_VALUE
1 Raw_Read_Error_Rate 0x000f 055 040 006 Pre-fail
Always - 195148675
3 Spin_Up_Time 0x0003 099 099 000 Pre-fail
Always - 0
4 Start_Stop_Count 0x0032 098 098 020 Old_age
Always - 2594
5 Reallocated_Sector_Ct 0x0033 070 069 036 Pre-fail
Always - 19880
7 Seek_Error_Rate 0x000f 088 060 045 Pre-fail
Always - 644435338
9 Power_On_Hours 0x0032 075 075 000 Old_age
Always - 22484 (119 0 0)
10 Spin_Retry_Count 0x0013 100 100 097 Pre-fail
Always - 0
12 Power_Cycle_Count 0x0032 098 098 020 Old_age
Always - 2249
184 End-to-End_Error 0x0032 100 100 099 Old_age Always
- 0
187 Reported_Uncorrect 0x0032 001 001 000 Old_age Always
- 437
188 Command_Timeout 0x0032 100 097 000 Old_age Always
- 236227395654
189 High_Fly_Writes 0x003a 100 100 000 Old_age Always
- 0
190 Airflow_Temperature_Cel 0x0022 059 039 040 Old_age Always
In_the_past 41 (Min/Max 39/50 #7)
191 G-Sense_Error_Rate 0x0032 100 100 000 Old_age Always
- 195
192 Power-Off_Retract_Count 0x0032 100 100 000 Old_age Always
- 140
193 Load_Cycle_Count 0x0032 062 062 000 Old_age Always
- 77186
194 Temperature_Celsius 0x0022 041 061 000 Old_age Always
- 41 (0 13 0 0 0)
197 Current_Pending_Sector 0x0012 096 090 000 Old_age Always
- 344
198 Offline_Uncorrectable 0x0010 096 090 000 Old_age
Offline - 344
199 UDMA_CRC_Error_Count 0x003e 200 200 000 Old_age Always
- 0
240 Head_Flying_Hours 0x0000 100 253 000 Old_age
Offline - 22279 (64 40 0)
241 Total_LBAs_Written 0x0000 100 253 000 Old_age
Offline - 23821699901
242 Total_LBAs_Read 0x0000 100 253 000 Old_age
Offline - 39392795114
254 Free_Fall_Sensor 0x0032 100 100 000 Old_age Always
- 0

SMART Error Log Version: 1
ATA Error Count: 437 (device log contains only the most recent five errors)
CR = Command Register [HEX]
FR = Features Register [HEX]
SC = Sector Count Register [HEX]
SN = Sector Number Register [HEX]
CL = Cylinder Low Register [HEX]
CH = Cylinder High Register [HEX]
DH = Device/Head Register [HEX]
DC = Device Command Register [HEX]
ER = Error register [HEX]
ST = Status register [HEX]
Powered_Up_Time is measured from power on, and printed as
DDd+hh:mm:SS.sss where DD=days, hh=hours, mm=minutes,
SS=sec, and sss=millisec. It "wraps" after 49.710 days.

Error 437 occurred at disk power-on lifetime: 22464 hours (936 days + 0
hours)
When the command that caused the error occurred, the device was
active or idle.

After command completion occurred, registers were:
ER ST SC SN CL CH DH
-- -- -- -- -- -- --
40 51 00 ff ff ff 0f Error: UNC at LBA = 0x0fffffff = 268435455

Commands leading to the command that caused the error were:
CR FR SC SN CL CH DH DC Powered_Up_Time Command/Feature_Name
-- -- -- -- -- -- -- -- ---------------- --------------------
60 00 08 ff ff ff 4f 00 13:10:13.272 READ FPDMA QUEUED
ef 10 02 00 00 00 a0 00 13:10:13.262 SET FEATURES [Enable SATA
feature]
27 00 00 00 00 00 e0 00 13:10:13.236 READ NATIVE MAX ADDRESS
EXT [OBS-ACS-3]
ec 00 00 00 00 00 a0 00 13:10:13.234 IDENTIFY DEVICE
ef 03 46 00 00 00 a0 00 13:10:13.222 SET FEATURES [Set transfer
mode]

Error 436 occurred at disk power-on lifetime: 22464 hours (936 days + 0
hours)
When the command that caused the error occurred, the device was
active or idle.

After command completion occurred, registers were:
ER ST SC SN CL CH DH
-- -- -- -- -- -- --
40 51 00 ff ff ff 0f Error: UNC at LBA = 0x0fffffff = 268435455

Commands leading to the command that caused the error were:
CR FR SC SN CL CH DH DC Powered_Up_Time Command/Feature_Name
-- -- -- -- -- -- -- -- ---------------- --------------------
60 00 08 ff ff ff 4f 00 13:10:13.038 READ FPDMA QUEUED
ef 10 02 00 00 00 a0 00 13:10:13.009 SET FEATURES [Enable SATA
feature]
27 00 00 00 00 00 e0 00 13:10:12.982 READ NATIVE MAX ADDRESS
EXT [OBS-ACS-3]
ec 00 00 00 00 00 a0 00 13:10:12.981 IDENTIFY DEVICE
ef 03 46 00 00 00 a0 00 13:10:12.968 SET FEATURES [Set transfer
mode]

Error 435 occurred at disk power-on lifetime: 22464 hours (936 days + 0
hours)
When the command that caused the error occurred, the device was
active or idle.

After command completion occurred, registers were:
ER ST SC SN CL CH DH
-- -- -- -- -- -- --
40 51 00 ff ff ff 0f Error: UNC at LBA = 0x0fffffff = 268435455

Commands leading to the command that caused the error were:
CR FR SC SN CL CH DH DC Powered_Up_Time Command/Feature_Name
-- -- -- -- -- -- -- -- ---------------- --------------------
60 00 08 ff ff ff 4f 00 13:10:12.821 READ FPDMA QUEUED
ef 10 02 00 00 00 a0 00 13:10:12.811 SET FEATURES [Enable SATA
feature]
27 00 00 00 00 00 e0 00 13:10:12.785 READ NATIVE MAX ADDRESS
EXT [OBS-ACS-3]
ec 00 00 00 00 00 a0 00 13:10:12.783 IDENTIFY DEVICE
ef 03 46 00 00 00 a0 00 13:10:12.771 SET FEATURES [Set transfer
mode]

Error 434 occurred at disk power-on lifetime: 22464 hours (936 days + 0
hours)
When the command that caused the error occurred, the device was
active or idle.

After command completion occurred, registers were:
ER ST SC SN CL CH DH
-- -- -- -- -- -- --
40 51 00 ff ff ff 0f Error: UNC at LBA = 0x0fffffff = 268435455

Commands leading to the command that caused the error were:
CR FR SC SN CL CH DH DC Powered_Up_Time Command/Feature_Name
-- -- -- -- -- -- -- -- ---------------- --------------------
60 00 08 ff ff ff 4f 00 13:10:12.571 READ FPDMA QUEUED
ef 10 02 00 00 00 a0 00 13:10:12.547 SET FEATURES [Enable SATA
feature]
27 00 00 00 00 00 e0 00 13:10:12.520 READ NATIVE MAX ADDRESS
EXT [OBS-ACS-3]
ec 00 00 00 00 00 a0 00 13:10:12.519 IDENTIFY DEVICE
ef 03 46 00 00 00 a0 00 13:10:12.506 SET FEATURES [Set transfer
mode]

Error 433 occurred at disk power-on lifetime: 22464 hours (936 days + 0
hours)
When the command that caused the error occurred, the device was
active or idle.

After command completion occurred, registers were:
ER ST SC SN CL CH DH
-- -- -- -- -- -- --
40 51 00 ff ff ff 0f Error: UNC at LBA = 0x0fffffff = 268435455

Commands leading to the command that caused the error were:
CR FR SC SN CL CH DH DC Powered_Up_Time Command/Feature_Name
-- -- -- -- -- -- -- -- ---------------- --------------------
60 00 08 ff ff ff 4f 00 13:10:12.370 READ FPDMA QUEUED
ef 10 02 00 00 00 a0 00 13:10:12.361 SET FEATURES [Enable SATA
feature]
27 00 00 00 00 00 e0 00 13:10:12.334 READ NATIVE MAX ADDRESS
EXT [OBS-ACS-3]
ec 00 00 00 00 00 a0 00 13:10:12.332 IDENTIFY DEVICE
ef 03 46 00 00 00 a0 00 13:10:12.320 SET FEATURES [Set transfer
mode]

SMART Self-test log structure revision number 1
Num Test_Description Status Remaining
LifeTime(hours) LBA_of_first_error
# 1 Short offline Completed without error 00% 22482
-
# 2 Conveyance offline Completed without error 00% 22468
-
# 3 Extended offline Completed: read failure 90% 22466
255872552
# 4 Extended offline Completed: read failure 90% 13732
430032136
# 5 Short offline Completed without error 00% 6
-

SMART Selective self-test log data structure revision number 1
SPAN MIN_LBA MAX_LBA CURRENT_TEST_STATUS
1 0 0 Not_testing
2 0 0 Not_testing
3 0 0 Not_testing
4 0 0 Not_testing
5 0 0 Not_testing
Selective self-test flags (0x0):
After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.

sergio

unread,
Jun 17, 2021, 1:10:03 PM6/17/21
to
> Диску скоро капут?

Уже.

--
sergio.

Anton Gorlov

unread,
Jun 17, 2021, 1:30:03 PM6/17/21
to
17.06.2021 19:55, artiom пишет:

Судя по

> 5 Reallocated_Sector_Ct   0x0033   070   069   036    Pre-fail
> Always       -       19880

и

> 197 Current_Pending_Sector 0x0012 096 090 000 Old_age
Always - 344
> 198 Offline_Uncorrectable 0x0010 096 090 000 Old_age
Offline - 344

И тому что это сиагейт -> пора на покой.

artiom

unread,
Jun 17, 2021, 7:20:02 PM6/17/21
to
Буду надеяться, что до 23 числа доживёт.
Копирование, я так понимаю, лучше пофайловое делать?
С учётом того, что там LUKS раздел.


17.06.2021 20:06, sergio пишет:
> > Диску скоро капут?
>
> Уже.
>

artiom

unread,
Jun 17, 2021, 7:30:03 PM6/17/21
to
Понятно, значит не зря барракуду на замену купил.


17.06.2021 20:05, Anton Gorlov пишет:
0 new messages