USB SSD (an remote Raspi)

1 view
Skip to first unread message

Jan Novak

unread,
Sep 20, 2021, 6:08:07 AM9/20/21
to
Hallo,

seit einigen Tagen bekomme ich diese Meldung von einem entfernten Raspi,
welcher von der USB SSD gebootet hat:

This message was generated by the smartd daemon running on:

host name: [...]
DNS domain: [...]

The following warning/error was logged by the smartd daemon:

Device: /dev/sda [SAT], 1 Currently unreadable (pending) sectors

Device info:
Intenso SSD SATAIII, S/N:AA000000000000000575, FW:S1022A0, 128 GB

For details see host's SYSLOG.

You can also use the smartctl utility for further investigation.
The original message about this issue was sent at Sat Sep 11 11:00:09
2021 CEST
Another message will be sent in 24 hours if the problem persists.


Es existiert im Moment und in absehbarer Zeit (min. ~6 Monate) kein
physischer Zugang zu dem System.
Kann ich die nichtlesbaren/problematischen Sektoren der SSD irgendwie
ausblenden(lassen)?

Die SSD ist wenig benutzt, ca. 1 Jahr alt und der Raspi macht dort nur
Temperaturmessung und ein paar weitere Kleinigkeiten, welche aber nicht
sehr auf der Platte rumschrubben. SWAP ist nicht vorhanden, bzw.
deaktiviert.


Jan

Sven Hartge

unread,
Sep 20, 2021, 8:41:53 AM9/20/21
to
Jan Novak <rep...@gmail.com> wrote:
> Hallo,

> seit einigen Tagen bekomme ich diese Meldung von einem entfernten Raspi,
> welcher von der USB SSD gebootet hat:

> This message was generated by the smartd daemon running on:

> host name: [...]
> DNS domain: [...]

> The following warning/error was logged by the smartd daemon:

> Device: /dev/sda [SAT], 1 Currently unreadable (pending) sectors

> Es existiert im Moment und in absehbarer Zeit (min. ~6 Monate) kein
> physischer Zugang zu dem System.
> Kann ich die nichtlesbaren/problematischen Sektoren der SSD irgendwie
> ausblenden(lassen)?

"unreadable (pending)" sind Sektoren, die i.d.R. nach Beschreiben
entweder wie OK sind oder automatisch von der SSD umgemappt werden.

Dies kannst du manuell auslösen, am einfachsten mit hdparm, wenn du den
genauen Sektor kennst. (Steht in der Regel im Selbst-Test-Log via
smartctl.)

Zuerst prüfen, ob man den richtigen Sektor hat:

# hdparm --read-sector 123foo456bar /dev/sda

Das sollte dann eine Fehlermeldung oder einen Timeout liefern.

Dann beherzt mittels ...

# hdparm --write-sectore 123foo456bar /dev/sda

(hdparm will noch eine weitere Option zur Sicherheit, die er dir beim
Aufruf mitteilt.)

... den Sektor überschreiben. Danach sollte ein --read-sector wieder
funktionieren und entweder sofort oder einem erneuten Long Test der
Zähler der "pending sectors" wieder auf 0 gehen.



--
Sigmentation fault. Core dumped.

Jan Novak

unread,
Sep 20, 2021, 8:56:59 AM9/20/21
to
> Dies kannst du manuell auslösen, am einfachsten mit hdparm, wenn du den
> genauen Sektor kennst. (Steht in der Regel im Selbst-Test-Log via
> smartctl.)

Wo da genau?


Habs mal so versucht (short test) und Ausgabe:

smartctl -a /dev/sda
smartctl 6.6 2017-11-05 r4594 [armv7l-linux-5.4.51-v7l+] (local build)
Copyright (C) 2002-17, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF INFORMATION SECTION ===
Device Model: Intenso SSD SATAIII
Serial Number: AA000000000000000575
Firmware Version: S1022A0
User Capacity: 128,035,676,160 bytes [128 GB]
Sector Size: 512 bytes logical/physical
Rotation Rate: Solid State Device
Form Factor: M.2
Device is: Not in smartctl database [for details use: -P showall]
ATA Version is: ACS-2 T13/2015-D revision 3
SATA Version is: SATA 3.2, 6.0 Gb/s (current: 6.0 Gb/s)
Local Time is: Mon Sep 20 14:55:11 2021 CEST
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART Status not supported: Incomplete response, ATA output registers
missing
SMART overall-health self-assessment test result: PASSED
Warning: This result is based on an Attribute check.

General SMART Values:
Offline data collection status: (0x03) Offline data collection activity
is in progress.
Auto Offline Data Collection: Disabled.
Self-test execution status: ( 246) Self-test routine in progress...
60% of test remaining.
Total time to complete Offline
data collection: ( 120) seconds.
Offline data collection
capabilities: (0x11) SMART execute Offline immediate.
No Auto Offline data collection support.
Suspend Offline collection upon new
command.
No Offline surface scan supported.
Self-test supported.
No Conveyance Self-test supported.
No Selective Self-test supported.
SMART capabilities: (0x0002) Does not save SMART data before
entering power-saving mode.
Supports SMART auto save timer.
Error logging capability: (0x01) Error logging supported.
General Purpose Logging supported.
Short self-test routine
recommended polling time: ( 2) minutes.
Extended self-test routine
recommended polling time: ( 10) minutes.

SMART Attributes Data Structure revision number: 1
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE
UPDATED WHEN_FAILED RAW_VALUE
1 Raw_Read_Error_Rate 0x0032 100 100 050 Old_age
Always - 0
5 Reallocated_Sector_Ct 0x0032 100 100 050 Old_age
Always - 1
9 Power_On_Hours 0x0032 100 100 050 Old_age
Always - 7771
12 Power_Cycle_Count 0x0032 100 100 050 Old_age
Always - 1017
160 Unknown_Attribute 0x0032 100 100 050 Old_age Always
- 0
161 Unknown_Attribute 0x0033 100 100 050 Pre-fail Always
- 97
163 Unknown_Attribute 0x0032 100 100 050 Old_age Always
- 20
164 Unknown_Attribute 0x0032 100 100 050 Old_age Always
- 6869
165 Unknown_Attribute 0x0032 100 100 050 Old_age Always
- 71
166 Unknown_Attribute 0x0032 100 100 050 Old_age Always
- 1
167 Unknown_Attribute 0x0032 100 100 050 Old_age Always
- 14
168 Unknown_Attribute 0x0032 100 100 050 Old_age Always
- 7000
169 Unknown_Attribute 0x0032 100 100 050 Old_age Always
- 100
175 Program_Fail_Count_Chip 0x0032 100 100 050 Old_age Always
- 0
176 Erase_Fail_Count_Chip 0x0032 100 100 050 Old_age Always
- 0
177 Wear_Leveling_Count 0x0032 100 100 050 Old_age Always
- 0
178 Used_Rsvd_Blk_Cnt_Chip 0x0032 100 100 050 Old_age Always
- 1
181 Program_Fail_Cnt_Total 0x0032 100 100 050 Old_age Always
- 0
182 Erase_Fail_Count_Total 0x0032 100 100 050 Old_age Always
- 0
192 Power-Off_Retract_Count 0x0032 100 100 050 Old_age Always
- 1010
194 Temperature_Celsius 0x0022 100 100 050 Old_age Always
- 40
195 Hardware_ECC_Recovered 0x0032 100 100 050 Old_age Always
- 11350
196 Reallocated_Event_Count 0x0032 100 100 050 Old_age Always
- 0
197 Current_Pending_Sector 0x0032 100 100 050 Old_age Always
- 1
198 Offline_Uncorrectable 0x0032 100 100 050 Old_age Always
- 0
199 UDMA_CRC_Error_Count 0x0032 100 100 050 Old_age Always
- 4
232 Available_Reservd_Space 0x0032 100 100 050 Old_age Always
- 97
241 Total_LBAs_Written 0x0030 100 100 050 Old_age
Offline - 9998
242 Total_LBAs_Read 0x0030 100 100 050 Old_age
Offline - 6770
245 Unknown_Attribute 0x0032 100 100 050 Old_age Always
- 17571

SMART Error Log Version: 1
Warning: ATA error count 0 inconsistent with error log pointer 1

ATA Error Count: 0
CR = Command Register [HEX]
FR = Features Register [HEX]
SC = Sector Count Register [HEX]
SN = Sector Number Register [HEX]
CL = Cylinder Low Register [HEX]
CH = Cylinder High Register [HEX]
DH = Device/Head Register [HEX]
DC = Device Command Register [HEX]
ER = Error register [HEX]
ST = Status register [HEX]
Powered_Up_Time is measured from power on, and printed as
DDd+hh:mm:SS.sss where DD=days, hh=hours, mm=minutes,
SS=sec, and sss=millisec. It "wraps" after 49.710 days.

Error 0 occurred at disk power-on lifetime: 0 hours (0 days + 0 hours)
When the command that caused the error occurred, the device was
active or idle.

After command completion occurred, registers were:
ER ST SC SN CL CH DH
-- -- -- -- -- -- --
00 00 00 00 00 00 00

Commands leading to the command that caused the error were:
CR FR SC SN CL CH DH DC Powered_Up_Time Command/Feature_Name
-- -- -- -- -- -- -- -- ---------------- --------------------
b0 d0 01 00 4f c2 00 00 00:00:00.000 SMART READ DATA
b0 d1 01 01 4f c2 00 00 00:00:00.000 SMART READ ATTRIBUTE
THRESHOLDS [OBS-4]
b0 da 00 00 4f c2 00 00 00:00:00.000 SMART RETURN STATUS
b0 d5 01 00 4f c2 00 00 00:00:00.000 SMART READ LOG
b0 d5 01 01 4f c2 00 00 00:00:00.000 SMART READ LOG

Error -4 occurred at disk power-on lifetime: 0 hours (0 days + 0 hours)
When the command that caused the error occurred, the device was doing
SMART Offline or Self-test.

After command completion occurred, registers were:
ER ST SC SN CL CH DH
-- -- -- -- -- -- --
00 00 00 00 00 00 00

Commands leading to the command that caused the error were:
CR FR SC SN CL CH DH DC Powered_Up_Time Command/Feature_Name
-- -- -- -- -- -- -- -- ---------------- --------------------
b0 d0 01 00 4f c2 00 00 00:00:00.000 SMART READ DATA
b0 d1 01 01 4f c2 00 00 00:00:00.000 SMART READ ATTRIBUTE
THRESHOLDS [OBS-4]
b0 da 00 00 4f c2 00 00 00:00:00.000 SMART RETURN STATUS
b0 d5 01 00 4f c2 00 00 00:00:00.000 SMART READ LOG
b0 d5 01 01 4f c2 00 00 00:00:00.000 SMART READ LOG

SMART Self-test log structure revision number 1
Num Test_Description Status Remaining
LifeTime(hours) LBA_of_first_error
# 1 Short offline Completed without error 00% 1
-

Selective Self-tests/Logging not supported



Jan

Sven Hartge

unread,
Sep 20, 2021, 10:47:31 AM9/20/21
to
Jan Novak <rep...@gmail.com> wrote:
>> Dies kannst du manuell auslösen, am einfachsten mit hdparm, wenn du den
>> genauen Sektor kennst. (Steht in der Regel im Selbst-Test-Log via
>> smartctl.)

> Wo da genau?

Normalerweise da:

> SMART Self-test log structure revision number 1
> Num Test_Description Status Remaining
> LifeTime(hours) LBA_of_first_error
> # 1 Short offline Completed without error 00% 1
> -

> Selective Self-tests/Logging not supported

Mach einmal einen long test und schau, ob dann werte kommen.

Marcel Mueller

unread,
Sep 21, 2021, 1:06:04 AM9/21/21
to
Am 20.09.21 um 14:56 schrieb Jan Novak:
> Device Model:     Intenso SSD SATAIII

Aua.

> 197 Current_Pending_Sector  0x0032   100   100   050    Old_age   Always
>       -       1

Die SSD hat Daten verloren.

=>

1. vollen (langen) Selbsttest laufen lassen! Es könnte weitere, latente
Datenverluse geben, die nur noch nicht bemerkt wurden, weil zufällig
noch nicht darauf zugegriffen wurde.

2. Datensicherung. Bevor man weiter darauf herumschreibt, sollte man
das, was noch geht (und man noch behalten will) sichern.

3. ermitteln zu welcher Datei der kaputte Sektor gehört. Da müsste ich
jetzt selbst recherchieren, wie das geht. Ich habe das schon ewig nicht
mehr gebraucht.
Wenn es sich un Dateisystemstrukturen handelt (nicht unwahrscheinlich,
weil die Fehler da schneller auffallen), dann kann es natürlich weitere
Dateien unerreichbar machen. Das sollte man mit einem fsck ergründen
können. Selbiges zementiert aber auch den Fehler und entfernt ggf.
kaputte Dateien.

4. Sich überlegen, was man mit dem Gerät macht. Falls es wirklich nur
ein einziger Sektor ist, kann man es als "Shit happens" abtun, die
kaputten Dateien aus anderen Quellen ersetzen und weiter machen.
Wenn es hingegen schon mehrere sind, ist es nicht unwahrscheinlich, dass
noch weitere dazu kommen. /Ich/ hätte für so eine SSD keine Verwendung
mehr. Allerdings würde ich eine Intenso-SSD auch so nicht verwenden,
schlicht weil ich in meinem Umfeld noch bei keiner anderen Marke so viel
Schrott erlebt habe. Gefühlte Ausfallquote in typischer Bertriebsdauer 50%.


Marcel

Jan Novak

unread,
Sep 21, 2021, 2:02:51 AM9/21/21
to
Am 21.09.21 um 07:06 schrieb Marcel Mueller:
> Am 20.09.21 um 14:56 schrieb Jan Novak:
>> Device Model:     Intenso SSD SATAIII
>
> Aua.

Warum?
Habe extra kein SD Karte genommen, weil ich einen verlässlichen
Datenträger brauche.

>
>> 197 Current_Pending_Sector  0x0032   100   100   050    Old_age
>> Always        -       1
>
> Die SSD hat Daten verloren.
>
> =>
>
> 1. vollen (langen) Selbsttest laufen lassen! Es könnte weitere, latente
> Datenverluse geben, die nur noch nicht bemerkt wurden, weil zufällig
> noch nicht darauf zugegriffen wurde.



Hier der Long Test mit Ausgabe:

smartctl --test=long /dev/sda
smartctl 6.6 2017-11-05 r4594 [armv7l-linux-5.4.51-v7l+] (local build)
Copyright (C) 2002-17, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF OFFLINE IMMEDIATE AND SELF-TEST SECTION ===
Sending command: "Execute SMART Extended self-test routine immediately
in off-line mode".
Drive command "Execute SMART Extended self-test routine immediately in
off-line mode" successful.
Testing has begun.
Please wait 10 minutes for test to complete.
Test will complete after Tue Sep 21 07:39:28 2021

Use smartctl -X to abort test.





nach 20min: $ smartctl -a /dev/sda

smartctl 6.6 2017-11-05 r4594 [armv7l-linux-5.4.51-v7l+] (local build)
Copyright (C) 2002-17, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF INFORMATION SECTION ===
Device Model: Intenso SSD SATAIII
Serial Number: AA000000000000000575
Firmware Version: S1022A0
User Capacity: 128,035,676,160 bytes [128 GB]
Sector Size: 512 bytes logical/physical
Rotation Rate: Solid State Device
Form Factor: M.2
Device is: Not in smartctl database [for details use: -P showall]
ATA Version is: ACS-2 T13/2015-D revision 3
SATA Version is: SATA 3.2, 6.0 Gb/s (current: 6.0 Gb/s)
Local Time is: Tue Sep 21 07:58:09 2021 CEST
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART Status not supported: Incomplete response, ATA output registers
missing
SMART overall-health self-assessment test result: PASSED
Warning: This result is based on an Attribute check.

General SMART Values:
Offline data collection status: (0x02) Offline data collection activity
was completed without error.
Auto Offline Data Collection: Disabled.
Self-test execution status: ( 0) The previous self-test routine
completed
without error or no self-test has ever
been run.
Total time to complete Offline
data collection: ( 120) seconds.
Offline data collection
capabilities: (0x11) SMART execute Offline immediate.
No Auto Offline data collection support.
Suspend Offline collection upon new
command.
No Offline surface scan supported.
Self-test supported.
No Conveyance Self-test supported.
No Selective Self-test supported.
SMART capabilities: (0x0002) Does not save SMART data before
entering power-saving mode.
Supports SMART auto save timer.
Error logging capability: (0x01) Error logging supported.
General Purpose Logging supported.
Short self-test routine
recommended polling time: ( 2) minutes.
Extended self-test routine
recommended polling time: ( 10) minutes.

SMART Attributes Data Structure revision number: 1
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE
UPDATED WHEN_FAILED RAW_VALUE
1 Raw_Read_Error_Rate 0x0032 100 100 050 Old_age
Always - 0
5 Reallocated_Sector_Ct 0x0032 100 100 050 Old_age
Always - 1
9 Power_On_Hours 0x0032 100 100 050 Old_age
Always - 7787
12 Power_Cycle_Count 0x0032 100 100 050 Old_age
Always - 1018
160 Unknown_Attribute 0x0032 100 100 050 Old_age Always
- 0
161 Unknown_Attribute 0x0033 100 100 050 Pre-fail Always
- 97
163 Unknown_Attribute 0x0032 100 100 050 Old_age Always
- 20
164 Unknown_Attribute 0x0032 100 100 050 Old_age Always
- 6879
165 Unknown_Attribute 0x0032 100 100 050 Old_age Always
- 71
166 Unknown_Attribute 0x0032 100 100 050 Old_age Always
- 1
167 Unknown_Attribute 0x0032 100 100 050 Old_age Always
- 14
168 Unknown_Attribute 0x0032 100 100 050 Old_age Always
- 7000
169 Unknown_Attribute 0x0032 100 100 050 Old_age Always
- 100
175 Program_Fail_Count_Chip 0x0032 100 100 050 Old_age Always
- 0
176 Erase_Fail_Count_Chip 0x0032 100 100 050 Old_age Always
- 0
177 Wear_Leveling_Count 0x0032 100 100 050 Old_age Always
- 0
178 Used_Rsvd_Blk_Cnt_Chip 0x0032 100 100 050 Old_age Always
- 1
181 Program_Fail_Cnt_Total 0x0032 100 100 050 Old_age Always
- 0
182 Erase_Fail_Count_Total 0x0032 100 100 050 Old_age Always
- 0
192 Power-Off_Retract_Count 0x0032 100 100 050 Old_age Always
- 1011
194 Temperature_Celsius 0x0022 100 100 050 Old_age Always
- 40
195 Hardware_ECC_Recovered 0x0032 100 100 050 Old_age Always
- 11602
196 Reallocated_Event_Count 0x0032 100 100 050 Old_age Always
- 0
197 Current_Pending_Sector 0x0032 100 100 050 Old_age Always
- 1
198 Offline_Uncorrectable 0x0032 100 100 050 Old_age Always
- 0
199 UDMA_CRC_Error_Count 0x0032 100 100 050 Old_age Always
- 4
232 Available_Reservd_Space 0x0032 100 100 050 Old_age Always
- 97
241 Total_LBAs_Written 0x0030 100 100 050 Old_age
Offline - 10009
242 Total_LBAs_Read 0x0030 100 100 050 Old_age
Offline - 6776
245 Unknown_Attribute 0x0032 100 100 050 Old_age Always
- 17607
SMART Self-test log structure revision number 1
Num Test_Description Status Remaining
LifeTime(hours) LBA_of_first_error
# 1 Extended offline Completed without error 00% 7787
-
# 2 Short offline Completed without error 00% 7771
-
# 3 Short offline Completed without error 00% 1
-

Selective Self-tests/Logging not supported





> 2. Datensicherung. Bevor man weiter darauf herumschreibt, sollte man
> das, was noch geht (und man noch behalten will) sichern.

ist nicht so dramatisch, da der nur ein paar Überwachungen macht, keine
relevanten Daten - aber es ist die boot und Betriebssystem Platte.
Und wie gesagt, ich habe mindestens noch 6 Monate keinen Zugang zum
Raspi (steht im Ausland).

Das wichtigste ist, dass er weiter läuft und Daten sendet.

Marcel Mueller

unread,
Sep 21, 2021, 3:18:43 PM9/21/21
to
Am 21.09.21 um 08:02 schrieb Jan Novak:
> Hier der Long Test mit Ausgabe:
> 197 Current_Pending_Sector 0x0032 100 100 050 Old_age Always
> - 1

Erst mal die gute Nachricht, es ist tatsächlich kein weiterer Sektor
gefunden worden. Das sieht noch nicht nach einem systematischen Problem aus.

> 192 Power-Off_Retract_Count 0x0032   100   100   050    Old_age   Always
>       -       1011

Das ist schon eher komisch. Es bedeutet, dass der Strom immer mitten im
Betrieb (aus Sicht der SSD) abgestellt wurde. Das ist bei SSDs
eigentlich nicht zulässig und könnte theoretisch sogar die Ursache für
den Fehler sein. Das war mir letztes mal gar nicht aufgefallen.

Könnte ein Firmware Bug in der USB-Bridge sein. Oder der Raspi vergisst
das Device beim Shutdown schlafen zu legen.


> # 1  Extended offline    Completed without error       00%      7787      -

Und hier sieht man, dass der Hersteller (moderate) Datenverluste als
spezifikationsgemäß ansieht.
Das steht üblicherweise auch im Datenblatt (was keiner liest - falls es
überhaupt veröffentlicht wird).


>> 2. Datensicherung. Bevor man weiter darauf herumschreibt, sollte man
>> das, was noch geht (und man noch behalten will) sichern.
>
> ist nicht so dramatisch, da der nur ein paar Überwachungen macht, keine
> relevanten Daten - aber es ist die boot und Betriebssystem Platte.
> Und wie gesagt, ich habe mindestens noch 6 Monate keinen Zugang zum
> Raspi (steht im Ausland).
>
> Das wichtigste ist, dass er weiter läuft und Daten sendet.

Du wirst merken, wenn er es nicht mehr tut.

Aber wenn der sonstwo steht, wer hat in dann über 1000-mal ein- und
ausgeschaltet?


Marcel

Jan Novak

unread,
Sep 22, 2021, 1:18:26 AM9/22/21
to
Am 21.09.21 um 21:18 schrieb Marcel Mueller:
> Das ist schon eher komisch. Es bedeutet, dass der Strom immer mitten im
> Betrieb (aus Sicht der SSD) abgestellt wurde. Das ist bei SSDs
> eigentlich nicht zulässig und könnte theoretisch sogar die Ursache für
> den Fehler sein. Das war mir letztes mal gar nicht aufgefallen.
>
> Könnte ein Firmware Bug in der USB-Bridge sein. Oder der Raspi vergisst
> das Device beim Shutdown schlafen zu legen.

Der Raspi startet jede Nacht neu (aber mit einem normalen Reboot)


>> # 1  Extended offline    Completed without error       00%      7787
>>      -
>
> Und hier sieht man, dass der Hersteller (moderate) Datenverluste als
> spezifikationsgemäß ansieht.
> Das steht üblicherweise auch im Datenblatt (was keiner liest - falls es
> überhaupt veröffentlicht wird).

Das stimmt, habe auch keines dazu gesehen.

> Aber wenn der sonstwo steht, wer hat in dann über 1000-mal ein- und
> ausgeschaltet?

wie oben gesagt. Er selbst.Er baut auch die Internet und VPN Verbindung
damit neu auf, weil es schon passiet war, dass diese Abbrach und dann
nichts mehr ging, bis jemand den Stgecker zog und der Raspi wieder
startete. Mit dem nächtlichen Rebot gibts jetzt seit rund 12 Monaten
keine Probleme (bis auf die SSD eben)


Jan

Andreas Neumann

unread,
Sep 22, 2021, 7:06:49 AM9/22/21
to
Jan Novak wrote:

> wie oben gesagt. Er selbst.Er baut auch die Internet und VPN Verbindung
> damit neu auf, weil es schon passiet war, dass diese Abbrach und dann
> nichts mehr ging, bis jemand den Stgecker zog und der Raspi wieder
> startete.

Wegen ebenjenem Problem habe ich ein kleines Script, welches nach längerer
Netzabwesenheit den service neustartet. Ursprünglich war auch mal ein
reboot vorgesehen, war aber nicht nötig.
Derzeit 9 Monate uptime, zwischenzeitlich 2x Netzwerkneustart.

> Mit dem nächtlichen Rebot gibts jetzt seit rund 12 Monaten
> keine Probleme (bis auf die SSD eben)

Den RasPi regelmäßig zu booten, auf die Idee wäre ich nicht gekommen, das
scheint mir zu brutal. Und macht die uptime kaputt...

Jan Novak

unread,
Sep 22, 2021, 8:00:57 AM9/22/21
to
Am 22.09.21 um 13:07 schrieb Andreas Neumann:

>> wie oben gesagt. Er selbst.Er baut auch die Internet und VPN Verbindung
>> damit neu auf, weil es schon passiet war, dass diese Abbrach und dann
>> nichts mehr ging, bis jemand den Stgecker zog und der Raspi wieder
>> startete.
>
> Wegen ebenjenem Problem habe ich ein kleines Script, welches nach längerer
> Netzabwesenheit den service neustartet. Ursprünglich war auch mal ein
> reboot vorgesehen, war aber nicht nötig.
> Derzeit 9 Monate uptime, zwischenzeitlich 2x Netzwerkneustart.

Dachte ich auch, aber es gab dann doch Situationen, die den Neustart der
einzelnen Dienste haben nicht so klappen lassen, dass alles wieder
funktioniert. Und da ich eben nicht mal schnell per Hand irgendwas
ändern kann und auch keine "remote Hands" habe, schien, bzw. scheint mir
das die beste Lösung. Abgesehen von dem Problem mit der SSD klappt es ja
auch seit 12 Monaten klaglos.


>
>> Mit dem nächtlichen Rebot gibts jetzt seit rund 12 Monaten
>> keine Probleme (bis auf die SSD eben)
>
> Den RasPi regelmäßig zu booten, auf die Idee wäre ich nicht gekommen, das
> scheint mir zu brutal. Und macht die uptime kaputt...


De ist mir egal ;-) Hauptsache, das System ist _immer_ erreichbar!
Bisher dachte ich immer, dass der RASPI/das Debian die Platte sauber
synct und entsperrt, bevor es neu startet. Beim Neustart wird die USB
Verbindung übrigens nicht stromlos, dass heisst: die SSD ist immer an.
Woher dann die Fehler?


Jan

Jan Novak

unread,
Sep 23, 2021, 12:45:42 AM9/23/21
to
Am 22.09.21 um 23:07 schrieb Andreas Kohlbach:
> On Wed, 22 Sep 2021 07:18:24 +0200, Jan Novak wrote:
>>
>> Am 21.09.21 um 21:18 schrieb Marcel Mueller:
>>
>>> Aber wenn der sonstwo steht, wer hat in dann über 1000-mal ein- und
>>> ausgeschaltet?
>>
>> wie oben gesagt. Er selbst.Er baut auch die Internet und VPN
>> Verbindung damit neu auf, weil es schon passiet war, dass diese
>> Abbrach und dann nichts mehr ging, bis jemand den Stgecker zog und der
>> Raspi wieder startete. Mit dem nächtlichen Rebot gibts jetzt seit rund
>> 12 Monaten keine Probleme (bis auf die SSD eben)
>
> Vielleicht reicht der Neustart des Networkmanagers?
>
> Vor Jahrzehnten hatte ich ein ähnliches Probleme. Habe dann aber (per
> cron.daily Eintrag) eine URL pingen lassen. Schlug das fehl, eine Minute
> gewartet und dann noch einmal gepingt. Schlug der Ping auch fehl, einen
> Reboot ausgeführt.

So ähnlich hatte ich das auch schon gemacht. Sogar noch ausgefeilter,
mit Semaphore Datei und und und... Ein Neustart war bisher de einzige
Lösung, die _immer_ funktionierte.

Wobei das Thema Festplatte ja damit nicht gelöst ist. Wieso bekommt die
Platte Probleme bei einem Reboot?

Jan

Ulli Horlacher

unread,
Sep 23, 2021, 2:19:18 AM9/23/21
to
Marcel Mueller <news.5...@spamgourmet.org> wrote:

> mehr. Allerdings würde ich eine Intenso-SSD auch so nicht verwenden,
> schlicht weil ich in meinem Umfeld noch bei keiner anderen Marke so viel
> Schrott erlebt habe. Gefühlte Ausfallquote in typischer Bertriebsdauer 50%.

Ich biete ADATA mit 100% :-}


--
Ullrich Horlacher Server und Virtualisierung
Rechenzentrum TIK
Universitaet Stuttgart E-Mail: horl...@tik.uni-stuttgart.de
Allmandring 30a Tel: ++49-711-68565868
70569 Stuttgart (Germany) WWW: http://www.tik.uni-stuttgart.de/

Sven Hartge

unread,
Sep 23, 2021, 2:49:20 AM9/23/21
to
Jan Novak <rep...@gmail.com> wrote:

> Wobei das Thema Festplatte ja damit nicht gelöst ist. Wieso bekommt die
> Platte Probleme bei einem Reboot?

Ich würde dem Wert nicht all zu viel Gewicht geben.

Faktisch hat (fast) jede SSD einen DRAM-Cache für zu schreibende Daten
und Enterprise-SSD haben zusätzlich einen Kondensator, der ihr
ermöglicht bei plötzlichem Stromausfall die Daten noch zu sichern.

Consumer-SSD haben dies nicht und meckern dann, wenn der Strom weg ist,
ohne das das System ihr das vorher mitgeteilt hat, weil dann potentiell
Daten nicht geschrieben worden sind.

Aber: Wenn Linux beendet wird, sync't es vorher alle Daten, daher ist
hier kein Problem zu sehen. Die SSD beschwert sich halt dennoch, weil
sie vermutlich in ihrem USB-Gehäuse nicht alle Infos bekommt, die Sie
sonst via SATA direkt erhalten würde.

Jan Novak

unread,
Sep 24, 2021, 12:21:17 AM9/24/21
to
Am 23.09.21 um 08:19 schrieb Ulli Horlacher:
> Marcel Mueller <news.5...@spamgourmet.org> wrote:
>
>> mehr. Allerdings würde ich eine Intenso-SSD auch so nicht verwenden,
>> schlicht weil ich in meinem Umfeld noch bei keiner anderen Marke so viel
>> Schrott erlebt habe. Gefühlte Ausfallquote in typischer Bertriebsdauer 50%.
>
> Ich biete ADATA mit 100% :-}
>
>

Was ist ADATA?


Jan


Ulli Horlacher

unread,
Sep 24, 2021, 4:12:14 AM9/24/21
to
Ein (grosser) Hersteller von SSDs.

Claus Reibenstein

unread,
Sep 25, 2021, 10:52:24 AM9/25/21
to
Jan Novak schrieb am 24.09.2021 um 06:21:

> Was ist ADATA?

https://lmgtfy.app/?q=adata&iie=1

Gruß
Claus
Reply all
Reply to author
Forward
0 new messages