Am 31.01.24 um 18:55 schrieb Marcel Mueller:
> Am 31.01.24 um 16:12 schrieb Kay Martinen:
>>> Die Zielplatte ist aber nicht zufällig ein SMR-Exemplar?
>>
>> Das ist möglich, ja. Allerdings wäre die hier weitgehend leer.
>
> Das ist egal. SMR-Platten haben eine übelste Write-Amplification. Die
> müssen oft ein Vielfaches der übertragenen Datenmenge schreiben und sind
> dadurch um den entsprechenden Faktor langsamer. Genaueres hängt
Aber die "Schreiben" doch dann nur intern spuren neu wenn etwas
hinzugefügt würde. Das geht doch m.E. nicht über den Bus.
> natürlich vom jeweiligen Anwendungsszenario ab. Aber selbst wenn man
> größere Blöcke am Stück schreibt, müssen für das Schreiben der Metadaten
> schnell mal 8MB geschrieben werden anstatt 4kb.
Also quasi halb so schnell wie nicht-SMR Platten erwartbar.
Die vier Platten hier sind:
sdb: Hitachi HUA722020ALA331 2 TB Keine Angabe ob SMR gefunden.
sdc: Seagate Barracuda ST2000DM008-2UB102 2TB lt. smartctl SMR
sdd: Seagate Ironwolf ST4000VN008-2DR166 4TB keine Angabe.
sde: HGST Ultrastar HUS726040ALA610 4TB keine Angabe.
Mit smartctl 7.3
Wobei es natürlich GENAU die obige sdc ist die Ziel der
Kopier&Verschiebe-aktionen ist - und damit die SMR-Platte.
root@file:~# hdparm -t /dev/sdc
/dev/sdc:
Timing buffered disk reads: 634 MB in 3.00 seconds = 211.00 MB/sec
root@file:~# hdparm -T /dev/sdc
/dev/sdc:
Timing cached reads: 7202 MB in 2.00 seconds = 3608.68 MB/sec
root@file:~#
Hast du einen Tip für einen tauglichen Schreibtest der nicht Daten
zerstörend was aussagt?
Die Attribute dieser 2TB SMR Platte (als Zitat weils hier sonst umbricht):
> === START OF READ SMART DATA SECTION ===
> SMART Attributes Data Structure revision number: 10
> Vendor Specific SMART Attributes with Thresholds:
> ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE
> 1 Raw_Read_Error_Rate 0x000f 076 066 006 Pre-fail Always - 43547546
> 3 Spin_Up_Time 0x0003 097 097 000 Pre-fail Always - 0
> 4 Start_Stop_Count 0x0032 100 100 020 Old_age Always - 35
> 5 Reallocated_Sector_Ct 0x0033 100 100 010 Pre-fail Always - 0
> 7 Seek_Error_Rate 0x000f 063 060 045 Pre-fail Always - 2164449
> 9 Power_On_Hours 0x0032 100 100 000 Old_age Always - 105h+02m+45.426s
> 10 Spin_Retry_Count 0x0013 100 100 097 Pre-fail Always - 0
> 12 Power_Cycle_Count 0x0032 100 100 020 Old_age Always - 37
> 183 Runtime_Bad_Block 0x0032 100 100 000 Old_age Always - 0
> 184 End-to-End_Error 0x0032 100 100 099 Old_age Always - 0
> 187 Reported_Uncorrect 0x0032 100 100 000 Old_age Always - 0
> 188 Command_Timeout 0x0032 100 100 000 Old_age Always - 0 0 1
> 189 High_Fly_Writes 0x003a 100 100 000 Old_age Always - 0
> 190 Airflow_Temperature_Cel 0x0022 058 057 040 Old_age Always - 42 (Min/Max 26/42)
> 191 G-Sense_Error_Rate 0x0032 100 100 000 Old_age Always - 0
> 192 Power-Off_Retract_Count 0x0032 100 100 000 Old_age Always - 14
> 193 Load_Cycle_Count 0x0032 100 100 000 Old_age Always - 153
> 194 Temperature_Celsius 0x0022 042 043 000 Old_age Always - 42 (0 26 0 0 0)
> 195 Hardware_ECC_Recovered 0x001a 076 066 000 Old_age Always - 43547546
> 197 Current_Pending_Sector 0x0012 100 100 000 Old_age Always - 0
> 198 Offline_Uncorrectable 0x0010 100 100 000 Old_age Offline - 0
> 199 UDMA_CRC_Error_Count 0x003e 200 200 000 Old_age Always - 0
> 240 Head_Flying_Hours 0x0000 100 253 000 Old_age Offline - 94h+23m+36.338s
> 241 Total_LBAs_Written 0x0000 100 253 000 Old_age Offline - 806322357
> 242 Total_LBAs_Read 0x0000 100 253 000 Old_age Offline - 1472797676
>> Ich habe hier aktuell eher den Eindruck das bei einem Transfer via LAN
>> von mehreren Gigabyte ZU diesem Host da irgendwas blockiert und dann
>> einen <timeout-zeitspanne> langen komplett-ausfall der LAN Anbindung
>> verursacht.
>
> Da kämen Packet-Loss - gibt aber nur einige Sekunden Pause - oder eben
> auch SATA Timeouts in Frage. Letztere können locker eine halbe Minute
> blockieren. Gefühlt würde ich auf letzteres tippen. Entweder matschige
> SATA-Verbindungen oder defekte Sektoren auf den Platten.
S.o. HW ECC Recovered ist zwar hoch aber es sind keine Reallocated
Sectors. Wie ich die Raw Read und Seek Errors bewerten soll weiß ich
grade nicht. Die Seek errors scheinen mir näher am Threshold zu sein als
die Raw Read errors. Nur, was heißt das, bei einer SMR-Platte?
>> Wie reagiert eigentlich ein systemd wenn z.b. der Samba abstirbt? Kann
>> es sein das der dann gleich ein ganzes bündel von units (an einem
>> LAN-Target?) stoppt und neu startet.
>
> Was zur Hölle ist ein LAN Target?
Ich meine diese systemd "targets" wie "multi-user". Ich weiß nicht ob
der auch eines für LAN kennt, es würde mich aber wundern wenn nicht.
Da nehme ich doch an das systemd z.b. beim Raus ziehen des
Netzwerk-kabels alles stoppt was da dran hängt, also ssh, samba u.s.w.
Oder eben, wenn ein Dienst aus dieser Kategorie (Target?) abkackt?
> Wenn der Samba Daemon stirbt sind alle Verbindungen und Sessions weg.
> Die Clients müssen sich dann neu Authentifizieren. Das geht
> üblicherweise automatisch.
Ja, das klappt auch. Nach <zeitablauf> kommt der Client auch sofort
wieder auf die Freigabe des SMB-Servers.
>> Bei den bisherigen Transfer-versuchen hat ein anschließendes ping auf
>> die IP generell über 100 bis ca. 150 versuche gemacht bis dann wieder
>> ein Echo zurück kam.
>
> Das _kann_ auf ein Netzwerk-Problem hindeuten. Es kann aber auch sein,
> dass der Rechner so blockiert ist, dass er selbst auf Ping nicht mehr
> antworten kann. Hänger auf dem Root-Volume können schon fast alles lahm
> legen.
Da ist mir nichts in den logs aufgefallen bis auf:
einen fehler beim laden des floppy-moduls.
Fehlermeldungen zu sp5100_tco die wohl 'watchdog' nachladen und nur bei
IPMI-Boards sinn machen sollen.
Beide sind jetzt blacklisted.
Und
[ 1.426603] pci 0000:00:13.1: OHCI: BIOS handoff failed (BIOS bug?) 00000184
[18.250663] ata3.00: Read log 0x00 page 0x00 failed, Emask 0x40
[18.250708] ata3.00: Read log 0x00 page 0x00 failed, Emask 0x40
Wobei ata3 warscheinlich die TEAM7 SSD mit 60 GB ist, meine Aktuelle
Bootplatte.
Smartctl sagt die hat kein Log.
>> Und ssh oder samba sind in der zeit ja auch nicht erreichbar. Der
>> Versuch liefert nur "no route to host"
>
> Dann ist sogar ARP verreckt. Kurzum, der IP-Adresse kann gar keine
> MAC-Adresse mehr zugeordnet werden. Hast du irgendeinen, der ARP kaputt
> machen will, z.B. über Spoofing? Zwei Rechner mit derselben IP wären
> auch so ein Klassiker. Die schnappen sich gegenseitig immer die MAC weg.
Ich hab den Alten Fileserver ausgeschaltet. Der hatte eine IP .50 und
der aktuelle die IP .200. Nur der name 'file' war bis eben in meinem
internen DNS noch der IP .50 zugeordnet.
Die Beiden Rechner haben aber eigene NICs und deren MAC sollte m.E. auch
unterschiedlich sein. Geändert habe ich sie jedenfalls nicht!
> Der ARP-Cache hält aber nicht sehr lange. Insofern kann das schon die
> Folge von Verbindungsproblemen sein.
> Ein kaputter NIC käme durchaus auch in Frage.
root@file:~# ip -s link show enp4s0
2: enp4s0: <BROADCAST,MULTICAST,UP,LOWER_UP> mtu 1500 qdisc fq_codel
state UP mode DEFAULT group default qlen 1000
link/ether 00:24:1d:cf:de:cf brd ff:ff:ff:ff:ff:ff
RX: bytes packets errors dropped missed mcast
9565992620 6459295 0 20548 1943 10025
TX: bytes packets errors dropped carrier collsns
299367582 1463211 0 0 0 0
root@file:~# uptime
19:32:54 up 5:43, 5 users, load average: 0,10, 0,04, 0,04
Ich komme mit der aufruf-nomenklatur von 'ip' immer noch nicht so
richtig klar. Wenn du einen Tip hast erweiterte Statistiken zu bekommen,
gerne.
Dropped und missed sind nicht null. Aber bei über 5 Stunden, und evtl.
vorher noch aktivem paketfilter der evtl. vorher incoming ablehnte -
aber offenbar nicht smb...???
>> Falls aber ein samba-fehler via systemd zu einem kompletten DoS führt
>> dann hätte das gleiche auch mit einem OMV-NAS o.ä. passieren können.
>> Denn der steckt da ebenfalls drin.
>
> Nein, der würde sofort neu starten, jedenfalls ein paar mal. Das dauert
> allenfalls Sekunden.
Die Zeit ohne LAN scheint generell im Minutenbereich zu liegen. Und
bisher wurde die Verbindung ganz automatisch wieder aufgebaut.
Jetzt habe ich aktuell keine Idee was ich noch testen kann, außer die
Schreibleistung der Platten...