Google Groups no longer supports new Usenet posts or subscriptions. Historical content remains viewable.
Dismiss

IBM LTO-3 macht immer mal wieder Heckmeck

1 view
Skip to first unread message

Marcel Mueller

unread,
Mar 10, 2019, 10:05:12 AM3/10/19
to
Hallo,

ich habe eine Dell PowerVault 124T mit IBM LTO-Laufwerk. Dieses bricht
manchmal bei Schreibvorgängen mit I/O Error ab. Wenn das einmal passiert
ist, wiederholt sich der Fehler oft. Also nach wenigen GB Daten kommt es
wieder zu einem Schreibfehler. Das tritt auch auf, wenn ich ein anderes
Band benutze. Mal gehen 2GB, mal 6,7GB und mal auch nur 0,3GB.

Erholung gibt es nur, wenn ich alles einmal aus und wieder einschalte.
Manchmal kommt der Fehler danach wieder. Manchmal nicht und es läuft
wieder, so wie jetzt die letzten 3 Bänder.

Die Diagnosefunktion meint dazu TAFlag 30. In der Doku steht dazu
nichtssagend: "The drive has a hardware fault
that requires reset to recover."

Zusätzlich kommt auch noch TAFlag 21 (Zeit für Cleaning-Tape). Letzteres
habe ich zugegebenermaßen einigermaßen ignoriert. Das Laufwerk wird nur
alle vielleicht 2 Monate für zusätzliche Backupgenerationen genutzt. Und
ich weiß gar nicht, ob das Teil eine Echtzeituhr hat, anhand der es
feststellen könnte, wann die Zeit rum ist - gefühlt nein.

Wenn es funktioniert gibt es auch keine Anzeichen für schlechte
Schreibqualität. Die Bänder lassen sich nahezu durchweg bis über die
Nennkapazität beschreiben (ohne Komprimierung). Es werden also nicht in
signifikantem Umfang Blöcke doppelt geschrieben. Lesefehler hatte ich
noch nie.

Irgendwelche Ideen, woran das liegen könnte?
Verunreinigung scheint mir nicht plausibel durch einen Power-Zyklus heilbar.

Das Laufwerk ist Modell IBM ULTRIUM-TD3, Firmware Revision 93GM.



Marcel

Michael Bäuerle

unread,
Mar 10, 2019, 10:37:06 AM3/10/19
to
Marcel Mueller wrote:
>
> [...]
> Zusätzlich kommt auch noch TAFlag 21 (Zeit für Cleaning-Tape).
> Letzteres habe ich zugegebenermaßen einigermaßen ignoriert. Das
> Laufwerk wird nur alle vielleicht 2 Monate für zusätzliche
> Backupgenerationen genutzt. Und ich weiß gar nicht, ob das Teil eine
> Echtzeituhr hat, anhand der es feststellen könnte, wann die Zeit rum
> ist - gefühlt nein.

Zu deinem Problem kann ich leider nichts beitragen.

Zum Thema Reinigung würde mich aber wundern, wenn da in absoluten
Stunden via RTC gerechnet wird. Relevant für die Reinigung ist doch
nur die Zeit, in der das Laufwerk tatsächlich aktiv ist (also ein
Band durchläuft). Das lässt sich auch ohne RTC mitzählen und dann
im EEPROM speichern.

Dietz Proepper

unread,
Mar 20, 2019, 6:15:03 AM3/20/19
to
Marcel Mueller wrote:

> Hallo,
>
> ich habe eine Dell PowerVault 124T mit IBM LTO-Laufwerk. Dieses bricht
> manchmal bei Schreibvorgängen mit I/O Error ab. Wenn das einmal passiert
> ist, wiederholt sich der Fehler oft. Also nach wenigen GB Daten kommt es
> wieder zu einem Schreibfehler. Das tritt auch auf, wenn ich ein anderes
> Band benutze. Mal gehen 2GB, mal 6,7GB und mal auch nur 0,3GB.

Das Teil ist vmtl. ca. 12-15 a alt?

> Die Diagnosefunktion meint dazu TAFlag 30. In der Doku steht dazu
> nichtssagend: "The drive has a hardware fault
> that requires reset to recover."

Oh. Eine zutreffende Fehlermeldung. Und das von IBM ;-).

> Zusätzlich kommt auch noch TAFlag 21 (Zeit für Cleaning-Tape). Letzteres
> habe ich zugegebenermaßen einigermaßen ignoriert. Das Laufwerk wird nur
> alle vielleicht 2 Monate für zusätzliche Backupgenerationen genutzt. Und
> ich weiß gar nicht, ob das Teil eine Echtzeituhr hat, anhand der es
> feststellen könnte, wann die Zeit rum ist - gefühlt nein.

Würde ich nicht darauf wetten. Abgesehen davon - wie wäre es, dem Rat
des Laufwerks zu folgen? ;-)

> Wenn es funktioniert gibt es auch keine Anzeichen für schlechte
> Schreibqualität. Die Bänder lassen sich nahezu durchweg bis über die
> Nennkapazität beschreiben (ohne Komprimierung). Es werden also nicht in
> signifikantem Umfang Blöcke doppelt geschrieben. Lesefehler hatte ich
> noch nie.

Mittels smartctl solltest Du die Fehlerzähler auslesen können. Bei
meinen Laufwerken sieht das in etwa so aus:

----------------
root@darth:/home/dietz# smartctl -a /dev/st0
[...]
Vendor: HP
Product: Ultrium 3-SCSI
Revision: G65H

Error counter log:
Errors Corrected by Total Correction Gigabytes Total
ECC rereads/ errors algorithm processed uncorrected
fast | delayed rewrites corrected invocations [10^9 bytes] errors
read: 3 0 0 0 3 0.000 0
write: 292 0 0 0 326 0.000 0
----------------

Auf das Band dürften seit dem Laden ca. 150 GB geschrieben worden
sein. Ist angeblich bei älterer Hardware so üblich und kein Grund
zur Beunruhigung.
Ich vermute, dass bei Dir im Problemfall die Zahl der Fehler
drastisch höher liegt.

> Irgendwelche Ideen, woran das liegen könnte?

Wie geschrieben, erste Vermutung, tatsächlich Verschmutzung. Zweite, die
Hardware hat einen Treffer. Wobei die Geräte üblicherweise für "Ewigkeit+
vier Jahre" ausgelegt sind.

> Verunreinigung scheint mir nicht plausibel durch einen Power-Zyklus heilbar.

Naja, irgendwann ist vielleicht ein threshold überschritten und das
Laufwerk sagt, "ich schalt' mich ab".

Ich würde erst mal ein Reinigungstape nutzen. Wenn das nicht hilft,
Ersatzgerät (ebay) oder reparieren lassen. Ob sich das rentiert
musst Du selber wissen.

--
CASE NIGHTMARE GREEN

Marcel Mueller

unread,
Mar 20, 2019, 1:41:53 PM3/20/19
to
Am 20.03.19 um 11:14 schrieb Dietz Proepper:
> Das Teil ist vmtl. ca. 12-15 a alt?

Keine Ahnung. Es war gebraucht und läuft hier auch schon wieder einige
Jahre.

>> Die Diagnosefunktion meint dazu TAFlag 30. In der Doku steht dazu
>> nichtssagend: "The drive has a hardware fault
>> that requires reset to recover."
>
> Oh. Eine zutreffende Fehlermeldung. Und das von IBM ;-).

Naja, zumindest ist sie nicht wirklich hilfreich.

>> Zusätzlich kommt auch noch TAFlag 21 (Zeit für Cleaning-Tape). Letzteres
>> habe ich zugegebenermaßen einigermaßen ignoriert. Das Laufwerk wird nur
>> alle vielleicht 2 Monate für zusätzliche Backupgenerationen genutzt. Und
>> ich weiß gar nicht, ob das Teil eine Echtzeituhr hat, anhand der es
>> feststellen könnte, wann die Zeit rum ist - gefühlt nein.
>
> Würde ich nicht darauf wetten. Abgesehen davon - wie wäre es, dem Rat
> des Laufwerks zu folgen? ;-)

Ja, muss ich mal machen. Ich kenne halt noch von DLT, dass Reinigen die
Lebensdauer des Laufwerks /verkürzt/. Die wollten halt auch Geld verdienen.

>> Wenn es funktioniert gibt es auch keine Anzeichen für schlechte
>> Schreibqualität. Die Bänder lassen sich nahezu durchweg bis über die
>> Nennkapazität beschreiben (ohne Komprimierung). Es werden also nicht in
>> signifikantem Umfang Blöcke doppelt geschrieben. Lesefehler hatte ich
>> noch nie.
>
> Mittels smartctl solltest Du die Fehlerzähler auslesen können. Bei
> meinen Laufwerken sieht das in etwa so aus:

Danke für den Tip. Mir war in keiner Weise klar, dass samrtctl mit den
Bändern etwas anfangen kann. Werde ich nächstes mal machen.

> Auf das Band dürften seit dem Laden ca. 150 GB geschrieben worden
> sein. Ist angeblich bei älterer Hardware so üblich und kein Grund
> zur Beunruhigung.
> Ich vermute, dass bei Dir im Problemfall die Zahl der Fehler
> drastisch höher liegt.

Mal sehen.Im Moment ist die Kiste gerade aus.

>> Irgendwelche Ideen, woran das liegen könnte?
>
> Wie geschrieben, erste Vermutung, tatsächlich Verschmutzung. Zweite, die
> Hardware hat einen Treffer. Wobei die Geräte üblicherweise für "Ewigkeit+
> vier Jahre" ausgelegt sind.

Deswegen habe ich das Zeug ja ;-)

>> Verunreinigung scheint mir nicht plausibel durch einen Power-Zyklus heilbar.
>
> Naja, irgendwann ist vielleicht ein threshold überschritten und das
> Laufwerk sagt, "ich schalt' mich ab".

Und der wird beim Power-Cycle zurückgesetzt?

> Ich würde erst mal ein Reinigungstape nutzen. Wenn das nicht hilft,
> Ersatzgerät (ebay) oder reparieren lassen. Ob sich das rentiert
> musst Du selber wissen.

Reparieren ist sicherlich unwirtschaftlich. Die ganze Library hat nur
50€ gekostet.
Ersatz geht aber bestimmt irgendwie. Wobei sich da natürlich ein Upgrade
auf LTO-4 anbietet, was allerdings einen SAS-Controller erfordert, der
neben Kosten auch noch den Stromverbrauch poliert. Und den kann man
nicht abschalten wie die Library.
Und lange SAS-Kabel muss man auch erst mal haben. Das sind schon ein
paar Meter. Bei SCSI passen ja die internen Kabel auch extern, und davon
habe ich genug.


Marcel
0 new messages