sed: Problem mit Umlauten

Andre Tann

unread,

Mar 28, 2012, 3:30:01 AM3/28/12

to

Servus zusammen,

ich habe ein Problem mit sed und Umlauten:

# sed -e '/Z/p' $datei
Z�hl

Öffne ich $datei dagegen mit dem Vim, dann sehe ich dort wie erwartet:

Zähl

Dies ist immer der Fall, egal wie ich die Standardsprache einstelle.
Probiert habe ich

de_DE.UTF-8
de_DE@euro
en_US.UTF-8

Woran liegts, was kann ich tun?

Danke für eure Hinweise.

--
Andre Tann

--
Zum AUSTRAGEN schicken Sie eine Mail an debian-user-g...@lists.debian.org
mit dem Subject "unsubscribe". Probleme? Mail an listm...@lists.debian.org (engl)
Archive: http://lists.debian.org/201203280...@inter.netz

Andre Tann

unread,

Mar 28, 2012, 3:50:02 AM3/28/12

to

Hallo zusammen,

sorry, das ist kein sed-Problem, sondern anscheinend eines mit der Bash.

# cat $datei
Z�hl

# file $datei
…ISO-8859 text, with CRLF line terminators

Also gut, stellen wir um:

# export LC_ALL="de_DE.ISO-8859-1"
# cat $datei
Z�hl

Was jetzt?

Jochen Spieker

unread,

Mar 28, 2012, 4:00:02 AM3/28/12

to

Andre Tann:

>
> sorry, das ist kein sed-Problem, sondern anscheinend eines mit der Bash.

Auch nicht, eher eines mit dem Terminal bzw. der eingestellten Locale.
:)

Mach am besten ein "dpkg-reconfigure locales", stelle alles auf UTF8 um,
starte Dein Terminal neu und probier es nochmal. Wenn die Umlaute
weiterhin kaputt sind, poste mal die Ausgabe von "locale".

J.
--
I worry about people thinking I have lost direction.
[Agree] [Disagree]
<http://www.slowlydownward.com/NODATA/data_enter2.html>

signature.asc

Peter Funk

unread,

Mar 28, 2012, 4:20:01 AM3/28/12

to

Hallo Andre,

Andre Tann schrieb am Mittwoch, den 28.03.2012 um 09:22:
> Servus zusammen,
>
> ich habe ein Problem mit sed und Umlauten:
>
> # sed -e '/Z/p' $datei
> Z�hl

---------^ Das ist vermutlich ein "ä", das als ISO-8859-1 kodiert ist.

> Öffne ich $datei dagegen mit dem Vim, dann sehe ich dort wie erwartet:
>
> Zähl

VIM "errät" das Encoding. Tippe mal im VIM den Befehl
:set fileencoding
ein. Der wird dann vermutlich "latin1" anzeigen (das ist eine andere
Bezeichnung für ISO-8859-1).

> Dies ist immer der Fall, egal wie ich die Standardsprache einstelle.
> Probiert habe ich
>
> de_DE.UTF-8
> de_DE@euro
> en_US.UTF-8

Das Systemencoding (das ist das, was Du hinter der Sprache angibst) hat
keinen Einfluss auf das Encoding von bereits vorhandenen Dateien und
Dateinamen.

Mit
iconv --from-code=ISO-8859-1 --to-code=UTF-8 iso.txt > utf.txt
oder im VIM lässt sich das Encoding einer Datei ändern.

> Woran liegts, was kann ich tun?

Früher (in den 90er Jahren) haben sich hier in Europa alle Leute
gefreut, dass sie auch am Computer endlich echte Umlaute (äöü) statt
ae, oe und ue benutzen durften. Damals wurden die Programme 8-Bit
transparent, Umlaute wurden in iso-8859-1 kodiert und alles war gut.

Dann kamen die Osteuropäer, die Griechen, die Chinesen oder wen auch
immer Du für andere "exotische" Schriftzeichen als Schuldigen dazu
nehmen willst. Deshalb wurde "utf-8" erfunden. In "utf-8" werden
"exotische Zeichen" wie z.B. das "ä" in zwei oder mehr Bytes kodiert.

Ein in "latin1" kodiertes "ä" ist in utf-8 nicht zulässig und wird
deshalb dann als "�" dargestellt.

Viele Grüße, Peter Funk
--
Peter Funk, home: ✉Oldenburger Str.86, D-27777 Ganderkesee
mobile:+49-179-640-8878 phone:+49-421-20419-0 <http://www.artcom-gmbh.de/>
office: ArtCom GmbH, ✉Haferwende 2, D-28357 Bremen, Germany
DRUPA 3.5.-16.5.2012: Besuchen Sie uns in Halle 4 auf Stand B02

--
Zum AUSTRAGEN schicken Sie eine Mail an debian-user-g...@lists.debian.org
mit dem Subject "unsubscribe". Probleme? Mail an listm...@lists.debian.org (engl)

Archive: http://lists.debian.org/2012032807...@artcom0.artcom-gmbh.de

Andre Tann

unread,

Mar 28, 2012, 4:20:01 AM3/28/12

to

Hi Jochen,

Jochen Spieker, Mittwoch, 28. März 2012:

> Andre Tann:
> > sorry, das ist kein sed-Problem, sondern anscheinend eines mit der Bash.
>
> Auch nicht, eher eines mit dem Terminal bzw. der eingestellten Locale.
>
> :)

Ja, das meinte ich eigentlich…

> Mach am besten ein "dpkg-reconfigure locales", stelle alles auf UTF8 um,
> starte Dein Terminal neu und probier es nochmal. Wenn die Umlaute
> weiterhin kaputt sind, poste mal die Ausgabe von "locale".

Ursprünglich stand alles auf UTF8, ich hatte die Lokalisierung noch
nie angefaßt, und trotzdem kam es zum Problem. So habe ich überhaupt
angefangen zu suchen. Daß die Anzeige falsch ist wundert mich nicht,
denn "file $datei" zeigt ja, daß die Datei 8859-codiert ist.

Nun:

$ locale
LANG=de_DE.UTF-8
LANGUAGE=
LC_CTYPE="de_DE.UTF-8"
LC_NUMERIC="de_DE.UTF-8"
LC_TIME="de_DE.UTF-8"
LC_COLLATE="de_DE.UTF-8"
LC_MONETARY="de_DE.UTF-8"
LC_MESSAGES="de_DE.UTF-8"
LC_PAPER="de_DE.UTF-8"
LC_NAME="de_DE.UTF-8"
LC_ADDRESS="de_DE.UTF-8"
LC_TELEPHONE="de_DE.UTF-8"
LC_MEASUREMENT="de_DE.UTF-8"
LC_IDENTIFICATION="de_DE.UTF-8"
LC_ALL=

$ cat $datei
Z�hl

$ export LANG="de_DE.ISO-8859-1"
$ locale
LANG=de_DE.ISO-8859-1
LANGUAGE=
LC_CTYPE="de_DE.ISO-8859-1"
LC_NUMERIC="de_DE.ISO-8859-1"
LC_TIME="de_DE.ISO-8859-1"
LC_COLLATE="de_DE.ISO-8859-1"
LC_MONETARY="de_DE.ISO-8859-1"
LC_MESSAGES="de_DE.ISO-8859-1"
LC_PAPER="de_DE.ISO-8859-1"
LC_NAME="de_DE.ISO-8859-1"
LC_ADDRESS="de_DE.ISO-8859-1"
LC_TELEPHONE="de_DE.ISO-8859-1"
LC_MEASUREMENT="de_DE.ISO-8859-1"
LC_IDENTIFICATION="de_DE.ISO-8859-1"
LC_ALL=

$ cat $datei
Z�hl

Wat nu?

Danke+Gruß!

--
Andre Tann

--
Zum AUSTRAGEN schicken Sie eine Mail an debian-user-g...@lists.debian.org
mit dem Subject "unsubscribe". Probleme? Mail an listm...@lists.debian.org (engl)

Archive: http://lists.debian.org/201203281...@inter.netz

Jochen Spieker

unread,

Mar 28, 2012, 4:40:02 AM3/28/12

to

Andre Tann:

>
> Ursprünglich stand alles auf UTF8, ich hatte die Lokalisierung noch
> nie angefaßt, und trotzdem kam es zum Problem. So habe ich überhaupt
> angefangen zu suchen. Daß die Anzeige falsch ist wundert mich nicht,
> denn "file $datei" zeigt ja, daß die Datei 8859-codiert ist.

Joa, wenn ich so drüber nachdenke: Peter wird Recht haben. Das ist halt
so[tm]. Ein einfaches "cat" kann und soll nicht das Encoding von Dateien
ändern. Das kippt einfach einen Bithaufen aufs Terminal. Das Terminal
selbst kodiert auch nicht um, das versucht nur, abhängig von der
eingestellten Locale, passende Glyphen für die Bits zu bestimmen. In
Deinem Fall klappt das nicht, weil Datei- und Terminal-Encoding nicht
zusammenpassen.

J.
--
Quite often I wonder why I am not more famous and/or more wealthy.
[Agree] [Disagree]
<http://www.slowlydownward.com/NODATA/data_enter2.html>

signature.asc

Andre Tann

unread,

Mar 28, 2012, 5:30:02 AM3/28/12

to

Hi Peter,

Peter Funk, Mittwoch, 28. März 2012:

> VIM "errät" das Encoding. Tippe mal im VIM den Befehl
>
> :set fileencoding
>
> ein. Der wird dann vermutlich "latin1" anzeigen (das ist eine andere
> Bezeichnung für ISO-8859-1).

In der Tat.

> Das Systemencoding (das ist das, was Du hinter der Sprache angibst) hat
> keinen Einfluss auf das Encoding von bereits vorhandenen Dateien und
> Dateinamen.

Verstehe.

> Mit
> iconv --from-code=ISO-8859-1 --to-code=UTF-8 iso.txt > utf.txt
> oder im VIM lässt sich das Encoding einer Datei ändern.

Das Problem ist, daß die Datei von einem Windows-System via Samba immer
wieder neu angeliefert wird, sprich: ich kann am Encoding nichts ändern,
sondern muß die Datei nehmen, wie sie vorliegt.

Andererseits muß ich die Datei später, wenn sie auf dem Samba-Server
gelandet ist, mit einem sed-Aufruf durchwühlen können. Sed verschluckt
sich aber nun am "falschen" Umlaut.

Natürlich könnte ich jedesmal, bevor sed die Datei anfaßt, iconv
drüberlaufen lassen. Aber das ist irgendwie unschön. Gibts da nicht eine
andere Möglichkeit? Samba wird nicht helfen, denn das schreibt einfach
den Bitstrom, der von Windows kommt, in die Datei rein.

Kann man nicht sed sagen, daß es eine 8859-codierte Zeichenfolge zu
erwarten hat, und nicht eine utf8-codierte, sprich, daß Windows und sed
dasselbe meinen, wenn sie ein ä sehen?

--
Andre Tann

--
Zum AUSTRAGEN schicken Sie eine Mail an debian-user-g...@lists.debian.org
mit dem Subject "unsubscribe". Probleme? Mail an listm...@lists.debian.org (engl)

Archive: http://lists.debian.org/201203281...@inter.netz

Jochen van Geldern

unread,

Mar 28, 2012, 5:40:03 AM3/28/12

to

Andre Tann schrieb:

>
> Das Problem ist, daß die Datei von einem Windows-System via Samba immer
> wieder neu angeliefert wird, sprich: ich kann am Encoding nichts ändern,
> sondern muß die Datei nehmen, wie sie vorliegt.
>
> Andererseits muß ich die Datei später, wenn sie auf dem Samba-Server
> gelandet ist, mit einem sed-Aufruf durchwühlen können. Sed verschluckt
> sich aber nun am "falschen" Umlaut.

Wie rufst du sed auf? In ein Script?
Wenn ja, wie wäre es mit:
iconv --from-code=ISO-8859-1 --to-code=UTF-8 iso.txt|sed ....
Statt sed iso.txt ...

--
Gruß Jochen

--
Zum AUSTRAGEN schicken Sie eine Mail an debian-user-g...@lists.debian.org
mit dem Subject "unsubscribe". Probleme? Mail an listm...@lists.debian.org (engl)

Archive: http://lists.debian.org/4F72DB19...@imail.de

Andre Tann

unread,

Mar 28, 2012, 5:50:01 AM3/28/12

to

Jochen van Geldern, Mittwoch, 28. März 2012:

> Wie rufst du sed auf? In ein Script?
> Wenn ja, wie wäre es mit:
> iconv --from-code=ISO-8859-1 --to-code=UTF-8 iso.txt|sed ....
> Statt sed iso.txt ...

Stimmt, das hab ich gerade probiert, das funktioniert.

Wenn das der "empfohlene" Weg ist, mit Windows-generierten Dateien zu
verfahren, dann mache ich es so.

Hab auf jeden Fall Dank fürs Mitdenken!

--
Andre Tann

--
Zum AUSTRAGEN schicken Sie eine Mail an debian-user-g...@lists.debian.org
mit dem Subject "unsubscribe". Probleme? Mail an listm...@lists.debian.org (engl)

Archive: http://lists.debian.org/201203281...@inter.netz

Peter Funk

unread,

Mar 28, 2012, 6:40:02 AM3/28/12

to

Hallo Andre,

Andre Tann schrieb am Mittwoch, den 28.03.2012 um 11:45:
> Jochen van Geldern, Mittwoch, 28. März 2012:
>
> > Wie rufst du sed auf? In ein Script?
> > Wenn ja, wie wäre es mit:
> > iconv --from-code=ISO-8859-1 --to-code=UTF-8 iso.txt|sed ....
> > Statt sed iso.txt ...
>
> Stimmt, das hab ich gerade probiert, das funktioniert.
>
> Wenn das der "empfohlene" Weg ist, mit Windows-generierten Dateien zu
> verfahren, dann mache ich es so.

Wenn Du sonst noch keine Encoding-Probleme entdeckt hast, dann
würde ich es tatsächlich erstmal mit der oben von Jochen
von Geldern beschriebenen Methode probieren: Dabei bleiben
die Auswirkungen auf dieses eine Skript beschränkt.

Es gibt auch noch die Möglichkeit in der Samba-Konfiguration
/etc/samba/smb.conf mit den Charset-Opionen zu arbeiten.

Häufiges genanntes Beispiel:
unix charset = UTF-8
dos charset = cp1252

Diese Alternative ist aber nicht ohne Einschränkungen zu empfehlen.
Wurden schon vorher Daten über Samba gespeichert oder wenn Dateien
Referenzen auf andere Dateien enthalten, dann kann das richtig
spannend werden.

Inzwischen etwas älter, aber immer noch lesenswert:
http://linuxwiki.de/Samba#Hinbiegen_von_falschen_Umlauten

Nicht nur wegen Encoding bleiben Migrationen in heterogenen Netzwerken
mit "Legacy"-Anwendungen auch heute immer noch ein wirklich schwieriges
Feld.

Viele Grüße, Peter Funk
--
Peter Funk, home: ✉Oldenburger Str.86, D-27777 Ganderkesee
mobile:+49-179-640-8878 phone:+49-421-20419-0 <http://www.artcom-gmbh.de/>
office: ArtCom GmbH, ✉Haferwende 2, D-28357 Bremen, Germany
DRUPA 3.5.-16.5.2012: Besuchen Sie uns in Halle 4 auf Stand B02

--
Zum AUSTRAGEN schicken Sie eine Mail an debian-user-g...@lists.debian.org
mit dem Subject "unsubscribe". Probleme? Mail an listm...@lists.debian.org (engl)

Archive: http://lists.debian.org/20120328103...@artcom0.artcom-gmbh.de

Stefan Baur

unread,

Mar 28, 2012, 7:00:02 AM3/28/12

to

Am 28.03.2012 12:34, schrieb Peter Funk:
<snip>

> Wenn Du sonst noch keine Encoding-Probleme entdeckt hast, dann
> würde ich es tatsächlich erstmal mit der oben von Jochen
> von Geldern beschriebenen Methode probieren: Dabei bleiben
> die Auswirkungen auf dieses eine Skript beschränkt.
>
> Es gibt auch noch die Möglichkeit in der Samba-Konfiguration
> /etc/samba/smb.conf mit den Charset-Opionen zu arbeiten.
>
> Häufiges genanntes Beispiel:
> unix charset = UTF-8
> dos charset = cp1252
>
> Diese Alternative ist aber nicht ohne Einschränkungen zu empfehlen.
> Wurden schon vorher Daten über Samba gespeichert oder wenn Dateien
> Referenzen auf andere Dateien enthalten, dann kann das richtig
> spannend werden.
>
> Inzwischen etwas älter, aber immer noch lesenswert:
> http://linuxwiki.de/Samba#Hinbiegen_von_falschen_Umlauten
>

<snip>

Wenn ich das richtig verstehe, geht es dabei nur um Umlaute in
Datei*namen*, nicht in Datei*inhalten*.
Alternativen:
Die Doku ist schlecht formuliert und spricht nur von Dateinamen, obwohl
sie auch Auswirkung auf Dateiinhalte hat, oder Du hast sie nicht
verstanden, oder Du hast nicht verstanden, was der Fragesteller
erreichen will.

-STefan

--
Zum AUSTRAGEN schicken Sie eine Mail an debian-user-g...@lists.debian.org
mit dem Subject "unsubscribe". Probleme? Mail an listm...@lists.debian.org (engl)

Archive: http://lists.debian.org/4F72EE05...@stefanbaur.de

Michael Stummvoll

unread,

Mar 28, 2012, 9:20:02 AM3/28/12

to

> Ursprünglich stand alles auf UTF8, ich hatte die Lokalisierung noch
> nie angefaßt, und trotzdem kam es zum Problem. So habe ich überhaupt
> angefangen zu suchen. Daß die Anzeige falsch ist wundert mich nicht,
> denn "file $datei" zeigt ja, daß die Datei 8859-codiert ist.

Mal ne doofe Frage: Arbeitest du auf einem richtigen TTY oder in einem
Terminal-Emulator? Direkt oder per SSH?

Ich hab teilweise das phänomen, dass mein TTY umlaute falsch darstellt,
mit nem terminal emulator unter x das dann aber geht.

--
Zum AUSTRAGEN schicken Sie eine Mail an debian-user-g...@lists.debian.org
mit dem Subject "unsubscribe". Probleme? Mail an listm...@lists.debian.org (engl)

Archive: http://lists.debian.org/20120328151159.4eb58c59@eddie

Andre Tann

unread,

Mar 28, 2012, 9:50:03 AM3/28/12

to

Peter Funk, Mittwoch, 28. März 2012:

> Es gibt auch noch die Möglichkeit in der Samba-Konfiguration
> /etc/samba/smb.conf mit den Charset-Opionen zu arbeiten.
>
> Häufiges genanntes Beispiel:
> unix charset = UTF-8
> dos charset = cp1252

Aber dabei gehts doch um Dateinamen, oder? In meinem Fall macht aber der
Dateiname kein Problem, sondern der Inhalt. Und den wird Samba nicht
verändern. Oder sehe ich das falsch?

> Nicht nur wegen Encoding bleiben Migrationen in heterogenen Netzwerken
> mit "Legacy"-Anwendungen auch heute immer noch ein wirklich schwieriges
> Feld.

In der Tat, davon kann man Lieder singen.

Danke+Gruß!

--
Andre Tann

--
Zum AUSTRAGEN schicken Sie eine Mail an debian-user-g...@lists.debian.org
mit dem Subject "unsubscribe". Probleme? Mail an listm...@lists.debian.org (engl)

Archive: http://lists.debian.org/201203281...@inter.netz

Andre Tann

unread,

Mar 28, 2012, 9:50:03 AM3/28/12

to

Michael Stummvoll, Mittwoch, 28. März 2012:

> Mal ne doofe Frage: Arbeitest du auf einem richtigen TTY oder in einem
> Terminal-Emulator? Direkt oder per SSH?

Ich bin über das Programm "konsole" per ssh auf der Zielkiste
eingeloggt. Eigentlich aber ist das ein Cronjob, der ohne TTY laufen
soll, einfach nur für sich.

Seit der Squeeze-Neuinstallation aber sind mir alle Zeilen mit Umlaut um
die Ohren geflogen, und deswegen habe ich begonnen, den Fehler zu
debuggen.

> Ich hab teilweise das phänomen, dass mein TTY umlaute falsch darstellt,
> mit nem terminal emulator unter x das dann aber geht.

Ja, das hatte ich in der Tat auch schon. In meinem Fall aber ist das
nicht der Punkt.

Danke+Gruß!

--
Andre Tann

--
Zum AUSTRAGEN schicken Sie eine Mail an debian-user-g...@lists.debian.org
mit dem Subject "unsubscribe". Probleme? Mail an listm...@lists.debian.org (engl)

Archive: http://lists.debian.org/201203281...@inter.netz

David Raab

unread,

Mar 28, 2012, 10:10:01 AM3/28/12

to

On 03/28/2012 09:46 AM, Andre Tann wrote:
> Hallo zusammen,
>
> sorry, das ist kein sed-Problem, sondern anscheinend eines mit der Bash.

Das ist gar kein Problem, sondern die Datei ist einfach nur in
ISO-8859-1 codiert. Wenn du generell mit UTF-8 überall arbeiten möchtest
dann musst du die Datei umcodieren.

> sidburn@sid:~$ cat text.txt
> Z�hler
> sidburn@sid:~$ recode iso-8859-1..utf8 text.txt
> sidburn@sid:~$ cat text.txt
> Zähler

--
Zum AUSTRAGEN schicken Sie eine Mail an debian-user-g...@lists.debian.org
mit dem Subject "unsubscribe". Probleme? Mail an listm...@lists.debian.org (engl)

Archive: http://lists.debian.org/4F73198A...@david-raab.de

Martin Steigerwald

unread,

Mar 28, 2012, 1:10:02 PM3/28/12

to

Am Mittwoch, 28. März 2012 schrieb Peter Funk:
> Dann kamen die Osteuropäer, die Griechen, die Chinesen oder wen auch
> immer Du für andere "exotische" Schriftzeichen als Schuldigen dazu
> nehmen willst. Deshalb wurde "utf-8" erfunden. In "utf-8" werden
> "exotische Zeichen" wie z.B. das "ä" in zwei oder mehr Bytes kodiert.

Ein bis vier Byte, wenn ich mich recht entsinne. Das höchste Bit gibt an,
ob das Zeichen noch ein weiteres Byte benötigt. Daher gehen ASCII-Zeichen
in einem Byte.

Jup:

martin@merkaba:~> echo "a" > /tmp/a
martin@merkaba:~> echo "ä" > /tmp/ä
martin@merkaba:~> hd /tmp/a
00000000 61 0a |a.|
00000002
martin@merkaba:~> hd /tmp/ä
00000000 c3 a4 0a |...|
00000003
martin@merkaba:~>

(das 0x0a ist der Zeilenvorschub)

--
Martin 'Helios' Steigerwald - http://www.Lichtvoll.de
GPG: 03B0 0D6C 0040 0710 4AFA B82F 991B EAAC A599 84C7

--
Zum AUSTRAGEN schicken Sie eine Mail an debian-user-g...@lists.debian.org
mit dem Subject "unsubscribe". Probleme? Mail an listm...@lists.debian.org (engl)

Archive: http://lists.debian.org/201203281908...@lichtvoll.de

Martin Eberhard Schauer

unread,

Mar 28, 2012, 1:20:01 PM3/28/12

to

>> Dann kamen die Osteuropäer, die Griechen, die Chinesen oder wen auch
>> immer Du für andere "exotische" Schriftzeichen als Schuldigen dazu
>> nehmen willst. Deshalb wurde "utf-8" erfunden. In "utf-8" werden
>> "exotische Zeichen" wie z.B. das "ä" in zwei oder mehr Bytes kodiert.
>>
> Ein bis vier Byte, wenn ich mich recht entsinne. Das höchste Bit gibt an,
> ob das Zeichen noch ein weiteres Byte benötigt. Daher gehen ASCII-Zeichen
> in einem Byte.
>
> Jup:
>
> martin@merkaba:~> echo "a"> /tmp/a
> martin@merkaba:~> echo "ä"> /tmp/ä
> martin@merkaba:~> hd /tmp/a
> 00000000 61 0a |a.|
> 00000002
> martin@merkaba:~> hd /tmp/ä
> 00000000 c3 a4 0a |...|
> 00000003
> martin@merkaba:~>
>

Vielleicht gibt man 7 utf-8 zusätzliche Erkenntnisse.

--
Zum AUSTRAGEN schicken Sie eine Mail an debian-user-g...@lists.debian.org
mit dem Subject "unsubscribe". Probleme? Mail an listm...@lists.debian.org (engl)

Archive: http://lists.debian.org/4F733989...@gmx.de

Jan Kohnert

unread,

Mar 28, 2012, 1:50:02 PM3/28/12

to

Hallo,

sorry, ging vorhin als PM, ich hatte nicht auf die Adresse geachtet...

Am 2012-03-28 15:45, schrieb Andre Tann:
> Michael Stummvoll, Mittwoch, 28. März 2012:

>> Ich hab teilweise das phänomen, dass mein TTY umlaute falsch
>> darstellt,
>> mit nem terminal emulator unter x das dann aber geht.
>
> Ja, das hatte ich in der Tat auch schon. In meinem Fall aber ist das
> nicht der Punkt.

so ein Verhalten kann durchaus auch an der Schriftart des jewieligen
Terminals liegen.

Ich verwende hier lat9u-16, soweit ich weiß, kommt diese auch mit
gänigen Umlauten
aus iso8859-15 zurecht, obwohl es eigentlich ja eine Unicod-Schrift
ist. Hab ich aber
länger nicht mehr getestet...

--
MfG Jan

--
Zum AUSTRAGEN schicken Sie eine Mail an debian-user-g...@lists.debian.org
mit dem Subject "unsubscribe". Probleme? Mail an listm...@lists.debian.org (engl)

Archive: http://lists.debian.org/fd1fc857dce02da9...@the-pojs.de

Christian Brabandt

unread,

Mar 28, 2012, 2:00:01 PM3/28/12

to

On Wed, March 28, 2012 11:23, Andre Tann wrote:
> Das Problem ist, daß die Datei von einem Windows-System via Samba immer
> wieder neu angeliefert wird, sprich: ich kann am Encoding nichts ändern,
> sondern muß die Datei nehmen, wie sie vorliegt.
>
> Andererseits muß ich die Datei später, wenn sie auf dem Samba-Server
> gelandet ist, mit einem sed-Aufruf durchwühlen können. Sed verschluckt
> sich aber nun am "falschen" Umlaut.

Na verschlucken tut es sich nicht. Es matcht halt einfach nicht. Ich
weiß ja nicht, was du konvertieren mußt, aber zur Not kannst Du die
paar Umlaute auch per Hand mit sed zurück konvertieren:
#v+
chrisbra@R500 ~/sed % vim -c 'call setline(1,"äöüßÄÜÖabc")|w ++enc=latin1
latin1.txt|q'
chrisbra@R500 ~/sed % cat latin1.txt
�������abc
chrisbra@R500 ~/sed % cat convert_umlaute.txt
s/\xe4/ä/g
s/\xf6/ö/g
s/\xfc/ü/g
s/\xdf/ß/g
s/\xc4/Ä/g
s/\xd6/Ö/g
s/\xdc/Ü/g
chrisbra@R500 ~/sed % sed -f convert_umlaute.txt < latin1.txt
äöüßÄÜÖabc
#v-

Eventuell kannst Du auch Vim zum konvertieren nehmen. Oder auch
gleich Perl.

Grüße,
Christian

--
Zum AUSTRAGEN schicken Sie eine Mail an debian-user-g...@lists.debian.org
mit dem Subject "unsubscribe". Probleme? Mail an listm...@lists.debian.org (engl)

Archive: http://lists.debian.org/eca50344747f58dbe084...@comm.256bit.org

Martin Steigerwald

unread,

Mar 28, 2012, 4:40:01 PM3/28/12

to

Am Mittwoch, 28. März 2012 schrieb Martin Eberhard Schauer:
> >> Dann kamen die Osteuropäer, die Griechen, die Chinesen oder wen auch
> >> immer Du für andere "exotische" Schriftzeichen als Schuldigen dazu
> >> nehmen willst. Deshalb wurde "utf-8" erfunden. In "utf-8" werden
> >> "exotische Zeichen" wie z.B. das "ä" in zwei oder mehr Bytes
> >> kodiert.
> >
> > Ein bis vier Byte, wenn ich mich recht entsinne. Das höchste Bit gibt
> > an, ob das Zeichen noch ein weiteres Byte benötigt. Daher gehen
> > ASCII-Zeichen in einem Byte.
> >
> > Jup:
> >
> > martin@merkaba:~> echo "a"> /tmp/a
> > martin@merkaba:~> echo "ä"> /tmp/ä
> > martin@merkaba:~> hd /tmp/a
> > 00000000 61 0a |a.|
> > 00000002
> > martin@merkaba:~> hd /tmp/ä
> > 00000000 c3 a4 0a |...|
> > 00000003
> > martin@merkaba:~>
>
> Vielleicht gibt man 7 utf-8 zusätzliche Erkenntnisse.

Ja, in der Tat. Die Manpage kannte ich noch nicht.

Macht aber bei weitem nicht so viel Spaß, wie Ausprobieren ;).

Vom Grundprinzip entsprichts vom groben Überfliegen dem, was ich
geschrieben hab.

Danke,

--
Martin 'Helios' Steigerwald - http://www.Lichtvoll.de
GPG: 03B0 0D6C 0040 0710 4AFA B82F 991B EAAC A599 84C7

--
Zum AUSTRAGEN schicken Sie eine Mail an debian-user-g...@lists.debian.org
mit dem Subject "unsubscribe". Probleme? Mail an listm...@lists.debian.org (engl)

Archive: http://lists.debian.org/201203282235...@lichtvoll.de