Google Groups no longer supports new Usenet posts or subscriptions. Historical content remains viewable.
Dismiss

[int] Sprache Sonderzeichen

20 views
Skip to first unread message

Clemens Jerg

unread,
Aug 8, 2004, 12:51:49 PM8/8/04
to
Zwei harmlose Fragen mit "harmlosen" Hintergrund.

Einen "hl. Krieg der Sonderzeichen" moechte ich nicht ausloesen.
Ich wuerde nur gerne etwas "sehr, sehr heisses" erfahren.
Wer hatte diesen (in meinen Augen sehr genialen) Gedanken für die
deutsche Sprache "erfunden"?
"ä" ==> "ae", "ö" ==> "oe", "ü" ==> "ue", "ß" ==> "ss".

(1)===============================================================
Nennt sich das "Umlautersetzung", oder wie heisst der Fachbegriff,
scharfes "s" ist doch kein Umlaut, oder?
==================================================================
Auf alle Faelle bringt diese Regelung eine unheimliche Erleichterung
für jeden, der deutsche Texte international ohne Komplikationen
bearbeiten moechte.
Ich frage mich, ob sich darüber so mancher überhaupt schon mal Gedanken
gemacht hat.
Scheinbar nicht, denn anders kann ich mir gewisse Reaktionen nicht
erklaeren (besonders hier in der de. Hierarchie).

Ich lasse nun mal alle Sprachen aussen vor, die nicht auf dem
lateinischen Schriftzeichen basieren. Ich beschraenke mich mal nur
auf die franzoesische und die spanische Sprache. Sie gelten als
Weltsprachen, denn die Zahl der Muttersprachler ist sehr hoch.

Ist es jetzt aber nicht so, dass beide Sprachen im internationalen
Vergleich, bei bestimmten Betrachtungen unterrepraesentiert sind?
Hoffentlich bekommt dies wieder niemand in den falschen Hals. Ich
drücke es nochmals anders aus.
Der Anteil der Muttersprachler weltweit ist für [fr] und [es] doch
hoeher als z.B. fuer [de].
Artikel mit diesen landesspezifischen Zeichen sind sehr haeufig *nur*
in *einer* Sprache erfasst.
Entweder in [fr] oder in [es]. Eine Mischung habe ich selten
angetroffen.

Warum? - habe ich mich schon des öfteren gefragt.
Jeder benutzt in der Regel die Tastatur seiner Muttersprache. Muss
er Texte aus anderen Sprachen bearbeiten, steht er des öfteren kurz
vor dem ALT + Wahnsinn.
Uebertraegt er schliesslich seine Texte in andere Anwendungen oder
Programme, so wird er unweigerlich mit "Chiffriertechniken"
konfrontiert. Was heisst das: Seine Sonderzeichen werden gestohlen oder
sind manipuliert worden? Oder hat er Glück? - nichts passiert.
Letzteres mag ich allerdings ganz stark bezweifeln, denn das scheint
mir gleich einem 6er im Lotto.

Ich hatte mich bereits schon laenger gefragt, wie es wohl Vertreter
dieser und auch anderer Sprachen regeln - Dass ihre Texte im us/en
Format lesbar bleiben . Wie ersetzen sie ihre Sonderzeichen, oder
beharren sie auf die korrekte Schreibweise ihrer Buchstaben.
Die Zwaenge oder Konventionen, haengen alle irgendwie mit en/us
zusammen. Sicher - man kann Anwendungen schaffen, die das alles
sauber verarbeiten. Aber es beginnt ja bereits bei der Einstellung
der Tastatur. Möchte ich der ALT - Paranoia entgehen, benoetige ich
noch eine Zweittastatur. Aber innerhalb eines Textes ist ein
Tastaturtausch meist schon gar nicht möglich. Entweder, weil der Text
nur in einem Zeichensatz arbeitet, oder der Rechner runtergefahren
werden muesste, oder...
Und auf der Ebene des Betriebssystems oder bei der Kommunikation
verschiedenster Systeme werden diese Krücken oftmals zu boesartigen
Bomben, die u.U. ganze Kommunikationsketten stoeren oder sogar
funktionsunfaehig machen können.

Deshalb eine weitere Frage:
(2)===============================================================
Gibts es auch bei anderen Sprachen aehnlich einfache Regelungen,
wie sie in der deutschen Sprache existieren?
==================================================================
Sie müssen ja nicht "hochoffiziell" sein.

(Weiteres Beispiel am Rande, aber auch zum Zeichensatz)
Über das Euro Symbol gab es und gibt es noch immer endlose
Fragen und Diskussionen.
€ oder Euro oder EUR,
Das sollte doch eigentlich keine Probleme machen. Haben sich denn
die Amerikaner uber $ oder USD,
die Briten über £ oder GPR,
die Japaner über ¥ oder JPY
usw., auch so lange die Köpfe kochend heiss geredet, und gibt es
weltweit eine Tastatur mit einer Taste für jedes Wahrungssymbol?

cj

--
...sollte jemand Erfahrungen mit Problemen bei der Verwendung
verschiedenster Sprachen haben, auch auf Betriebssystemebene
und/oder ~übergreifend. Darüber könnte man mal reden.
Natüelich in der entsprechenden Gruppe.


Waldemar Krzok

unread,
Aug 8, 2004, 1:13:51 PM8/8/04
to
Clemens Jerg wrote:

> Einen "hl. Krieg der Sonderzeichen" moechte ich nicht ausloesen.
> Ich wuerde nur gerne etwas "sehr, sehr heisses" erfahren.
> Wer hatte diesen (in meinen Augen sehr genialen) Gedanken für die
> deutsche Sprache "erfunden"?
> "ä" ==> "ae", "ö" ==> "oe", "ü" ==> "ue", "ß" ==> "ss".

ich glaube, für die skandinavische Sprachen gibt es auch so was, aber es
sollen sich Sprachkundige zu Wort melden.



> Warum? - habe ich mich schon des öfteren gefragt.
> Jeder benutzt in der Regel die Tastatur seiner Muttersprache. Muss
> er Texte aus anderen Sprachen bearbeiten, steht er des öfteren kurz
> vor dem ALT + Wahnsinn.

Man kann sich an allem gewöhnen, auch an dem Dativ ;-)

> Tastaturtausch meist schon gar nicht möglich. Entweder, weil der Text
> nur in einem Zeichensatz arbeitet, oder der Rechner runtergefahren
> werden muesste, oder...

na ja, ich kenne mehrere Leute (Übersetzer) die sich entweder mit dem Alt
auseinandersetzen oder zwei Tastaturen benutzen. Es ist einfacher, als du
denkst (Hint: USB Tastaturen).

> Und auf der Ebene des Betriebssystems oder bei der Kommunikation
> verschiedenster Systeme werden diese Krücken oftmals zu boesartigen
> Bomben, die u.U. ganze Kommunikationsketten stoeren oder sogar
> funktionsunfaehig machen können.

Na ja, du übertreibst ein bisssschen ;-) Aber es ist klar, aufpassen muss
man dabei.



>
> usw., auch so lange die Köpfe kochend heiss geredet, und gibt es
> weltweit eine Tastatur mit einer Taste für jedes Wahrungssymbol?

wenn du es brauchst (z.B. ein Währungsbroker wird es wohl haben wollen),
kann man das auch einrichten. Wie ich in der Glotze gesehen habe, manche
Tastaturen der Börsenhändler sehen fast wie Flugzeugkockpit.

Ich z.B. benutze eine Tastatur, um Briefe (und Texte) in den Sprachen
Deutsch, Englisch, Polnisch und Russisch zu verfassen. Na ja, mit dem
Russischen ist es am schwierigsten, aber ein Filzer zur Hand und es geht
auch. Mit dem Polnischen klappt es ohne Probleme obwohl es sind 2x6 Zeichen
mehr, die man mit Alt und Shift-Alt eingeben muss. Es ist eine Frage der
Übung.
Mehrsprachige Texte kann man ja auch in UTF-8 oder UTF-16 verfassen. Es gibt
Editoren, die mehrsprachige Texte unterstützen. Sogar Kleinweich-Word kann
das ;-)

Waldemar

Patrick Borer

unread,
Aug 8, 2004, 1:20:24 PM8/8/04
to
"Clemens Jerg" <fethi...@e-kolay.net> schrieb:

>Wer hatte diesen (in meinen Augen sehr genialen) Gedanken für die
>deutsche Sprache "erfunden"?
> "ä" ==> "ae", "ö" ==> "oe", "ü" ==> "ue", "ß" ==> "ss".

Einen Namen kann man nicht nennen; der Hintergrund dieser Schreibung
ist, dass ä, ö und ü ursprünglich mit einem kleinen e obendrauf
geschrieben wurden, das im Laufe der Zeit zu den "Pünktchen" (Trema)
vereinfacht wurde.

Patrick Borer

C Engelmann

unread,
Aug 8, 2004, 3:31:14 PM8/8/04
to
"Clemens Jerg" <fethi...@e-kolay.net> wrote:

> "ß" ==> "ss".

Das war mal "sz", das verschmolzen ist.

Griechen haben eine Tastatur mit beiden Zeichensätzen auf den Tasten,
zwischen denen sie hin und her schalten. Siehe
Systemsteuerung->Tastatur.

Gruß
Carsten

Michael Kauffmann

unread,
Aug 8, 2004, 4:21:40 PM8/8/04
to
Clemens Jerg verlautbarte zum Themenkomplex
[int] Sprache Sonderzeichen:

> Möchte ich der ALT - Paranoia entgehen, benoetige ich
> noch eine Zweittastatur.

Es gibt auch noch das Compose-Tasten-Prinzip.

Michael Kauffmann

Patrick Borer

unread,
Aug 8, 2004, 4:39:40 PM8/8/04
to
C Engelmann <zuchts...@hotmail.com> schrieb:

>"Clemens Jerg" <fethi...@e-kolay.net> wrote:
>
>> "ß" ==> "ss".
>
>Das war mal "sz", das verschmolzen ist.

Nicht unbedingt, siehe http://faql.de/eszett.html#herkunft

Patrick Borer

Michael Pronay

unread,
Aug 8, 2004, 5:30:06 PM8/8/04
to
"Clemens Jerg" <fethi...@e-kolay.net> wrote:

> Möchte ich der ALT - Paranoia entgehen, benoetige ich noch eine

> Zweittastatur. ^ ^
| |
Da gehören *keine* Leerzeichen hin.

Nein. Eine kleine Routine tut's auch, z.B. "AllChars", die man von
<http://zwolnet.com> gratis runterladen kann.

M.

Tor-Einar Jarnbjo

unread,
Aug 8, 2004, 5:48:25 PM8/8/04
to
Waldemar Krzok <waldema...@t-online.de> wrote in
news:cf5mro$cqm$03$1...@news.t-online.com:

>> "ä" ==> "ae", "ö" ==> "oe", "ü" ==> "ue", "ß" ==> "ss".
> ich glaube, für die skandinavische Sprachen gibt es auch so was, aber
> es sollen sich Sprachkundige zu Wort melden.

Es gibt keinen "Standard" wie auf Deutsch und einen Bedarf einer solchen
Ersetzung gibt es in normalen Texten seit 10-15 Jahren eigentlich nicht
mehr. In Internetadressen werden in Norwegn a, o und a als Ersatz für æ, ø
und å empfohlen. In Texten werden wohl eher ae, oe und aa benutzt.

> na ja, ich kenne mehrere Leute (Übersetzer) die sich entweder mit dem
> Alt auseinandersetzen oder zwei Tastaturen benutzen. Es ist einfacher,
> als du denkst (Hint: USB Tastaturen).

Du brauchst nicht mal mehrere Tastaturen, sondern kannst auch mit der
gleichen Tastatur verschiedene Belegungen benutzen. Zumindest ist es kein
Problem sich zu merken, dass die auf einer norwegischen Tastatur mit +, æ,
ø und å beschrifteten Tasten mit deutscher Tastaturbelegung ß. ä. ö und ü
ausgeben.

Gruß, Tor

Clemens Jerg

unread,
Aug 9, 2004, 12:32:11 AM8/9/04
to
In news:Patrick Borer typed:

Danke, also ist es auf keinen Fall etwas, das in irgendeinem Regelwerk
vorgeschrieben wurde.
Ich verstehe es also so, dass man es besonders in D machen kann, und
jeder sollte diese "Krücke" verstehen. Vielleicht eine Art Konvention,
das Ganze?

Ich werde an anderer Stelle im Thread das etwas weiter nachfragen,
entschuldige, dass ich hier nicht soviel schreibe.

cj


Clemens Jerg

unread,
Aug 9, 2004, 12:32:19 AM8/9/04
to
Tor-Einar Jarnbjo typed:
> Waldemar Krzok wrote in

>
>>> "ä" ==> "ae", "ö" ==> "oe", "ü" ==> "ue", "ß" ==> "ss".

>> ich glaube, für die skandinavische Sprachen gibt es auch so was,
>> aber es sollen sich Sprachkundige zu Wort melden.

> Es gibt keinen "Standard" wie auf Deutsch und einen Bedarf einer
> solchen Ersetzung gibt es in normalen Texten seit 10-15 Jahren

> eigentlich nicht mehr. In *Internetadressen* werden in Norwegn a, o


> und > a als Ersatz für æ, ø und å empfohlen. In Texten werden wohl
> eher ae, oe und aa benutzt.

Diese Antworten laufen eigentlich in die Richtung, auf die das ganze
hinaus sollte.
Ich rede jetzt nicht von professionellen Texterstellungen, sondern nur
um das schnelle, mal kurze Verfassen von Texten, in denen ich auch
Woerter aus fremden Sprachen benutze. Und - ich hatte ja
eingeschraenkt, nur fuer die lateinischen Schriftzeichen und nur us/en.
Denn mit anderen Schriften anzufangen, wuerde ins endlose führen (ich
könnte mit arab., pers., osman. beginnen, andere würden noch 100
weitere Beispiele finden).

Mit Norwegisch kam ich vor kurzem wegen Norsk-Data in Berührung, und
hatte auch den Eindruck, dass hier Orginalzeichen des oefteren in der
angegebenen Art ersetzt wurden. Obwohl ich diese Sprache nicht spreche,
könnte ich mir aber vorstellen, dass ich irgendwann einmal einige
Woerter aus dieser Sprache irgendwo anders benutzen muss. Und das
waere ja dann schon genau das, was ich gefragt habe. Ob es dann
zulaessig
ist, einfach Zeichen aus dem "Standard"-Zeichensatz zu verwenden?

Für weitere Sprachen würde es mich natürlich ebenfalls interessieren.
z.B. Franzoesich "etrangere". Darf man die Akzente weglassen, oder
Cedille (es gibt sicher noch bessere Beispiele).
Aus türkischen Texten weiss ich, dass die "Manipulation" der Zeichen
toleriert wird.
Man ist sich bewusst, dass ich unter Umstaenden auf Betriebssystemebene
"schlechte" Zeichen produziere.
Denn angenommen ich benutze solche Zeichen, und daraus wird ein
Dateiname auf der Platte gebildet, dann kommt sowohl der
"unix"-basierende Rechner, als auch die MS-Welt etwas ins Wanken. Für
Mac und gar noch andere Rechnerfamilien weiss ich leider weniger. Es
sei denn Grossrechner. Und dort ist sowas schon immer ein absolutes
Tabu. Und oben wurde ja etwas ganz interessantes angesprochen.
Die *Internetadressen*. Ja - den Deutschen wurde hier ein Zugestaendnis
gemacht. Aber wie siehts in den anderen Sprachen aus. :-)

Dieses Problem sollte auch bereits hier, in diesen news aktuell sein.
Ich kann mir nicht vorstellen, wie man im Header die Information für 2
Zeichensaetze mitgeben sollte. Man kann doch nur einen Zeichensatz
benutzen und muesste dann denjenigen finden, der alle Zeichen
beinhaltet.
Und den gibts in manchen Faellen einfach nicht. Also muss man in eine
Trickkiste greifen, oder ellenlange Erklaerungen abgeben, warum man
jetzt diesen Buchstaben verhunzt hat.

Die weiteren Anregungen sind vollstens OK. Dass man heute bei
USB-Tastaturen einfach umstoepseln kann, oder mit Spickzettel,
Filzstiften schon so einiges machen kann. Aber an einer fremden
Tastatur lasse ich den Filzstift lieber in der Tasche. ;-)

Mal sehen, ob jemand noch was, gerade zu (fr) und (es), weiss. Und es
gibt ja ausser polnisch noch einige andere Sprachen, die jetzt etwas
haeufiger anzutreffen sein werden. Und seien es auch nur die
Schriftzeichen.

cj


Michael Kauffmann

unread,
Aug 9, 2004, 3:33:55 AM8/9/04
to
Clemens Jerg verlautbarte zum Themenkomplex
Re: [int] Sprache Sonderzeichen:

> Denn angenommen ich benutze solche Zeichen, und daraus wird ein
> Dateiname auf der Platte gebildet, dann kommt sowohl der
> "unix"-basierende Rechner, als auch die MS-Welt etwas ins Wanken.

Da sind Sonderzeichen oder gar Leerzeichen lästiger.

> Die *Internetadressen*. Ja - den Deutschen wurde hier ein Zugestaendnis
> gemacht. Aber wie siehts in den anderen Sprachen aus. :-)

Meinst Du DNS-Namen? Die Erweiterung war für die Chinesen.



> Ich kann mir nicht vorstellen, wie man im Header die Information für 2
> Zeichensaetze mitgeben sollte. Man kann doch nur einen Zeichensatz
> benutzen und muesste dann denjenigen finden, der alle Zeichen
> beinhaltet.
> Und den gibts in manchen Faellen einfach nicht. Also muss man in eine
> Trickkiste greifen, oder ellenlange Erklaerungen abgeben, warum man
> jetzt diesen Buchstaben verhunzt hat.

Oder man benutzt eine Kodierung, die zeichensötze mit mehr als 256 Zeichen
zuläßt.

Michael Kauffmann

Marc Olschok

unread,
Aug 9, 2004, 10:22:13 AM8/9/04
to
Clemens Jerg <fethi...@e-kolay.net> wrote:
>[...]
> Ich hatte mich bereits schon laenger gefragt, wie es wohl Vertreter
> dieser und auch anderer Sprachen regeln - Dass ihre Texte im us/en
> Format lesbar bleiben . Wie ersetzen sie ihre Sonderzeichen, oder
> beharren sie auf die korrekte Schreibweise ihrer Buchstaben.
> Die Zwaenge oder Konventionen, haengen alle irgendwie mit en/us
> zusammen. Sicher - man kann Anwendungen schaffen, die das alles
> sauber verarbeiten. Aber es beginnt ja bereits bei der Einstellung
> der Tastatur. Möchte ich der ALT - Paranoia entgehen, benoetige ich
> noch eine Zweittastatur. Aber innerhalb eines Textes ist ein
> Tastaturtausch meist schon gar nicht möglich. Entweder, weil der Text
> nur in einem Zeichensatz arbeitet, oder der Rechner runtergefahren
> werden muesste, oder...

Das hängt nun doch von der der speziellen Anwendung ab. Diesen Text
tippe ich gerade auf einer Tastatur ohne Umlaute, das ä am Anfang
habe ich z.B. als "a eingetippt, den Rest besorgen die Eintrage

map! "a ä
map! "A Ä
map! "o ö
map! "O Ö
map! "u ü
map! "U Ü
map! "ss ß

in meinem $HOME/.exrc. Natürlich gilt es hier, ein wenig an die Leser
zu denken. In einer Newsgroup außerhalb der de.* Hierarchie gehe ich
nicht mehr davon aus, dass die deutschen Sonderzeichen von den
Newsreadern der Benutzer richtig dargestellt werden. Dann verwende ich
die Umschreibungen ae, oe etc. oder auch "a, "o etc. bei Namen.

Wenn es andererseits um richtige Textverarbeitung mit LaTeX etc. geht,
sind Sonderzeichen sowieso kein Problem. Darüber hinaus eignen sich
die LaTeX Bezeichnungen auch zur Umschreibung diverser Sonderzeichen;
dies ist insbesondere in mathematischen Newsgroups der Fall, die aus
naheliegenden Gründen mit noch viel mehr Sonderzeichen zu kämpfen haben,
welche auf reinen Textterminals nicht dargestellt werden können.

> Und auf der Ebene des Betriebssystems oder bei der Kommunikation
> verschiedenster Systeme werden diese Krücken oftmals zu boesartigen
> Bomben, die u.U. ganze Kommunikationsketten stoeren oder sogar
> funktionsunfaehig machen können.

Da kann ich wenig zu sagen, bei Dateinamen bin ich sehr konservativ.

Marc

Michael Kauffmann

unread,
Aug 9, 2004, 10:54:13 AM8/9/04
to
Marc Olschok verlautbarte zum Themenkomplex
Re: [int] Sprache Sonderzeichen:

> Wenn es andererseits um richtige Textverarbeitung mit LaTeX etc. geht,


> sind Sonderzeichen sowieso kein Problem. Darüber hinaus eignen sich
> die LaTeX Bezeichnungen auch zur Umschreibung diverser Sonderzeichen;
> dies ist insbesondere in mathematischen Newsgroups der Fall, die aus
> naheliegenden Gründen mit noch viel mehr Sonderzeichen zu kämpfen haben,
> welche auf reinen Textterminals nicht dargestellt werden können.

Und die in komplizierterer als zeilenweiser Anordnung stehen sollen.

Michael Kauffmann

Message has been deleted

Christian Weisgerber

unread,
Aug 9, 2004, 12:13:53 PM8/9/04
to
Clemens Jerg <fethi...@e-kolay.net> wrote:

> Gibts es auch bei anderen Sprachen aehnlich einfache Regelungen,
> wie sie in der deutschen Sprache existieren?

Ja.

Im Dänischen wird gerne entsprechend ersetzt: å -> aa, æ -> ae,
ø -> oe. Manchmal werden die diakritischen Zeichen aber auch
weggelassen. Schweden lassen sie immer weg: å, ä -> a, ö -> o.

Bei Esperanto wird der Zirkumflex durch ein nachgestelles x oder h
ersetzt.

Im Französischen lässt man die Akzente einfach weg, was im Allgemeinen
auch keine Probleme verursacht. Im Spanischen und Italienischen,
wo die Akzente eher unwichtig sind, wird es ähnlich sein.

Im Englischen, wo diakritische Zeichen in Lehnwörtern auftauchen,
lässt man sie weg.

Allgemein dürfte das simple Weglassen am häufigsten sein. Ich habe
auch schon Spam in slawischen Sprachen bekommen, wo der Text rein
in US-ASCII formuliert war.

--
Christian "naddy" Weisgerber na...@mips.inka.de

Fredrik Roubert

unread,
Aug 9, 2004, 4:14:23 PM8/9/04
to
On Mon, 9 Aug 2004 16:13:53 +0000 (UTC), Christian Weisgerber wrote:

> Schweden lassen sie immer weg: å, ä -> a, ö -> o.

Nein, nicht immer, ziemlich oft wird es auch wie in Dänemark gemacht:
å -> aa, ä -> ae, ö -> oe.

Siehe auch:

http://groups.google.com/groups?selm=bmrjbv%24nma%241%40news.lth.se

Grüße // Fredrik Roubert

--
Möllevångsvägen 6c | +46 46 188127
SE-222 40 Lund | http://www.df.lth.se/~roubert/

Clemens Jerg

unread,
Aug 10, 2004, 4:57:57 AM8/10/04
to
Fredrik Roubert typed:

Christian Weisgerber wrote:
>
>> Schweden lassen sie immer weg: å, ä -> a, ö -> o.
>
> Nein, nicht immer, ziemlich oft wird es auch wie in Dänemark gemacht:
> å -> aa, ä -> ae, ö -> oe.
>
> Siehe auch:
>
> http://groups.google.com/groups?selm=bmrjbv%24nma%241%40news.lth.se
>

Danke, ich hab den Link und den gesamten Thread gefunden. :-)
Moeglicherweise gibts es ja fuer viele andere Sprachen bereits
aehnliche Threads. Nur ist es mir bisher noch nicht gelungen, diese
Threads aufzustoebern. Denn eine Suche nur ueber "Sonderzeichen" oder
so, liefert mir einfach zu viele Treffer und ich "lande" dann meist
nur bei einer Sprache. Aber interessieren tut es mich eben für sehr
*viele* Sprachen. :-)

cj

Philipp Reichmuth

unread,
Aug 10, 2004, 5:41:46 AM8/10/04
to
Clemens Jerg schrieb:

> Ich rede jetzt nicht von professionellen Texterstellungen, sondern nur
> um das schnelle, mal kurze Verfassen von Texten, in denen ich auch

> Woerter aus fremden Sprachen benutze. [...]

> Dieses Problem sollte auch bereits hier, in diesen news aktuell sein.

Честно говоря, я не знаю, какую проблему ты имеешь в виду.

> Ich kann mir nicht vorstellen, wie man im Header die Information für 2
> Zeichensaetze mitgeben sollte. Man kann doch nur einen Zeichensatz
> benutzen und muesste dann denjenigen finden, der alle Zeichen
> beinhaltet.

Unicode zum Beispiel.

> Und den gibts in manchen Faellen einfach nicht.

Unicode enthält zwar nicht *alles*, aber das, was er nicht enthält,
dürftest du kaum in einer E-Mail benötigen. Für Gegenbeispiele bin ich
jederzeit offen ;)

> Also muss man in eine
> Trickkiste greifen, oder ellenlange Erklaerungen abgeben, warum man
> jetzt diesen Buchstaben verhunzt hat.

Ich hab mir dann irgendwann unter Windows eine modifizierte deutsche
Tastaturbelegung gebaut, mit der ich den größten Teil der "komischen
Zeichen", die in Europa & meinem Fachbereich (Orientalistik) vorkommen,
eingeben kann.

> Mal sehen, ob jemand noch was, gerade zu (fr) und (es), weiss.

Französische Tastaturen zumindest mag ich nicht besonders, aber aus
anderen Gründen, so wie akuter Fingerverknotung, wenn man Zehnfingersatz
gewöhnt ist... vgl. z.B. http://hautrive.free.fr/noirs/azerty.png

Philipp

Christian Weisgerber

unread,
Aug 11, 2004, 9:49:35 AM8/11/04
to
Fredrik Roubert <rou...@df.lth.se> wrote:

> > Schweden lassen sie immer weg: å, ä -> a, ö -> o.
>
> Nein, nicht immer, ziemlich oft wird es auch wie in Dänemark gemacht:
> å -> aa, ä -> ae, ö -> oe.

Die (wenigen, möglicherweise nicht repräsentativen) Schweden, deren
Namen ich bisher ASCII-fizieren musste, haben alle weglassen und
keine Umschrift gewünscht. *Schulterzuck*

Clemens Jerg

unread,
Aug 12, 2004, 10:10:31 AM8/12/04
to
Michael Kauffmann typed:
> Clemens Jerg typed:

>
>> Denn angenommen ich benutze solche Zeichen, und daraus wird ein
>> Dateiname auf der Platte gebildet, dann kommt sowohl der
>> "unix"-basierende Rechner, als auch die MS-Welt etwas ins Wanken.
>
> Da sind Sonderzeichen oder gar Leerzeichen lästiger.

Da dieses Thema sicher bereits zu weit fuehren wuerde, nur ein kurzer
Hinweis.
Ich habe des oefteren sowohl fuer DOS(MS) basierende, als auch Unix-
Drivate Festplatte von anderen Rechnern eingebaut. Und da wirds
jedesmal "haarig", wenn nicht sogar katastophal, wenn fuer Dateinamen
irgendwelche Zeichen verwendet werden, die (vom Code) ueber den 128
ersten Zeichen liegen, bzw nicht der Konvention fuer Dateinamen
entsprechen. Und ich rede hier nur von ASCII, nicht von EBCDIC.


>
>> Die *Internetadressen*. Ja - den Deutschen wurde hier ein
>> Zugestaendnis gemacht. Aber wie siehts in den anderen Sprachen aus.
>> :-)
>
> Meinst Du DNS-Namen? Die Erweiterung war für die Chinesen.
>

Auch hier bin ich der Meinung, dass es Probleme gibt. Nicht nur bei
chinesischen, koreanischen, japanischen, arabischen.... Zeichen.

>> Ich kann mir nicht vorstellen, wie man im Header die Information
>> für 2 Zeichensaetze mitgeben sollte. Man kann doch nur einen
>> Zeichensatz benutzen und muesste dann denjenigen finden, der alle
>> Zeichen beinhaltet.
>> Und den gibts in manchen Faellen einfach nicht. Also muss man in
>> eine Trickkiste greifen, oder ellenlange Erklaerungen abgeben,
>> warum man jetzt diesen Buchstaben verhunzt hat.
>
> Oder man benutzt eine Kodierung, die zeichensötze mit mehr als 256
> Zeichen zuläßt.

Dazu fehlen mir bis heute die Kenntnisse, wie ich in 1 Wort, oder byte
oder 8 bit oder wie man jetzt die Bezugsgroesse definiert, mehr als 256
verschiedene Zeichen verpacken kann.

Dieses jetzt bereits sehr technische Betrachtung war jedoch nicht meine
Frage. Mir ging es einfach nur um Sonderzeichen, deren Basis die
lateinischen Buchstaben [a...z] sind.
Wie auch immer man diese Akzente, Cedille, Trema(?) usw. nennen
moechte. Und im Deutschen gibt es eben noch dieses "sz", möglicherweise
in anderen Sprachen noch den ein oder anderen Sonderbuchstaben. Aber
bereits die Waehrungssymbolistik ist kein Sprachproblem mehr, ich hatte
dieses Beispiel "nur so" erwaehnt.
Alles für: Nur mal schnell was tippen und nicht ALT oder sonstwas
benutzen zu müssen. Und wenn es keine Konventionen gibt, war die Frage
so zu verstehen, wie "im Allgemeinen" diese Tuecken so umgangen werden.
:-)

cj

Andreas Kueck

unread,
Aug 16, 2004, 1:24:01 PM8/16/04
to

Clemens Jerg <fethi...@e-kolay.net> schrieb in im Newsbeitrag:
2nn486F...@uni-berlin.de...

> Zwei harmlose Fragen mit "harmlosen" Hintergrund.
>
> Einen "hl. Krieg der Sonderzeichen" moechte ich nicht ausloesen.
> Ich wuerde nur gerne etwas "sehr, sehr heisses" erfahren.
> Wer hatte diesen (in meinen Augen sehr genialen) Gedanken für die
> deutsche Sprache "erfunden"?
> "ä" ==> "ae", "ö" ==> "oe", "ü" ==> "ue", "ß" ==> "ss".
>

Bezueglich Deutsch:

Den Fachbegriff kenne ich nicht; ich nenne das meistens "Umschreibung",
"Umlautumschreibung" oder "Eszett-Umschreibung".

Mich wurde vor dreissig Jahren in der Schule auch "deutsche Schreibschrift"
gelehrt. Damals erklaerte mir der Lehrer die Entstehung von a, o und u mit
den sich darueber befindlichen jeweils zwei Punkten folgendermassen:

Das kleine "deutsche Schreibschrift"-e sieht etwa aus wie zwei
zusammengeschriebene Einsen (11). Irgenwann "wanderte" es von hinter dem a
nach ueber das a (bzw. o und u). Spaeter verkuemmerte es dann zu zwei
Punkten. Die Umlautbuchstaben waren entstanden.

Im Grunde genommen stellen ae, oe und ue die Schreibweisen (und vielleicht
sogar auch die Aussprechweisen?) frueherer Zeiten dar.

Wie es mit dem Eszett war, steht in anderen Beitraegen zu diesem Thema.

Aus Interesse und aus Neugier suche ich seit einiger Zeit nach Normen, die
die Umlautumschreibung regeln. (Beim Eszett ist die Umschreibung ja direkt
in den "Amtlichen Regeln der deutschen Rechtschreibung" § 25 E2 geregelt.)

Bisher konnte ich nur indirekte Hinweise in Normen und dem Duden finden:

a) DIN 5007 und DIN 31638 weisen an, dass zwecks Sortierung (in bestimmten
Faellen) die Umlaute die "Aufbereitung" bzw. den "Ordnungswert" ae usw.
bekommen. (Das ist aber natuerlich nicht als "Umschreibungsanweisung" oder
"Umschreibungsmoeglichkeit"zu verstehen, zumindest nicht direkt.)

b) DIN 5008 zeigt indirekt in Beispielen fuer eine E-Mail-Adresse und einen
E-Mail-Betreff die Umschreibungen ae ("empfaenger (at) ...") bzw. ue
("Pruefungsfragen"); fuer das oe fand ich noch nicht einmal ein Beispiel.
Weiterhin wird empfohlen, bei E-Mails auf den verfuegbaren Zeichensatz des
Empfaengers Ruecksicht zu nehmen. Auch hier fehlt aber der direkte Hinweis,
wie man allgemein die Umlaute umschreibt.

c) Ein Anruf beim Duden-Telefon brachte nur die zickige Gegenfrage: "Wie
wollen Sie es denn sonst machen?" und den Hinweis, es gebe keine Norm, die
Praxis sei massgeblich.

d) Im Duden gibt es ein Kapitel "Maschinenschreiben und E-Mails" mit dem
Punkt: "Fehlende Zeichen". Darin stehen direkt die Umschreibungsempfehlungen
(ae, oe, ue, ss). In der Einleitung zu dem Kapitel steht, dass die
Empfehlungen "weitgehend" auf DIN 5008 beruhen (in der jedoch, wie in b
erwaehnt, keine direkten Hinweise zur Umlautumschreibung stehen.) Nun ist
aber der Duden keine Norm (mehr), oder?

Bezueglich Esperanto:

Die Umschreibung der Buchstaben mit den Ueberzeichen ist im "Fundamento de
Esperanto" (Zamenhof, 1905) eindeutig beschrieben: ch, gh, hh, jh, sh und u.
(Dennoch halten sich viele nicht daran und erfinden ihre eigenen
Umschreibungssysteme mit x, ^, ' und aehnlichem Unfug.)

--
Andreas Kueck


Clemens Jerg

unread,
Aug 16, 2004, 11:06:22 PM8/16/04
to
Andreas Kueck typed:
> Clemens Jerg schrieb in im Newsbeitrag:

>> Zwei harmlose Fragen mit "harmlosen" Hintergrund.
>>

>> "ä" ==> "ae", "ö" ==> "oe", "ü" ==> "ue", "ß" ==> "ss".
>>
>

> Bisher konnte ich nur indirekte Hinweise in Normen und dem Duden
> finden:
>
> a) DIN 5007 und DIN 31638 weisen an, dass zwecks Sortierung (in
> bestimmten Faellen) die Umlaute die "Aufbereitung" bzw. den
> "Ordnungswert" ae usw. bekommen. (Das ist aber natuerlich nicht als
> "Umschreibungsanweisung" oder "Umschreibungsmoeglichkeit"zu
> verstehen, zumindest nicht direkt.)
>

> [danke sehr interessant, und der Grund fuer mich diesem Anstoss
> "Sortierung" zu folgen] :-)

Bei der Suche nach Loesungen wird oft nie vollstaendig zu Tage
gefoerdert, was so alles moeglich ist in/auf dieser Welt.

Ich hatte vor Jahren, Texte in Datenbanken importiert. Verschiedene
Sprachen. Die "nichtgeregelten Regeln" fuers Deutsche waren exzellent.
Saubere, zumindest brauchbare alphabetische Sortierungen.
Jetzt z.B. Tuerkisch. Grosses "I" und "i" (ohne Punkt)
dann grosses "I" (mit Punkt) und "i". Ich verzichte auf die Schilderung
der Ergebnisse.
Ein Schlusswort: Nichts ging mehr. Bis auf sehr viel manuelle Arbeit.
Eine passende einfache Loesung? Bis heute weiss ich keine. :-)

cj

Tor-Einar Jarnbjo

unread,
Aug 17, 2004, 5:37:52 AM8/17/04
to
"Clemens Jerg" <fethi...@e-kolay.net> wrote in news:2odb8eF9kpcmU3@uni-
berlin.de:

> Ein Schlusswort: Nichts ging mehr. Bis auf sehr viel manuelle Arbeit.
> Eine passende einfache Loesung? Bis heute weiss ich keine. :-)

Die meisten Systeme haben doch locale-abhängige Sortierungsfunktionen. In
Oracle musst du die Eigenschaften NLS_SORT und NLS_LANGUAGE setzen, andere
Datenbanken werden mit Sicherheit ähnliche Möglichkeiten bieten.

Gruß, Tor

Michael Kauffmann

unread,
Aug 17, 2004, 1:15:31 PM8/17/04
to
Tor-Einar Jarnbjo verlautbarte zum Themenkomplex
Re: [int] Sprache Sonderzeichen:

> Die meisten Systeme haben doch locale-abhängige Sortierungsfunktionen. In

> Oracle musst du die Eigenschaften NLS_SORT und NLS_LANGUAGE setzen, andere
> Datenbanken werden mit Sicherheit ähnliche Möglichkeiten bieten.

Wobei sie auch fähig sind, unterschiedlich lange Zeichenfolgen als äquivalent
zu behandeln.

Michael Kauffmann

Clemens Jerg

unread,
Aug 17, 2004, 7:23:02 PM8/17/04
to
Michael Kauffmann typed:


Ja und genau dabei bekomme ich im erwaehnten türkischen "I", "i"
Sonderfall Probleme. Und zusaetzlich noch beim "s" und "c" mit
Cedille, wenn ich türkische und deutsche Namen bearbeite.

Also, ich muss, so ist mein Kenntnisstand, die Adressfelder
manipulieren. Zur Sortierung. Wenn ich die Felder doppelt halte,
kann ich dann fuer Ausdrucke z.B. wieder die Orginalschreibweise
verwenden,
aber :-) ;-)
dann muss der Druckerzeichensatz mitspielen. Oder ich drucke erst
die Auslaender und dann die anderen Auslaender.

Hoffe, es wurde deutlich, aber habe jetzt bereits so viel gefragt,
auch an anderen Stellen, ich bin der Meinung, hier gibts kein
Patent (dafuer).

cj ;-)

Michael Hemmer

unread,
Aug 18, 2004, 3:13:30 AM8/18/04
to
Clemens Jerg wrote:
> Oder ich drucke erst
> die Auslaender und dann die anderen Auslaender.
>
> Hoffe, es wurde deutlich,

Nicht wirklich.

Gruß,

Michael

Clemens Jerg

unread,
Aug 18, 2004, 9:15:10 AM8/18/04
to
Michael Hemmer typed:

Danke, damit habe ich ein Feedback, und versuche es nocheinmal.

In einer Datenbank sind die verschiedensten Namen, Wörter in den
verschiedensten Zeichensaetzen. Unter Umstaenden sogar durch Import
eingespielt.

Ich habe die kritischen Zeichen korrigiert. Im speziellen Fall sind
jetzt alle Namen nur noch "i" und "I" vorhanden. Dies ist notwendig zur
Sortierung.
Drucke ich jetzt z.B. Etiketten, kann ich ja die Orginalnamen mir
"i" und "I" mit und ohne Punkt ausdrucken, da diese in einem weiteren
Feld hintelegt sind.

Aber beim Drucken, wird der Zeichensatz des Druckers sehr
wahrscheinlich
Probleme bereiten. Und dann muss ich also die sortierten Namen wieder
getrennt fuer jeden Zeichensatz (=Land) drucken.

Und meine ganzen Erklaerungen sind nur notwendig geworden, nachdem
gesagt wurde:


"Die meisten Systeme haben doch locale-abhängige
Sortierungsfunktionen."

"...die Eigenschaften NLS_SORT und NLS_LANGUAGE "

Ja und die kann ich immer nur fuer ein Land oder eine Zeichensatzgruppe
setzen. Selbst, wenn ich mich nur im latainischen "Alphabet-Raum"
befinde.

cj

Michael Hemmer

unread,
Aug 18, 2004, 10:52:35 AM8/18/04
to
Clemens Jerg wrote:
> In einer Datenbank sind die verschiedensten Namen, Wörter in den
> verschiedensten Zeichensaetzen.

Nein, das wäre m.E. schon mal töricht. Wenn Zeichen aus mehr als einem
Zeichensatz verwendet werden, sollte man sie gleich in Unicode bzw.
einer ausreichenden Untermenge abspeichern (meinetwegen UTF-8 oder UCS-2).

> Unter Umstaenden sogar durch Import eingespielt.

Je Datenquelle muss aber der Zeichensatz festliegen (sonst sind die
Daten eh nicht eindeutig) -> eine automatisierte Anpassung ist
prinizpiell möglich.

> Ich habe die kritischen Zeichen korrigiert. Im speziellen Fall sind
> jetzt alle Namen nur noch "i" und "I" vorhanden. Dies ist notwendig zur
> Sortierung.

Die machen natürlich besonderen Ärger, weil sie (als einzige mir
bekannte Buchstaben) die ansonsten sprachübergreifend einheitliche
Zuordnung von Groß- und Kleinbuchstaben sprengen. Um diesen Ärger
zuverlässig zu vermeiden, hätte man die insgesamt vier türkischen
I-Varianten eigentlich in Unicode auf eigene Positionen setzen müssen,
obwohl zwei davon wie in anderen Sprachen auch aussehen. (Hat man ja
vielleicht sogar - müsste ich mal nachschauen.)

> Drucke ich jetzt z.B. Etiketten, kann ich ja die Orginalnamen mir
> "i" und "I" mit und ohne Punkt ausdrucken, da diese in einem weiteren
> Feld hintelegt sind.
>
> Aber beim Drucken, wird der Zeichensatz des Druckers sehr
> wahrscheinlich
> Probleme bereiten. Und dann muss ich also die sortierten Namen wieder
> getrennt fuer jeden Zeichensatz (=Land) drucken.

Wenn der Drucker nicht grundsätzlich auf die gängigen westlichen Zeichen
oder gar auf 7-Bit-ASCII eingeschränkt ist (dann würde aber getrenntes
Drucken auch nicht helfen), sollte es möglich sein, Schriften beim
Druckjob mitzuschicken bzw. im Grafikmodus zu drucken - das hängt
natürlich von Betriebssystem und Software ab.

> Und meine ganzen Erklaerungen sind nur notwendig geworden, nachdem
> gesagt wurde:
> "Die meisten Systeme haben doch locale-abhängige
> Sortierungsfunktionen."
> "...die Eigenschaften NLS_SORT und NLS_LANGUAGE "
>
> Ja und die kann ich immer nur fuer ein Land oder eine Zeichensatzgruppe
> setzen. Selbst, wenn ich mich nur im latainischen "Alphabet-Raum"
> befinde.

Es ist ganz klar, dass man prinzipiell nicht mehrere Sortierungen
gleichzeitig erzielen *kann*. Ein Ä müsste bei uns als A oder höchstens
als AE einsortiert werden, während ein Schwede oder Finne es nach dem Z
erwartet.

Deswegen müsste eine optimale Software bei der Sortierung ihrer Ausgabe
auch hier noch Rücksicht auf die Sprache des Benutzers - nicht die der
Daten! - nehmen. Das würde z.B. so aussehen, dass für einen Deutschen
vielleicht A(ÄÁÀÂ)B...Z sortiert würde, für einen Franzosen A(ÁÀÂÄ)B...Z
und für einen Finnen A(ÁÀÂ)B...ZÄÖ (die Buchstaben in Klammern wie der
Buchstabe davor sortiert, bei ansonsten absoluter Gleichheit zweier
Wörter in der angegebenen Reihenfolge).

Wo aus irgendwelchen Gründen keine nach der Sprache des Benutzers
differenzierende Sortierung möglich ist - z.B. im Druck - muss man eben
in den sauren Apfel beißen und eine oder wenige Sprachen bevorzugen.
Dabei würde man vermutlich die Erwägung "Ä sieht fast aus wie A" in den
Vordergrund stellen und das Ä eher nicht ans Ende des Alphabets stellen.

Endgültig grausam wird es natürlich, wenn man die gerade heute früh
wieder mal hier erwähnten Buchstaben aus mehreren Zeichen mit
einbezieht. Das ungarische SZ ist ein eigener Buchstabe nach S, wird
aber verdoppelt nur SSZ geschrieben - an Wortfugen aber SZSZ... Wie
sortiert man das: nach Zeichen/Glyphen oder nach dem ungarischen
Verständnis eines Buchstaben? (Und woher kommt die Information über
Wortfugen?)

Den Königsweg gibt es hier einfach nicht. Allen Menschen recht getan,
ist eine Kunst, die keiner kann. Manchmal denke ich, dass der
prototypische, sich der Existenz anderer Sprachen kaum bewusste
Amerikaner doch ein sorgenfreieres Leben haben müsste ;-)

Gruß,

Michael

Kai Skalweit

unread,
Aug 18, 2004, 1:15:24 PM8/18/04
to
Tor-Einar Jarnbjo schrieb:

>"Clemens Jerg" <fethi...@e-kolay.net> wrote in news:2odb8eF9kpcmU3@uni-
>Die meisten Systeme haben doch locale-abhängige Sortierungsfunktionen. In
>Oracle musst du die Eigenschaften NLS_SORT und NLS_LANGUAGE setzen, andere
>Datenbanken werden mit Sicherheit ähnliche Möglichkeiten bieten.

Eine Datenbank, die verschiedene Sprachen in einer
Tabelle unterscheiden kann? Wo?

--
Gruesse
Kai

Tor-Einar Jarnbjo

unread,
Aug 18, 2004, 1:21:50 PM8/18/04
to
Kai Skalweit <skal...@gmx.de> wrote in
news:2ohh5fF...@uni-berlin.de:

> Eine Datenbank, die verschiedene Sprachen in einer
> Tabelle unterscheiden kann? Wo?

Nein, das habe ich nicht geschrieben.

Tor

Message has been deleted

Clemens Jerg

unread,
Aug 19, 2004, 5:54:22 AM8/19/04
to
Michael Hemmer typed:

> Clemens Jerg wrote:
>> In einer Datenbank sind die verschiedensten Namen, Wörter in den
>> verschiedensten Zeichensaetzen.
>
> Nein, das wäre m.E. schon mal töricht. Wenn Zeichen aus mehr als
> einem Zeichensatz verwendet werden, sollte man sie gleich in Unicode
> bzw. > einer ausreichenden Untermenge abspeichern (meinetwegen UTF-8
> oder > UCS-2).

Danke, ich gehe jetzt einfach davon aus, dass uns beiden die gesamte
Problematik zu einem Grossteil bewusst ist. ;-)
Und ich von meiner Seite, bin mir bewusst, dass ich nie alles wissen
werde oder kann.

Meine ersten Erlebnisse in diesem Bereich hatte ich mit Datenbanken.
Und da fing bereits der Aerger mit ASCII und EBCDIC an.

Thema Sprache waere das zwar immer noch, aber ich bin mir bewusst, dass
dazu eine sehr umfassende Definition von "Sprache" benoetigt werden
wuerde. :-)

cj

0 new messages