Google Groups no longer supports new Usenet posts or subscriptions. Historical content remains viewable.
Dismiss

ISO 8859 -- Kurzbeschreibung

1 view
Skip to first unread message

Markus Kuhn

unread,
Nov 19, 1991, 6:42:51 AM11/19/91
to
Kurzbeschreibung der Norm ISO 8859
----------------------------------

Information processing -- 8-bit single-byte
coded graphic character sets

Die Norm ISO 8859 der International Organization for Standardiza-
tion beschreibt eine Reihe von Alternativen, den gaengigen 7-bit
ASCII-Zeichensatz fuer 8-bit Anwendungen zu erweitern.

Dazu werden den Zeichen von 20 bis 7E und von A0 bis FF (alle
Angaben von Zeichenpositionen in diesem Text sind hexadezimal)
graphische Symbole zugewiesen. Die Zeichen im Bereich 20 (SPACE)
bis 7E (~) haben das gleiche Aussehen wie im ueblichen ASCII-
Code. Ueber die Positionen 00 bis 1F und 80 bis 9F, die evtl. mit
Steuerzeichen (CR, LF, ESC, ...) besetzt sind, macht ISO 8859
keine Aussagen. Da der Bereich 80 bis 9F nicht benutzt wird,
koennen keine Steuerzeichen versehentlich durch alte Software
entstehen, die das hoechste Bit in allen Zeichen auf Null setzt.
Jedes Zeichen wird durch ein einziges Byte repraesentiert. Es ist
nach ISO 8859 nicht zulaessig, Zeichen durch ueberdrucken mit BS
oder CR zu erzeugen.

Die Norm besteht aus mehreren Teilen, da es nicht moeglich ist,
einen einzigen, fuer alle Sprachgruppen geeigneten 8-bit Zeichen-
satz zu schaffen. Jeder Teil beschreibt eine andere Alternative
fuer die Belegung des G1 Bereiches, also der Zeichen A0 bis FF.


Teil 1: Latin alphabet No. 1
----------------------------

Genaue Bezeichnung des Normdokumentes: ISO 8859-1:1987 (E)

Dieser Zeichensatz ist derzeit wohl bereits am haeufigsten imple-
mentiert worden und wurde fuer mindestens die folgenden (haupt-
saechlich westeuropaeischen) Sprachen entwickelt:

Daenisch, Hollaendisch, Englisch, Faeroesisch, Finnisch,
Franzoesisch, Deutsch, Islaendisch, Irisch, Italienisch,
Norwegisch, Portugiesisch, Spanisch und Schwedisch.

Damit enthaelt das Latin alphabet No. 1 die Zeichen, die minde-
stens in den folgenden Laendern benutzt werden:

Argentienien, Australien, Oestereich, Belgien, Belize,
Bolivien, Brasilien, Kanada, Chile, Columbien, Costa Rica,
Kuba, Daenemark, Ecuador, Faeroe Inseln, Finnland,
Frankreich, Deutschland, Guatemala, Guyana, Honduras,
Island, Irland, Italien, Liechtenstein, Luxemburg, Mexico,
Neuseeland, Nicaragua, Norwegen, Panama, Paraguay, Peru,
Portugal, El Salvador, Spanien, Surinam, Schweden, Schweiz,
die Niederlande, United Kingdom, USA, Uruguay und Venezuela.

Der Zeichensatz ist identisch mit dem Standard ECMA-94 der Euro-
pean Computer Manufacturers Association.

Der Zeichensatz ist in seiner Struktur eine Version eines 8-bit
Zeichensatzes gemaess ISO 2022. Diese Norm definiert Umschalte-
moeglichkeiten mit ESC-Sequenzen zwischen verschiedenen Zeichen-
saetzen. Fuer das Latin alphabet No. 1 ist die folgende Sequenz
vorgesehen:

ESC 28 42 Festlegung des Bereiches G0 (21 bis 7E)
ESC 2D 41 Festlegung des Bereichen G1 (A0 bis FF)

Das Zeichen SPACE (20) muss laut ISO 2022 nicht durch eine ESC-
Sequenz festgelegt werden.

Ausser fuer die folgenden beiden Zeichen legt die Norm ISO 8859
nur einen Namen und das entsprechende graphische Symbol, nicht
aber die Bedeutung fest:

- Zeichen A0: NO-BREAK SPACE (NBSP)

Ein Freizeichen, das zu benutzen ist, wenn in einer Zeile an
diesem Freiraum kein Zeilenumbruch stattfinden soll.

- Zeichen AD: SOFT HYPHEN (SHY)

Ein Zeichen, dass genauso oder aehnlich wie der Bindestrich
(-) aussieht, aber benutzt wird, wenn innerhalb eines Wortes
ein Zeilenumbruch stattfand.

Damit koennen z.B. Editoren entscheiden, ob ein Bindestrich
wieder entfernt werden muss, wenn er sich nach einer Umformatier-
ung nicht mehr am Zeilenende befindet. Bis auf das hoechste Bit
unterscheiden sich die Positionen dieser beiden Zeichen nicht von
SPACE und Bindestrich. Beide Zeichen befinden sich in allen
ISO 8859 Zeichensaetzen an den gleichen Positionen.

Die folgende Tabelle enthaelt die hexadezimale Position der Zei-
chen A0 bis FF, das entsprechende ASCII-Zeichen das man erhaelt,
wenn das hoechste Bit geloescht wird, die Bezeichnung des Zei-
chens in der Norm und eine deutsche Beschreibung oder eine
Andeutung des Aussehens mit anderen ASCII-Zeichen.


A0 SP NO-BREAK SPACE (NBSP) (siehe oben)
A1 ! INVERTED EXCLAMATION MARK kopfstehendes !
A2 " CENT SIGN c+|
A3 # POUND SIGN brit. Pfund
A4 $ CURRENCY SIGN x+o
A5 % YEN SIGN Y+-
A6 & BROKEN BAR | zweigeteilt
A7 ' PARAGRAPH SIGN, SECTION SIGN Paragraph
A8 ( DIAERESIS " (Umlautpunkte)
A9 ) COPYRIGHT SIGN (c)
AA * FEMININE ORDINAL INDICATOR hochgest. a+_
AB + LEFT ANGLE QUOTATION MARK <<
AC , NOT SIGN NOT Haken
AD - SOFT HYPHEN (SHY) (siehe oben)
AE . REGISTERED TRADE MARK SIGN (R)
AF / MACRON hochgestelltes _
B0 0 RING ABOVE, DEGREE SIGN hochgestelltes o
B1 1 PLUS-MINUS SIGN + ueber -
B2 2 SUPERSCRIPT TWO hochgestellte 2
B3 3 SUPERSCRIPT THREE hochgestellte 3
B4 4 ACUTE ACCENT hochgestelltes /
B5 5 MICRO SIGN griech. kl. mue
B6 6 PILCROW SIGN etwa grosses Pi
B7 7 MIDDLE DOT zentraler Punkt
B8 8 CEDILLA ,
B9 9 SUPERSCRIPT ONE hochgestellte 1
BA : MASCULINE ORDINAL INDICATOR hochgest. o+_
BB ; RIGHT ANGLE QUOTATION MARK >>
BC < VULGAR FRACTION ONE QUATER 1/4
BD = VULGAR FRACTION ONE HALF 1/2
BE > VULGAR FRACTION THREE QUATERS 3/4
BF ? INVERTED QUESTION MARK kopfstehendes ?
C0 @ CAPITAL LETTER A WITH GRAVE ACCENT A+\
C1 A CAPITAL LETTER A WITH ACUTE ACCENT A+/
C2 B CAPITAL LETTER A WITH CIRCUMFLEX ACCENT A+^
C3 C CAPITAL LETTER A WITH TILDE A+~
C4 D CAPITAL LETTER A WITH DIAERESIS A+"
C5 E CAPITAL LETTER A WITH RING ABOVE A+o
C6 F CAPITAL DIPHTONG A WITH E AE
C7 G CAPITAL LETTER C WITH CEDILLA C+,
C8 H CAPITAL LETTER E WITH GRAVE ACCENT E+\
C9 I CAPITAL LETTER E WITH ACUTE ACCENT E+/
CA J CAPITAL LETTER E WITH CIRCUMFLEX ACCENT E+^
CB K CAPITAL LETTER E WITH DIAERESIS E+"
CC L CAPITAL LETTER I WITH GRAVE ACCENT I+\
CD M CAPITAL LETTER I WITH ACUTE ACCENT I+/
CE N CAPITAL LETTER I WITH CIRCUMFLEX ACCENT I+^
CF O CAPITAL LETTER I WITH DIAERESIS I+"
D0 P CAPITAL ICELANDIC LETTER ETH D+-
D1 Q CAPITAL LETTER N WITH TILDE N+~
D2 R CAPITAL LETTER O WITH GRAVE ACCENT O+\
D3 S CAPITAL LETTER O WITH ACUTE ACCENT O+/
D4 T CAPITAL LETTER O WITH CIRCUMFLEX ACCENT O+^
D5 U CAPITAL LETTER O WITH TILDE O+~
D6 V CAPITAL LETTER O WITH DIAERESIS O+"
D7 W MULTIPLICATION SIGN x
D8 X CAPITAL LETTER O WITH OBLIQUE STROKE O+/ durchg.
D9 Y CAPITAL LETTER U WITH GRAVE ACCENT U+\
DA Z CAPITAL LETTER U WITH ACUTE ACCENT U+/
DB [ CAPITAL LETTER U WITH CIRCUMFLEX ACCENT U+^
DC \ CAPITAL LETTER U WITH DIAERESIS U+"
DD ] CAPITAL LETTER Y WITH ACUTE ACCENT Y+/
DE ^ CAPITAL ICELANDIC LETTER THORN etwa P+I
DF _ SMALL GERMAN LETTER SHARP s scharfes s
E0 ` SMALL LETTER a WITH GRAVE ACCENT a+\
E1 a SMALL LETTER a WITH ACUTE ACCENT a+/
E2 b SMALL LETTER a WITH CIRCUMFLEX ACCENT a+^
E3 c SMALL LETTER a WITH TILDE a+~
E4 d SMALL LETTER a WITH DIAERESIS a+"
E5 e SMALL LETTER a WITH RING ABOVE a+o
E6 f SMALL DIPHTONG a WITH e ae
E7 g SMALL LETTER c WITH CEDILLA c+,
E8 h SMALL LETTER e WITH GRAVE ACCENT e+\
E9 i SMALL LETTER e WITH ACUTE ACCENT e+/
EA j SMALL LETTER e WITH CIRCUMFLEX ACCENT e+^
EB k SMALL LETTER e WITH DIAERESIS e+"
EC l SMALL LETTER i WITH GRAVE ACCENT i+\
ED m SMALL LETTER i WITH ACUTE ACCENT i+/
EE n SMALL LETTER i WITH CIRCUMFLEX ACCENT i+^
EF o SMALL LETTER i WITH DIAERESIS i+"
F0 p SMALL ICELANDIC LETTER ETH etwa d+-
F1 q SMALL LETTER n WITH TILDE n+~
F2 r SMALL LETTER o WITH GRAVE ACCENT o+\
F3 s SMALL LETTER o WITH ACUTE ACCENT o+/
F4 t SMALL LETTER o WITH CIRCUMFLEX ACCENT o+^
F5 u SMALL LETTER o WITH TILDE o+~
F6 v SMALL LETTER o WITH DIAERESIS o+"
F7 w DIVISION SIGN :+-
F8 x SMALL LETTER o WITH OBLIQUE STROKE o+/ durchg.
F9 y SMALL LETTER u WITH GRAVE ACCENT u+\
FA z SMALL LETTER u WITH ACUTE ACCENT u+/
FB { SMALL LETTER u WITH CIRCUMFLEX ACCENT u+^
FC | SMALL LETTER u WITH DIAERESIS u+"
FD } SMALL LETTER y WITH ACUTE ACCENT y+/
FE ~ SMALL ICELANDIC LETTER THORN etwa p+I
FF DEL SMALL LETTER y WITH DIAERESIS y+"


Teil 2: Latin alphabet No. 2
----------------------------

Dieser Zeichensatz wurde fuer mindestens die folgenden (haupt-
saechlich osteuropaeischen) Sprachen entwickelt:

Albanisch, Tschechisch, Englisch, Deutsch, Ungarisch,
Polnisch, Rumaenisch, Serbo-Kroatisch, Slowakisch,
Slowenisch und Schwedisch.

Der Zeichensatz ist identisch mit dem Standard ECMA-94 der Euro-
pean Computer Manufacturers Association. Fuer Anwendungen gemaess
ISO 2022 ist die folgende Umschaltsequenz vorgesehen:

ESC 28 42
ESC 2D 42

Bei den Latin alphabets 1 bis 5 befinden sich unter anderem die
folgenden Zeichen immer an der gleichen Position:

NBSP, SHY, Paragraph, Grad, Multiplikation, Division,
scharfes s und alle deutschen Umlaute.

------------------------------------------------
Die Lust des Autors auf eine weitere grosse
Tabelle hat inzwischen merklich nachgelassen.
Wer noch Tabellen abtippen will, moege sich
bitte bei mir melden. :-)
------------------------------------------------


Teil 3: Latin alphabet No. 3
----------------------------

Dieser Zeichensatz wurde fuer mindestens die folgenden Sprachen
entwickelt:

Afrikaans, Katalanisch, Englisch, Esperanto, Franzoesisch,
Galizisch, Deutsch, Italienisch, Maltesisch und
Tuerkisch.

Der Zeichensatz ist identisch mit dem Standard ECMA-94 der Euro-
pean Computer Manufacturers Association. Fuer Anwendungen gemaess
ISO 2022 ist die folgende Umschaltsequenz vorgesehen:

ESC 28 42
ESC 2D 43


Teil 4: Latin alphabet No. 4
----------------------------

Dieser Zeichensatz wurde fuer mindestens die folgenden (haupt-
saechlich nordeuropaeischen) Sprachen entwickelt:

Daenisch, Englisch, Estnisch, Finnisch, Deutsch,
Groenlaendisch, Lappisch, Lettisch, Litauisch,
Norwegisch und Schwedisch.

Der Zeichensatz ist identisch mit dem Standard ECMA-94 der Euro-
pean Computer Manufacturers Association. Fuer Anwendungen gemaess
ISO 2022 ist die folgende Umschaltsequenz vorgesehen:

ESC 28 42
ESC 2D 44


Teil 5: Latin/Cyrillic alphabet
-------------------------------

Dieser Zeichensatz wurde fuer mindestens die folgenden (haupt-
saechlich osteuropaeischen) Sprachen entwickelt:

Bulgarisch, Weissrussisch, Englisch, Makedonisch,
Russisch, Serbo-Kroatisch und Ukrainisch.

Der Zeichensatz ist identisch mit dem Standard ECMA-113 der Euro-
pean Computer Manufacturers Association und dem sowjetischen GOST
Standard 19768. Fuer Anwendungen gemaess ISO 2022 ist die folgen-
de Umschaltsequenz vorgesehen:

ESC 28 42
ESC 2D 4C


Teil 6: Latin/Arabic alphabet
-----------------------------

Dieser Zeichensatz wurde fuer mindestens die folgenden Sprachen
entwickelt:

Arabisch und Englisch.

Der Zeichensatz ist identisch mit dem Standard ECMA-114 der Euro-
pean Computer Manufacturers Association. Fuer Anwendungen gemaess
ISO 2022 ist die folgende Umschaltsequenz vorgesehen:

ESC 28 42
ESC 2D ??


Teil 7: Latin/Greek alphabet
----------------------------

Dieser Zeichensatz wurde fuer mindestens die folgenden Sprachen
entwickelt:

Griechisch und Englisch.

Der Zeichensatz ist identisch mit dem Standard ECMA-118 der Euro-
pean Computer Manufacturers Association. Fuer Anwendungen gemaess
ISO 2022 ist die folgende Umschaltsequenz vorgesehen:

ESC 28 42
ESC 2D 46


Teil 8: Latin/Hebrew alphabet
-----------------------------

Dieser Zeichensatz wurde fuer mindestens die folgenden Sprachen
entwickelt:

Hebraeisch und Englisch.

Der Zeichensatz ist identisch mit dem Standard ECMA-121 der Euro-
pean Computer Manufacturers Association. Fuer Anwendungen gemaess
ISO 2022 ist die folgende Umschaltsequenz vorgesehen:

ESC 28 42
ESC 2D 48


Teil 9: Latin alphabet No. 5
----------------------------

Dieser Zeichensatz wurde fuer mindestens die folgenden (haupt-
saechlich westeuropaeischen) Sprachen entwickelt:

Daenisch, Hollaendisch, Englisch, Finnisch, Franzoesisch,
Deutsch, Irisch, Italienisch, Norwegisch, Portugiesisch,
Spanisch, Schwedisch und Tuerkisch.

Der Unterschied zum Latin alphabet No. 1 besteht in 6 islaendi-
schen Zeichen, die ausgetauscht wurden um die tuerkische Sprache
mit aufzunehmen. Der Zeichensatz ist identisch mit dem Standard
ECMA-128 der European Computer Manufacturers Association. Fuer
Anwendungen gemaess ISO 2022 ist die folgende Umschaltsequenz
vorgesehen:

ESC 28 42
ESC 2D 4D

WICHTIG: Ich uebernehme keine Haftung fuer die Richtigkeit der
Informationen dieses Textes und empfehle jedem, der diese Normen
implementieren will, dringend die Anschaffung der ISO Original-
dokumente. Mir lagen leider nur ISO 8859-1 und ISO 2022 vor, bei
den anderen Teilen stuetze ich mich auf die entsprechenden ECMA-
Texte. Fuer Hinweise auf Fehler dieses Textes oder Ergaenzungs-
und Verbesserungsvorschlaege bin ich sehr dankbar. Dieser Text
darf ohne Einschraenkungen weiterverbreitet werden, sofern er
nicht veraendert wird.

Markus Kuhn, 17.11.1991, msk...@immd4.informatik.uni-erlangen.de


---
Markus Kuhn, Computer Science student -- University of Erlangen, Germany
X.400: G=Markus;S=Kuhn;OU1=rrze;OU2=cnve;P=uni-erlangen;A=dbp;C=de
I'net: msk...@immd4.informatik.uni-erlangen.de

0 new messages