Google Groups no longer supports new Usenet posts or subscriptions. Historical content remains viewable.
Dismiss

Re: Unicode Datenbank

0 views
Skip to first unread message

Marcel Logen

unread,
Jul 29, 2022, 9:37:49 AM7/29/22
to
Michael Bäuerle in de.alt.test:

>Thomas Barghahn wrote:
>> *Michael Bäuerle* meinte:
>> > Thomas Barghahn wrote:
>> > > *Marcel Logen* meinte:

>> > > > <https://www.unicode.org/Public/14.0.0/ucd/UnicodeData.txt>.
>> > >
>> > > Übrigens habe ich diese Tabelle schon länger gesucht - Vielen Dank!
>> > >
>> > > Besonders interessieren mich die Namen all dieser Zeichen - ja, die
>> > > Tabelle ist schon schön. :-)
>> > > Aussehen tut sie aber, als wäre sie eine Excel-csv Datei, bei welcher
>> > > noch so einige Daten fehlen.
>> >
>> > Lasse dir mal das ganze Verzeichnis anzeigen:
>> > <https://www.unicode.org/Public/14.0.0/ucd/>
>> > Da gibt es noch jede Menge mehr Unicode-Daten.
>>
>> Oh ... - Vielen Dank! :-)
>
>Interessant dürfte für die offiziellen Namen sein:
><https://www.unicode.org/Public/14.0.0/ucd/NameAliases.txt>
>(die Einträge mit dem Type Label "correction")

Diese Datei hatte ich mir noch nie angeschaut. Danke.

Dann müßte ich die ja eigentlich auch bei meinem Script
berücksichtigen, entweder indem ich die UnicodeData.txt
damit 'patche' oder indem ich die NameAliases.txt auch
von meinem Script mit durchsuchen lasse. Dann könnte ich
die korrigierten Namen im Output vielleicht in Klammern
hinter die immutablen setzen.

Sieht nach Arbeit aus ... ;-)

Aber es sind eh nur 29 oder 30 Codepoints, die davon be-
troffen sind. In der NameAliases.txt gibt es 29mal "correc-
tion" und einmal "alternate" (bei U+FEFF "BOM"). In der Datei
<https://www.unicode.org/Public/14.0.0/ucd/NamesList.txt>
gibt es 30 Codepoints, wo am Zeilenanfang ein TAB gefolgt
von einem "%" steht.

>Einige Namen für Unicode-Codepoints wurden falsch definiert und
>mussten dann aus Kompatibilitätsgründen erhalten bleiben.
><http://www.unicode.org/reports/tr44/#Invariants>
>|
>| Some character properties are simply considered immutable:
>| once assigned, they are never changed. For example, a character's
>| name is immutable, because of its importance in exact identification
>| of the character.
>
>Beispiel:
>
> U+01A2 LATIN CAPITAL LETTER GHA
>
>Der neue/richtige (korrigierte) Name steht in besagter Datei.

Ja, in einem Fall hat man sogar einen Buchstabendreher auf
diese Weise korrigieren müssen:

| 1D0C5 BYZANTINE MUSICAL SYMBOL FHTORA SKLIRON CHROMA VASIS
| % BYZANTINE MUSICAL SYMBOL FTHORA SKLIRON CHROMA VASIS
| * misspelling of "FTHORA" in character name is a known defect

Marcel

f'up2 de.comp.text.misc
--
│ ╭─╮ ╭────╮ ╭───────╮ ╭─╮ ╭────────╮ ..67..
╰─╯ ╰──╮ ╰──╮ │ ╰──╮ │ ..39..│ ╰─╮ ╰───╮ ╰─╮ ╭─╮ ╭─
╰─╮ ╭─╯ ╰──╮ ╭─╯ │ ╭───╮..39..│ ╰───╮ ╰───╮ ╰───╯ ╰─╯
╰──╯ ╰───╯ ╰──╯ ╰──────╯ ╰──────╯ ..67..

Michael Bäuerle

unread,
Jul 29, 2022, 10:55:12 AM7/29/22
to
Marcel Logen wrote:
> Michael Bäuerle in de.alt.test:
> >
> > [...]
> > Interessant dürfte für die offiziellen Namen sein:
> > <https://www.unicode.org/Public/14.0.0/ucd/NameAliases.txt>
> > (die Einträge mit dem Type Label "correction")
>
> Diese Datei hatte ich mir noch nie angeschaut. Danke.
>
> Dann müßte ich die ja eigentlich auch bei meinem Script
> berücksichtigen, entweder indem ich die UnicodeData.txt
> damit 'patche' oder indem ich die NameAliases.txt auch
> von meinem Script mit durchsuchen lasse. Dann könnte ich
> die korrigierten Namen im Output vielleicht in Klammern
> hinter die immutablen setzen.

Oder zumindest eine Markierung, dass es sich um einen korrigierten
Namen handelt.

> Sieht nach Arbeit aus ... ;-)

Wie bei Unicode üblich.
0 new messages