>Men med 40.000 tegn -- hvordan i alverden ser kinesernes tastatur ud ???
Der er mig bekendt ikke udviklet et tastatur med 40'000
taster, men jeg har set et med et par tusind i tv. De var
meget små, og der var et specielt system med en pind, der
skulle trykke på dem. Så var der muligvis også et eller
andet lupsystem, så man kunne se tegnet bedre. Tastaturet
var vist lidt større end vores, men ikke meget.
Der er tale om at lave et udvidet tegnsæt, så de fleste
lande kan køre med ét sæt, og de asiatiske lande kan kode
hele deres tegnsæt. I øjeblikket opererer de fleste med 256
forskellige tegn, fordi det passer med en byte. Hvis man går
op på to bytes, kan man kode 65536 tegn, nok til et kinesisk
tegnsæt.
Og jo, det *hører* hjemme i dk.edb(.hardware).
--
Venlig hilsen, Bertel
http://home3.inet.tele.dk/bertellh/
Men med 40.000 tegn -- hvordan i alverden ser kinesernes tastatur ud ???
(Nej, jeg synes ikke spørgsmålet hører til i dk.edb.hardware ;-)
--
Venlig hilsen
Sven Fafner - sven....@image.dk
Roskilde
> De kinesiske skrifttegn l=E6ses og forst=E5s af (n=E6sten) alle 1+ mia kinesere,
> selv om deres talesprog er helt forskelligt - s=E5 vidt jeg har forst=E5et.
De har 2 hoveddialekter, som er stort set "mutually unintelligable",
ja (Mandarin og en anden jeg ikke lige kan huske).
> To kinesere fra hver sin ende af riget kan alts=E5 _skrive_ til hinanden,
> selv om de ikke begriber et muk af hvad hinanden _siger_.
Korrekt
> Men med 40.000 tegn -- hvordan i alverden ser kinesernes tastatur ud ???
De har vist nok indf=F8rt en nyere fonem-skrift til s=E5danne medier,
baseret p=E5 de gamle tegn men /st=E6rkt/ reduceret i omfang; og alts=E5
ikke l=E6ngere en morfem-skrift. Jeg skal lige checke nogle b=F8ger for at
v=E6re helt sikker, jeg melder lige tilbage senere. :-)
These were the incoherent ramblings of ...
... Mads Orbesen Troest <mot...@sprog.auc.dk>
[http://www.sprog.auc.dk/~motr96]
> Men med 40.000 tegn -- hvordan i alverden ser kinesernes tastatur ud ???
Man kan tage udgangspunkt i den gamle måde at skrive kinesisk på med
latinske bogstaver [Peking i stedet for Beijind, Teng i stedet for Deng,
Mao Tse-tung i stedet for Mao Zedong].
Den gamle måde var nemlig baseret på de kinesiske skrifttegn, mens den
nye er fonetisk baseret på mandarin. Dermed kan man med få latinske
bogstaver skrive alle skrifttegn. 40.000 taster på et tastatur må vist
siges at være en umulighed!
I øvrigt kan man også skrive dansk på kinesisk. H.C. Andersen skal blot
skrives med kinesiske skrifttegn, for at være forståelig for både en
kineser, en zulu og en dansker [selv om der nok er noget med faste
vendinger ...]
--
Per Erik Rønne
E-mail: xer...@diku.edu.dk
Homepage: http://www.diku.dk/students/xerxes
Remove '.edu' before e-mail [anti-spam]
>excerpts fra en nyhedsgruppe tråd jeg har fulgt en gang imellem. (I know
>it's not good netiquette to quote someone else's posts,
Det har jeg da ikke hørt før, men det er nu groft, at du gør
det, når forfatteren direkte skriver:
>and nine positions... (don't quote me).
;-)
Kineserne bruger nøjagtig det samme hardware som alle andre gør, although
the keytops are different.
I stedet for at selv prøve på at skrive en forklaring, her er nogen
excerpts fra en nyhedsgruppe tråd jeg har fulgt en gang imellem. (I know
it's not good netiquette to quote someone else's posts, but my ISP's server
is very sick these days, so I can't get back to the appropriate NG for
directions.)
--
Cheers, Paul Juhl, Montreal
Insert at sign instead of Ø if you want to email me:
pjuhlØglobalserve.net
Here follow the words of a Chinese speaker/writer. --pj
There isn't one unique character for each word.
There are limited, small number of characters called
"radicals", which each mean a certain idea or sound.
Putting these radicals together allows the formation of
more complex ideas or "words", rather LIKE an alphabet.
If one knows JUST the radicals and their meanings, one
can at least GUESS the meaning of 80% of the Chinese
written language.
It differs from an alphabet in that, even if you know
all 26 letters, you can't guess the meaning of a word
by the ideographic combination of its constituting
letters.
A "Chinese keyboard" has different keys representing the
stroke directions. Computer software provides a
list of possible characters the user can choose
from.
There are a limited number of stroke types
and positions. Something like a dozen stroke types
and nine positions... (don't quote me). This can be
stored in binary format for each character.
Efter at han har set, hvordan tråden har udviklet sig, så har jeg på
fornemmelsen, at Bertel er nu enig med dig. Er du ikke Bertel? ;-)
> Det der interesserede mig var hvordan man bærer sig ad med at udtrykke et
> 'analogt' 'billedsprog' som kinesisk ved hjælp af en 'digital' ting som
et
> tastatur.
[klip]
Forklaringen, som jeg postede tideligere i dag, havde jeg for hånden, fordi
jeg havde samlet nogle indlæg fra kinesereksperter -- eller
kinesiskeksperter(!!) -- for et andet projekt, et der var noget mere
teknisk.
Siden man regner med, der er et gennemsnit af 6 bytes for hvert engelsk
ord, mellemrummet inkluderet, og siden et kinesisk ideograph bruger to
bytes -- og der er ikke nogen space character imellem dem -- så kan man jo
tænke sig, at kinesisk er mere efficient, når man sender det. På den anden
hånd, så er der vist noget compression software, der virker særdeles godt
med "almindelig" tekst ... men der ikke ville være så gode med kinesisk.
Nå ja, dette her er sikkert lidt for teknisk for dk.kultur.sprog, så jeg må
hellere holde op nu. Det kan jeg såmænd lige så godt, for nu er jeg kommet
til enden af min tekniske viden.
>
>Og jo, det *hører* hjemme i dk.edb(.hardware).
Nej, for det var ikke noget *teknisk* spørgsmål.
Det der interesserede mig var hvordan man bærer sig ad med at udtrykke et
'analogt' 'billedsprog' som kinesisk ved hjælp af en 'digital' ting som et
tastatur.
I dk.edb(.hardware) havde jeg næppe fået så mange gode svar fra
*sprogligt* interesserede - inklusive dig selv :-)
>Efter at han har set, hvordan tråden har udviklet sig, så har jeg på
>fornemmelsen, at Bertel er nu enig med dig. Er du ikke Bertel? ;-)
Det er en diskussion, der ligger på grænsen. Jeg har (og
havde) ingen problemer med at føre den her.
>hånd, så er der vist noget compression software, der virker særdeles godt
>med "almindelig" tekst ... men der ikke ville være så gode med kinesisk.
Der er ikke noget "farligt" ved at komprimere kinesiske
tekster. Hvis det er dårligt, må det være samme fænomen, som
du ser ved giffer, at de bare ikke bliver mindre af
betydning. Det er jo logisk nok, hvis bytekoden i forvejen
er "tæt".
>Paul Juhl wrote:
>>så er der vist noget compression software, der virker særdeles godt
>>med "almindelig" tekst ... men der ikke ville være så gode med kinesisk.
>Der er ikke noget "farligt" ved at komprimere kinesiske
>tekster. Hvis det er dårligt, må det være samme fænomen, som
>du ser ved giffer, at de bare ikke bliver mindre af
>betydning. Det er jo logisk nok, hvis bytekoden i forvejen
>er "tæt".
Jeg vil kommentere både emnelinien (om kinesiske tastaturer) og
spørgsmålet om komprimering af kinesisk tekst.
Jeg har set kinesiske tastaurer, hvor hver tast svarer et et
penselstrøg i et kinesisk tegn. Man vil kombinere disse strøg for at
danne et tegn. (se et billede på http://www.armltd.co.uk/CoInfo/PressRel/Zi/)
Der er på nævnte tastatur 8 penselstrøg, og ved at indtaste dem i
samme rækkefølge, som der bliver undervist i i de kinesiske skoler,
kan programmet ofte genkende tegnet før alle strøgene er indtastet.
Efter sigende skulle de fleste tegn på denne måde kunne indtastes med
2-3 tastetryk.
Når dette kan lade sig gøre, så må man kunne bruge samme teknologi til
at komprimere en kinesisk tekst til 2-3 gange 3-bit (3 bit pr.
penselstrøg) pr. kinesisk tegn, altså 6-9 bit. Hvis man endvidere
huffman-koder de 8 penselstrøg efter hyppighed, kan man sikkert komme
ned på 5-6 bit pr. tegn i gennemsnit.
Hvis man som udgangspunkt f.eks. koder kinesiske tegn som 16-bit
Unicode og bare bruger (byte-vis) LZ komprimering på denne kode, så
tror jeg til gengæld ikke man kommer langt. Det, der gør LZ
komprimering effektiv på vestlige tekster, er at der er mange gentagne
sekvenser, ofte simpelthen fordi ord eller dele af ord gentages. Men
på kinesisk består et ord i gennensmit af mindre end 2 symboler, så
gentagelse af et ord giver ikke en lang repeteret sekvens (med mindre
man går ned på bit-niveau og komprimerer 16-bit sekvensen). Man vil
formentlig komme meget længere ved at huffman-kode tegnene efter
hyppighed.
Torben Mogensen (tor...@diku.dk)
Så skrev Bertel Lund Hansen, bl.a.:
>Der er ikke noget "farligt" ved at komprimere kinesiske
>tekster. [klip]
Derefter sagde Torben Mogensen:
[klip]
>Jeg har set kinesiske tastaurer, hvor hver tast svarer et et
>penselstrøg i et kinesisk tegn. Man vil kombinere disse strøg for at
>danne et tegn. (se et billede på
http://www.armltd.co.uk/CoInfo/PressRel/Zi/)
>Der er på nævnte tastatur 8 penselstrøg, og ved at indtaste dem i
>samme rækkefølge, som der bliver undervist i i de kinesiske skoler,
>kan programmet ofte genkende tegnet før alle strøgene er indtastet.
>Efter sigende skulle de fleste tegn på denne måde kunne indtastes med
>2-3 tastetryk.
>Når dette kan lade sig gøre, så må man kunne bruge samme teknologi til
>at komprimere en kinesisk tekst til 2-3 gange 3-bit (3 bit pr.
>penselstrøg) pr. kinesisk tegn, altså 6-9 bit. Hvis man endvidere
>huffman-koder de 8 penselstrøg efter hyppighed, kan man sikkert komme
>ned på 5-6 bit pr. tegn i gennemsnit.
>Hvis man som udgangspunkt f.eks. koder kinesiske tegn som 16-bit
>Unicode og bare bruger (byte-vis) LZ komprimering på denne kode, så
>tror jeg til gengæld ikke man kommer langt. Det, der gør LZ
>komprimering effektiv på vestlige tekster, er at der er mange gentagne
>sekvenser, ofte simpelthen fordi ord eller dele af ord gentages. Men
>på kinesisk består et ord i gennensmit af mindre end 2 symboler, så
>gentagelse af et ord giver ikke en lang repeteret sekvens (med mindre
>man går ned på bit-niveau og komprimerer 16-bit sekvensen). Man vil
>formentlig komme meget længere ved at huffman-kode tegnene efter
>hyppighed.
Jeg troede ikke det ville være "farligt." Det var den metode Torben beskrev
(LZ comprimering), jeg også mente var mere efficient med "almindelige"
alfabeter end med kinesisk tekst, hvor man ikke finder så mange gentagne
sekvenser. Og selvom der kun er otte penselstrøg, så kan der være så mange
som 8-10 forskellige positioner for hvert strøg. Just the same, I am sure
there are good huffman-kode compression programs out there that'll do the
trick just fine. Jeg kommer vist aldrig til at tage fordel af dem, fordi de
eneste kinesiske ord jeg kender er "sweet and sour." :-)
Men kinesisk er ihvertfald meget mere kompakt end sprog der bruger
alfabeter, fordi et 2-byte ideogram dækker et 5.5-byte (på gennemsnit) ord.
Her er et 11-ord eksempel givet af en der kan skrive kinesisk:
Take, for example, this very sentence here that I have typed.
It takes 60 bytes, not including the period at the end. In Chinese it would
have taken only 15 or so bytes and only one word, the "I" above, would be
stored in less space.
--end example --
Men nu bliver denne tråd jo lidt for teknisk for dk.kultur.sprog, så hvis
dette emne bliver fortsat, foreslår jeg, at den næste flytter tråden til
edb -- både software og hardware grupperne, I guess. But then please leave
a note in dk.kultur.sprog to that effect, because I'd like to follow it
elsewhere ... although I'm unlikely to continue taking part in a discussion
that's already 'way above my head.
PS: Det var da også rart for mig at få genlært ord sådan som "komprimeret"
og "hyppighed." Tit, tittere og tittest virker jo ikke så godt, let alone
tittighed. Men det gør hyp, hyppiger of hyppest vel heller ikke. :-D
>Når dette kan lade sig gøre, så må man kunne bruge samme teknologi til
>at komprimere en kinesisk tekst til 2-3 gange 3-bit (3 bit pr.
>penselstrøg) pr. kinesisk tegn, altså 6-9 bit.
Ja, hvis du vil reducere det maksimale antal forskellige
tegn til 512, så er det en god idé. Mig bekendt skal der ca.
2000 tegn til forenklet kinesisk. Det vil være dumt at lægge
den slags begrænsning i tekstprogrammet, fordi LZ-kodning
automatisk udnytter det, hvis teksten har et begrænset
tegnsæt.
>... Unicode og bare bruger (byte-vis) LZ komprimering på denne kode,
>komprimering effektiv på vestlige tekster, er at der er mange gentagne
>sekvenser, ofte simpelthen fordi ord eller dele af ord gentages.
Det er lidt forvirrende, at du først snakker om "bytevis" og
derefter om sekvenser af bytes. LZ-kodning består i at
tildele hver tegn en bitkode. Fidusen er så, at det
hyppigste tegn skal have den korteste kode, o.s.v. Det er i
princippet ligegyldigt, om det er 8- eller 16-bit tegn.
Tekst kan komprimeres effektivt, bl.a. fordi der er få tegn.
Det bliver muligvis udnyttet til lidt krymmel på lagkagen,
at der optræder ens sekvenser.
PS. Nu behøver vi snart ikke give flere eksempler på,
hvorfor det er hensigtsmæssigt at flytte en diskussion til
en relevant gruppe.
>De 2-3 penselstrøg er en typisk situation. De sjældnere tegn kan kræve
>flere strøg, før de bliver genkendt. Der er altså ingen begrænsning
>til et minimalt tegnsæt, i hvert fald ikke til 512 tegn.
Så kan du heller ikke nøjes med 9 bits. Det er dog muligt,
at gennemsnittet kan holdes på det.
>Jeg tror du tænker på huffman kodning.
Du har ret, jeg huskede forkert.
>Torben AEgidius Mogensen wrote:
>>Når dette kan lade sig gøre, så må man kunne bruge samme teknologi til
>>at komprimere en kinesisk tekst til 2-3 gange 3-bit (3 bit pr.
>>penselstrøg) pr. kinesisk tegn, altså 6-9 bit.
>Ja, hvis du vil reducere det maksimale antal forskellige
>tegn til 512, så er det en god idé. Mig bekendt skal der ca.
>2000 tegn til forenklet kinesisk.
De 2-3 penselstrøg er en typisk situation. De sjældnere tegn kan kræve
flere strøg, før de bliver genkendt. Der er altså ingen begrænsning
til et minimalt tegnsæt, i hvert fald ikke til 512 tegn.
> Det vil være dumt at lægge
>den slags begrænsning i tekstprogrammet, fordi LZ-kodning
>automatisk udnytter det, hvis teksten har et begrænset
>tegnsæt.
Jeg tror du tænker på huffman kodning.
>>... Unicode og bare bruger (byte-vis) LZ komprimering på denne kode,
>>komprimering effektiv på vestlige tekster, er at der er mange gentagne
>>sekvenser, ofte simpelthen fordi ord eller dele af ord gentages.
>Det er lidt forvirrende, at du først snakker om "bytevis" og
>derefter om sekvenser af bytes. LZ-kodning består i at
>tildele hver tegn en bitkode. Fidusen er så, at det
>hyppigste tegn skal have den korteste kode, o.s.v. Det er i
>princippet ligegyldigt, om det er 8- eller 16-bit tegn.
Igen tror jeg du tænker på huffman kodning.
>Tekst kan komprimeres effektivt, bl.a. fordi der er få tegn.
>Det bliver muligvis udnyttet til lidt krymmel på lagkagen,
>at der optræder ens sekvenser.
LZ komprimering, som bruges bl.a. af gzip, bruger netop sekvenser og
ikke tegnhyppighed. For tekster, som bruger et almindeligt alfabet,
giver LZ komprimering typisk betydeligt bedre komprimering end huffman
kodning, som udnytter tegnenes forskellige hyppighed. LZ komprimering
ser efter seksenser, som forekommer tidligere i teksten. Man kan lave
sekvenser af tegn eller af bitmønstre. Hvis man bruger bitmønstre, kan
man til en vis grad udnytte de enkelte tegns hyppighed, da et
bitmønster for et hyppigt tegn typisk vil have forekommet tidlige og
ret tæt pa det nuværende, hvilket er bedst for LZ komprimering.
Huffman kodning udnytter udelukkende tegnenes forskellige hyppighed
til at kode hyppige tegn med færre bit end mindre hyppige tegn. Hvis
man har et 8 bit tegnset er den absolut maksimale komprimering med
huffman kodning altså en faktor 8, og det er ret urealistisk. En
faktor 4 må siges at være en overordentlig god komprimering med
huffman kodning. Jeg ser tit LZ komprimering give mere end en faktor
4. Som et eksempel bliver dette brev komprimeret med en faktor 2.1 med
gzip (LZ komprimering) mod en faktor 1.6 med compact (adaptiv huffman
kodning).
Men, som sagt, så tror jeg forholdet vil være anderledes, når man
taler om kinesiske tekster, da tegnsættet er større, der er større
forskel på tegns hyppighed og der er få gentagne sekvenser.
Torben Mogensen (tor...@diku.dk)
>Tit, tittere og tittest virker jo ikke så godt, let alone
>tittighed. Men det gør hyp, hyppiger of hyppest vel heller ikke.
Tit, tiere, tiest.
Hyppig, hyppigere, hyppigst.
Ofte, oftere, oftest.
--
Per K. Nielsen
Du tænker sikkert på cantonesisk eller måske shangai. Der flere end 2
hoveddialekter.
For øvrigt er det så vidt jeg ved ren politik at kalde de vidt
forskellige kinesiske sprog for dialekter. Ligesom det fx også er ren
politik at kalde serbisk og kroatisk for de 2 forskellige sprog.
Mvh.
- Byrial
>Mandarin og cantonesisk skal, efter hvad jeg har læst, være lige så
>"mutually unintelligble" som dansk og italiensk.
Tilhører de samme sprogstamme?
mvh. Steen
> >Mandarin og cantonesisk skal, efter hvad jeg har læst, være lige så
> >"mutually unintelligble" som dansk og italiensk.
>
> Tilhører de samme sprogstamme?
Hvis de er lige så beslægtede som dansk og italiensk [som jeg har set et
sted], så må de to naturligvis være beslægtede. Både dansk og italiensk
er indoeuropæiske sprog. Dansk et germansk, italiensk et italisk som
eksempelvis latin og sabinsk.
Er der i øvrigt en overgruppe for europæiske sprog som indbefatter
germansk, italisk og græsk? De må vel være mere beslægtede end de er med
sanskrit?
>Steen Kastoft Hansen <ste...@image.dk> skrev (wrote):
>
>> >Mandarin og cantonesisk skal, efter hvad jeg har læst, være lige så
>> >"mutually unintelligble" som dansk og italiensk.
>>
>> Tilhører de samme sprogstamme?
>
>Hvis de er lige så beslægtede som dansk og italiensk [som jeg har set et
>sted], så må de to naturligvis være beslægtede. Både dansk og italiensk
>er indoeuropæiske sprog. Dansk et germansk, italiensk et italisk som
>eksempelvis latin og sabinsk.
De er ikke bare "lige så beslægtede som dansk og italiensk", de er faktisk
to "dialekter" af samme sprog, kinesisk. Når jeg nu siger "dialekter" i
anførselstegn er det fordi, at to forskellige dialekter af kinesiske ofte
kan være gensidigt uforståelige. De er dog i meget tæt familie, og selvom
en person, der taler kantonesisk ikke normalt vil kunne forstå en
mandarin-talende, vil de kunne forstå hinanden skrift, da de har samme
skriftsprog og ortografi.
>Er der i øvrigt en overgruppe for europæiske sprog som indbefatter
>germansk, italisk og græsk? De må vel være mere beslægtede end de er med
>sanskrit?
Ikke til jeg ved af, men man kan vel danne om "Vest-indoeuropæisk"