Google Groups no longer supports new Usenet posts or subscriptions. Historical content remains viewable.
Dismiss

Päivitetty: Suomen kielen kirjoittaminen Unicodea käyttäen

14 views
Skip to first unread message

Juhapekka Tolvanen

unread,
Feb 5, 2006, 4:55:20 PM2/5/06
to

Otetaas uusiksi tää juttu ja tällä kertaa vain tässä ryhmässä.
WWW-aiheisessa ryhmässä tuli hieman kommenttia lähinnä ulkoasusta, mutta
kuinkahan on asiasisällön laita.

Väkersinpä äsken isolla vaivalla tuollaisen WWW-sivun:

Suomen kielen kirjoittaminen Unicodea käyttäen
http://iki.fi/juhtolv/unicode/suomi.html

Kertokaapa, onko tuossa mitään korjailtavaa.


--
Juhapekka "naula" Tolvanen * http colon slash slash iki dot fi slash juhtolv
"She turns me on. She makes me real. I have to apologize for the way I feel."
Nine Inch Nails

Jukka Aho

unread,
Feb 5, 2006, 7:55:19 PM2/5/06
to
Juhapekka Tolvanen wrote:

> Väkersinpä äsken isolla vaivalla tuollaisen WWW-sivun:
>
> Suomen kielen kirjoittaminen Unicodea käyttäen
> http://iki.fi/juhtolv/unicode/suomi.html
>
> Kertokaapa, onko tuossa mitään korjailtavaa.

Toteamus "Euron murto-osahan on sentti ja sen merkki on ¢ (U+00A2 CENT
SIGN)" on ristiriidassa sen kanssa, mitä Korpela sivullaan eurosenttien
merkinnästä toteaa - ja itsekin linkität kyseiselle sivulle heti
seuraavassa kappaleessa.

N- ja m-viivojen osalta olen itse sitä mieltä, että selkeintä olisi
jättää m-viiva suomen kielessä käytöstä pois kokonaan.
(Englanninkielisessä typografiassa m-viivoja näytetään käyttävän
ajatusviivana silloin, kun ajatusviiva kirjoitetaan suoraan kiinni
sanoihin, ilman välilyöntejä - tämä on erityisesti amerikkalaisten
suosima tapa - ja n-viivaa taas silloin, jos ajatusviivan molemmilla
puolilla on välilyönnit.) Jos asiasta kuitenkin on jokin virallinen
suositus tulossa - kuten sivullasi vihjataan - jään odottamaan.

Muuhun sisältöön en ota kantaa kuin toteamalla, että hakuteoksena sivusi
varmastikin on toimiva ja tarpeellinen - etenkin jos jaksat pitää sen
ajan tasalla aina silloin, kun näistä asioista jokin virallisempi taho
mahdollisesti antaa suosituksia.

--
znark

Tommi Pirinen

unread,
Feb 5, 2006, 9:27:50 PM2/5/06
to
Sun, 05 Feb 2006 23:55:20 +0200, Juhapekka Tolvanen
<SNAFU....@iki.fi.FUBAR.invalid> kirjoitti:

> Suomen kielen kirjoittaminen Unicodea käyttäen
> http://iki.fi/juhtolv/unicode/suomi.html
>
> Kertokaapa, onko tuossa mitään korjailtavaa.

Minulla on hämärä muistikuva siitä, että kolmen pisteen merkki on
jonkinasteinen yhteensopivuusmerkki myöskin, mutta toisaalta
yhteensopivuusasia Unicode-standardissa on aika monimutkainen, joten
saatan muistaa väärinkin. Yhteensopivuusasia johdannossa saattaakin
vaatia tarkempaa selittelyä, jos joku muukin, joka on hämääntynyt
Unicode-standardin lukemisesta tulee noille sivuille :-)

Lauseessa "Suomen kielessä käytetään US-ASCII:stakin löytyviä merkkejä
A...Z ja a...z sekä numeroita 0...9" pisteet olisi ehkä aiheellista
korvata väliviivalla, jota suomessa tietääkseni myös tällaisissa
rajakohtamerkinnöissä käytetään ensisijaisesti. (Korvasin elliptiset
pisteet kolmella pistemerkillä, jottei nyyssiviestini toivottavasti mene
rikki.)

Minusta kaikkien viivamerkkien kutsuminen väliviivoiksi on vähän
harhaanjohtavaa, vaikkakin yleiskielessä kovin tavallista.

Luetelmapallosta voinee mainita, ettei se suomen kielessä ole
perinteisesti kai ollut mikään yleinen luetelmamerkki.

Olisikohan sitovien välilyöntien ja leveydettömien tyhjeiden kuvaus
myös tarpeen? Tavallaanhan niitäkin saattaa suomea kirjoittaessaan
tarvita.

--
Flammie, tietojenkäsittelijälingvisti, Gentoon kotoistaja ja
satunnaisfriikki. <http://www.iki.fi/flammie//~tpirinen/disambiguation>

Jukka K. Korpela

unread,
Feb 6, 2006, 2:55:25 AM2/6/06
to
Tommi Pirinen wrote:

> Minulla on hämärä muistikuva siitä, että kolmen pisteen merkki on
> jonkinasteinen yhteensopivuusmerkki myöskin,

Ilman muuta. Yhteensopivuusmerkkejä (compatibility characters) ovat muun
muassa kaikki ne merkit, joilla on yhteensopivuushajotelma
(compatibility decomposition), ja tämä asia taas on yksiselitteisesti
määritelty.

> mutta toisaalta
> yhteensopivuusasia Unicode-standardissa on aika monimutkainen,

On kyllä, mutta siinä on kyse siitä, mitä _vaikutusta_ on sillä, että
merkki on yhteensopivuusmerkki. Unicode-standardissa on asiasta
eri-ikäisiä kerrostumia, joten kaikkea siinä ei pidä ottaa ihan
nimellisarvostaan. Hiljattain käytiin Unicode-konsortion avoimella
postituslistalla keskustelua juuri ellipsin asemasta, ja konsensuksena
tuntuu olevan, että ellipsi on ihan kunnollinen merkki, jota voi käyttää
- ja joka ehkä hyvinkin määriteltäisiin täysin itsenäiseksi merkiksi,
jos se lisättäisiin Unicodeen nyt.

Eri asia sitten on, että ellipsi on selvästi tarkoitettu esittämään
kolmea pistettä, joiden välissä on selvästi tyhjää, enemmän kuin
normaalisti syntyy, kun ladotaan kolme pistettä peräkkäin. Tällainen
ellipsi on käytössä mm. englannissa, kun taas joissakin muissa kielissä
käytetään aivan peräkkäisiä, välistämättömiä pisteitä. Mikään instanssi
ei liene ottanut kantaa siihen, kumpaa tapaa suomessa pitäisi käyttää,
mutta painotekstien vanha käytäntö näyttää selvästi olevan välistettyjen
pisteiden kannalla. (Konekirjoitustekstiin tai vastaavaan ei tässä
tietenkään pidä kiinnittää huomiota, koska siinä pisteet näyttävät
välistetyiltä ihan sen takia, että fontti on tasalevyinen.)

> Luetelmapallosta voinee mainita, ettei se suomen kielessä ole
> perinteisesti kai ollut mikään yleinen luetelmamerkki.

Luetelmapallo ei todellakaan kuulu suomen typografian perinteisiin,
mutta eipä se kuulu juuri mihinkään muuhunkaan perinteeseen - ainakaan
jos perinteenä pidetään (perinteiseen tapaan) sellaista, mikä on
siirtynyt sukupolvelta toiselle. (Nykymaailmassahan tapahtumaa sanotaan
perinteiseksi, jos jo viime vuonna järjestettiin jotain samalla nimellä.)

Toisaalta kielenhuoltajat eivät tunnu kovin innokkailta paheksumaan
luetelmapalloa. Pikemminkin se nähdään esitystapana, joka sopii
joihinkin yhteyksiin, etenkin PowerPoint®-esityksiin ja vastaaviin.
Avoimeksi jää, miten pitäisi suhtautua luetelmapallon hallitsevaan
asemaan tekstinkäsittelyohjelmalla tehdyissä asiakirjoissa, joista se on
jo laajalti levinnyt kirjoihinkin. Hallitseva asema johtuu tietysti
ennen muuta siitä, etteivät useimmat kirjoittajat osaa tai viitsi
asettaa luetelmamerkin muotoa vaan käyttävät sitä, mitä
tekstinkäsittelyohjelman oletusasetuksista johtuu.

> Olisikohan sitovien välilyöntien ja leveydettömien tyhjeiden kuvaus
> myös tarpeen? Tavallaanhan niitäkin saattaa suomea kirjoittaessaan
> tarvita.

Sitova eli yhdistävä välilyönti on tarpeellinen merkki, ja
tietokoneohjelmissa se toimii yleensä oikein hyvin. Suurimmat ongelmat
tulevat siitä, kun joku leikkaa ja liimaa tekstiä asiakirjasta jonnekin
muualle, vaikkapa lomakkeeseen. Jos lomaketta käsittelevää ohjelmaa ei
ole koodattu käsittelemään sitovaa välilyöntiä, voi käsittely mennä
aivan sekaisin, sillä vaikka sitova välilyönti _näyttää_ ihan
välilyönniltä, se ei _ole_ välilyönti.

Leveydettömillä välilyönneillä onnistuu toistaiseksi yleensä vain
ampumaan itseään jalkaan. Niiden käsittely eri ohjelmissa on sen verran
sekalaista ja virheellistäkin, ettei niillä voi tehdä asioita juuri
muuten kuin ohjelmakohtaisesti. Ohjelmakohtaisia toimintoja taas on
parempi ajatella ohjelman omia termejä käyttäen. On oikeastaan parempi
olla edes miettimättä, mitä esimerkiksi "rivinvaihdon esto" tai
"rivinvaihtovihje" oikeasti tarkoittaa - sillä se tarkoittaa eri asioita
eri ohjelmissa.

Juhapekka Tolvanen

unread,
Feb 6, 2006, 6:24:10 AM2/6/06
to

"Jukka Aho" <jukk...@iki.fi> writes:

> Toteamus "Euron murto-osahan on sentti ja sen merkki on ¢ (U+00A2 CENT
> SIGN)" on ristiriidassa sen kanssa, mitä Korpela sivullaan
> eurosenttien merkinnästä toteaa - ja itsekin linkität kyseiselle
> sivulle heti seuraavassa kappaleessa.

Onks nyt yhtään paremmin?

Juhapekka Tolvanen

unread,
Feb 6, 2006, 6:35:31 AM2/6/06
to

Tommi Pirinen <fla...@iki.fi> writes:

> Minusta kaikkien viivamerkkien kutsuminen väliviivoiksi on vähän
> harhaanjohtavaa, vaikkakin yleiskielessä kovin tavallista.

Nyt sen osion nimi on pelkkä Viivamerkit.

> Luetelmapallosta voinee mainita, ettei se suomen kielessä ole
> perinteisesti kai ollut mikään yleinen luetelmamerkki.

Onkos nyt paremmin?

> Olisikohan sitovien välilyöntien ja leveydettömien tyhjeiden kuvaus
> myös tarpeen? Tavallaanhan niitäkin saattaa suomea kirjoittaessaan
> tarvita.

Asiaa täytyy harkita.

Jukka Aho

unread,
Feb 6, 2006, 7:07:30 AM2/6/06
to
Juhapekka Tolvanen wrote:

>> Toteamus "Euron murto-osahan on sentti ja sen merkki on ¢ (U+00A2
>> CENT SIGN)" on ristiriidassa sen kanssa, mitä Korpela sivullaan
>> eurosenttien merkinnästä toteaa - ja itsekin linkität kyseiselle
>> sivulle heti seuraavassa kappaleessa.

> Onks nyt yhtään paremmin?

No, ehkä vähän, mutta nyt herää kysymys, miksi ylipäänsä haluat nostaa
eurosta kirjoittaessasi esiin myös (amerikkalaisen dollaripohjaisen)
sentin symbolin - ainakin jos nyt lähdetään siitä olettamuksesta, että
sitä ei mikään taho eurosenttien kanssa suosittele käyttämään, eikä
kyseistä symbolia eurokolikoissakaan esiinny.

--
znark

H. Markus Lang

unread,
Feb 6, 2006, 7:24:10 AM2/6/06
to

Juhapekka Tolvanen wrote:

> http://iki.fi/juhtolv/unicode/suomi.html
>
> Kertokaapa, onko tuossa mitään korjailtavaa.

"'Vaseliinia, vaseliinia!', huusivat pilkut tuskissaan"

Tuossa on pilkkuvirhe. Virkkeen loppuun kuuluu piste.

-----------------------------------
marku...@elisanet.fi
http://www.elisanet.fi/markus.lang/

Juhapekka Tolvanen

unread,
Feb 6, 2006, 7:42:48 AM2/6/06
to

"H. Markus Lang" <marku...@elisanet.fi> writes:

> Juhapekka Tolvanen wrote:

> "'Vaseliinia, vaseliinia!', huusivat pilkut tuskissaan"

> Tuossa on pilkkuvirhe. Virkkeen loppuun kuuluu piste.

*REPS* :-D

No, nyt se on korjattu.

Tommi Pirinen

unread,
Feb 6, 2006, 10:55:51 AM2/6/06
to
Mon, 06 Feb 2006 09:55:25 +0200, "Jukka K. Korpela" <jkor...@cs.tut.fi>
kirjoitti:

> Tommi Pirinen wrote:
>
>> Minulla on hämärä muistikuva siitä, että kolmen pisteen merkki on
>> jonkinasteinen yhteensopivuusmerkki myöskin,
>
> Ilman muuta. Yhteensopivuusmerkkejä (compatibility characters) ovat muun
> muassa kaikki ne merkit, joilla on yhteensopivuushajotelma
> (compatibility decomposition), ja tämä asia taas on yksiselitteisesti
> määritelty.

[...]


> Hiljattain käytiin Unicode-konsortion avoimella
> postituslistalla keskustelua juuri ellipsin asemasta, ja konsensuksena
> tuntuu olevan, että ellipsi on ihan kunnollinen merkki, jota voi
> käyttää - ja joka ehkä hyvinkin määriteltäisiin täysin
> itsenäiseksi merkiksi, jos se lisättäisiin Unicodeen nyt.

Se asia mikä minua tässä hämäsi on, että standardissa sanotaan
muistaakseni useampaankin kertaan, mutta ainakin Conformance-luvussa
kohdassa D21 /Compatibility decomposable character/:

"- - Their use is discouraged other than for legacy data or special
circumstances."

Tätä ilmeisesti uskaltaa tulkita hieman vapaamielisemmin kuin minä
alkujaan käsitin. Ainakin joidenkin merkkien kohdalla.

Jukka K. Korpela

unread,
Feb 6, 2006, 1:54:46 PM2/6/06
to
Tommi Pirinen <fla...@iki.fi> wrote:

> Se asia mikä minua tässä hämäsi on, että standardissa sanotaan
> muistaakseni useampaankin kertaan, mutta ainakin
> Conformance-luvussa kohdassa D21 /Compatibility decomposable
> character/:
>
> "- - Their use is discouraged other than for legacy data or special
> circumstances."

Itse asiassa tuo on selvin lausuma asiasta - ja kuuluu historialliseen
kerrostumaan, jota ei enää oteta kovin kirjaimellisesti. Näkemykset
kyllä vaihtelevat siitä, miten vakavasti se on otettava.

> Tätä ilmeisesti uskaltaa tulkita hieman vapaamielisemmin kuin minä
> alkujaan käsitin. Ainakin joidenkin merkkien kohdalla.

Aivan. Valitettavasti näitä asioita joutuu itse päättelemään joskus
monenkin mutkan kautta. Yhteensopivuusmerkkeihin kuuluu laaja skaala
merkkejä, joista osa on suorastaan suositeltavia (esimerkiksi sitova
välilyönti), osa taas selvästi kartettavia - ja kaikkea siltä väliltä.

--
Yucca
Vastauksia ryhmässä sfnet.keskustelu.kieli usein kysyttyihin
kysymyksiin: http://www.cs.tut.fi/~jkorpela/kielet/vukk.html

Aimo K. Vastaranta

unread,
Feb 9, 2006, 3:38:32 PM2/9/06
to
Juhapekka Tolvanen <SNAFU....@iki.fi.fubar.invalid> wrote:
>
> Väkersinpä äsken isolla vaivalla tuollaisen WWW-sivun:
>
> Suomen kielen kirjoittaminen Unicodea käyttäen
> http://iki.fi/juhtolv/unicode/suomi.html
>
> Kertokaapa, onko tuossa mitään korjailtavaa.

Vertasin kirjoittamaasi Markus Itkosen Typografian
käsikirjaan. Alla muutamia huomioita vertailusta.

Lainausmerkit-luvun jälkimmäisessä kappaleessa
kertoessasi koko- ja puolilainausmerkeistä mainitset:
"Suomen kielessä sisempinä lainausmerkkeinä käytetään
aina tavallista [U+2019]-merkkiä, vaikka ulompina
lainausmerkkeinä olisikin kulmalainausmerkki » ."
Itkosen mukaan kulmalainausmerkkien sisällä käytetään
puolilainausmerkkinä yksinkertaista kulmalainaus-
merkkiä.

M-viivasta Itkonen mainitsee, että sitä on Suomessa
aiemmin käytetty ajatusviivana, mutta on nykyisin
harvinainen, vaikka sen käyttö ei ole virhe.
"Useimmissa kirjaintyypeissä se on tarpeettomankin
pitkä ja hyppää tekstistä liikaa esiin." "Pitkä
em-viiva on [Amerikassa] edelleen yleinen mutta sen
ympärillä ei käytetä välejä." Tästä taisikin olla
keskustelua tämän säikeen toisessa artikkelissa.

N-viivasta kertovassa luvussa kirjoitat: "Lainatun
tekstin sisällä käytetään poisjätettyä kohtaa
osoittamaan kahta n-viivaa, joitten molemmilla
puolilla ja välissä on välilyönti." Itkonen
kirjoittaa: "Jos poisto ja sen merkit ovat virkkeen
lopussa, virkkeen lopettava piste kirjoitetaan
kiinni viimeiseen ajatusviivaan."

"Ranskalainen viiva" taitaa olla "luetelmaviiva"
eikä "luetteloviiva".

Kehnoon kielikorvaani kalskahtivat sanat: niitten,
vieraitten, numeroitten, joitten, noitten, muitten
ja näitten. Lisäksi ilmaisun "paperille printtaa-
malla tehty Snail-Mail" voisi korvata vaikka
sanalla "kirje". :)

Kiiski.

Tommi Nieminen

unread,
Feb 9, 2006, 3:47:57 PM2/9/06
to
Aimo K. Vastaranta kirjoitti:

> Kehnoon kielikorvaani kalskahtivat sanat: niitten,
> vieraitten, numeroitten, joitten, noitten, muitten
> ja näitten.

Monikon genetiivit -tten ja -den ovat periaatteessa täysin
vaihdannaisia, mutta -tten on sävyltään toisaalta murteellisempi,
toisaalta ylätyylisempi, tekstiympäristöstä riippuen. Se rinnastuukin
siten käytöltään monikon toiseen genetiiviin (-in; esim. omenain, lehmäin).

Olikohan Kari Suomella vai kenellä tällainen esimerkki: juhlapuheessa
sanotaan toki mieluummin "isäin kätten työ" kuin "isien käsien työ".

--
... Tommi Nieminen ... http://www.saunalahti.fi/~tommni/ ...
Miracles may happen. But they don't come in batches like a
conjuring performance. -John Dickson Carr-
... tommi dot nieminen at campus dot jyvaskyla dot fi ...

Tommi Nieminen

unread,
Feb 9, 2006, 4:00:43 PM2/9/06
to
Tommi Nieminen kirjoitti:

> Monikon genetiivit -tten ja -den ovat periaatteessa täysin
> vaihdannaisia, mutta -tten on sävyltään toisaalta murteellisempi,
> toisaalta ylätyylisempi, tekstiympäristöstä riippuen.

Jollen muuten ihan väärin muista, edesmennyt kielenhuollon
ylipuolijumala Terho Itkonen käytti varsin systemaattisesti
kirjoituksissaan -tten-genetiiviä.

Jukka K. Korpela

unread,
Feb 9, 2006, 5:53:58 PM2/9/06
to
"Aimo K. Vastaranta" wrote:

> Vertasin kirjoittamaasi Markus Itkosen Typografian
> käsikirjaan.

Vertasit varmaan kirjan 1. painokseen (vuodelta 2003).

> Itkosen mukaan kulmalainausmerkkien sisällä käytetään
> puolilainausmerkkinä yksinkertaista kulmalainaus-
> merkkiä.

Tämä on korjattu kirjan 2. painoksessa (v. 2004):
"Puolilainausmerkkeinä käytetään suomessa vain yhtä tyyppiä
(' '), molemmat merkit samoin päin."
(Kirjassa on tietysti ':n tilalla oikea puolilainausmerkki.)

Aimo K. Vastaranta

unread,
Feb 10, 2006, 3:48:29 AM2/10/06
to
Jukka K. Korpela <jkor...@cs.tut.fi> wrote:
> "Aimo K. Vastaranta" wrote:
>
> > Vertasin kirjoittamaasi Markus Itkosen Typografian
> > käsikirjaan.
>
> Vertasit varmaan kirjan 1. painokseen (vuodelta 2003).

Olet oikeassa.

> > Itkosen mukaan kulmalainausmerkkien sisällä käytetään
> > puolilainausmerkkinä yksinkertaista kulmalainaus-
> > merkkiä.
>
> Tämä on korjattu kirjan 2. painoksessa (v. 2004):
> "Puolilainausmerkkeinä käytetään suomessa vain yhtä tyyppiä
> (' '), molemmat merkit samoin päin."
> (Kirjassa on tietysti ':n tilalla oikea puolilainausmerkki.)

En löytänyt kirjalle virhelistaa. Onko sellaista
vai sattuiko sinulla olemaan molemmat versiot?

Kiiski.

Jukka K. Korpela

unread,
Feb 10, 2006, 5:00:10 AM2/10/06
to
Aimo K. Vastaranta wrote:

> En löytänyt [Typografian käsi]kirjalle virhelistaa. Onko sellaista

> vai sattuiko sinulla olemaan molemmat versiot?

Tietääkseni listaa muutoksista ei ole. Minulla on omana vain uudempi
versio. Mutta tämä lainausmerkkiasia kuului niihin, joista aikoinaan
ilmoitin Itkoselle, ja löysin asiaa koskevan kommenttini arkistoistani.

Suomen kielen osalta asia on onneksi aika selvä: mitkään normit eivät
edes mainitse yksinkertaisia kulmalainausmerkkejä, eikä niitä myöskään
käytetä eikä ole käytetty. Olisi toki luonnollista ajatella, että jos
ulommat lainausmerkit ovat kaksinkertaiset kulmalainausmerkit, niin
sisemmät ovat yksinkertaiset kulmalainausmerkit. Mutta suomen kieli siis
on toisella kannalla.

Muiden kielten osalta tilanne on hankalampi. Joissakin kielissä on
erilaisia käytäntöjä sen mukaan, minkälaisia merkkejä käytetään ulompina
lainausmerkkeinä.

Normit eivät useinkaan ota asiaan selvää kantaa (koska kyse on kuitenkin
melko harvinaisesta tilanteesta) tai ottavat ristiriitaisia kantoja.
Pähkäilimme Itkosen kanssa aika lailla sitä, mikä oikein on ranskan
kielessä virallinen käytäntö. Käsittääkseni ranskassa on aiemmin
käytetty yksinkertaisia kulmalainausmerkkejä, mutta Itkosen kirjassa
esitetty englantilaisten lainausmerkkien käyttö sisempinä
lainausmerkkeinä on ilmeisesti nykyinen linja, niin oudolta kuin se
tuntuukin.

Saksan kielessä asia taas on normatiivisesti selvä, mutta siitä
huolimatta Microsoft Word tuottaa vääränlaiset sisemmät lainausmerkit
(sulkeva lainausmerkki on 9:n muotoinen, vaikka sen pitäisi olla 6:n
muotoinen), kun kieli on määritelty saksaksi. Saapa nähdä, korjaantuuko
asia joskus - ainakin olen raportoinut vian.

0 new messages