Google Groups no longer supports new Usenet posts or subscriptions. Historical content remains viewable.

Dismiss

Uudehko kanava #UTF-8

62 views

Skip to first unread message

Juhapekka Tolvanen

unread,

Dec 13, 2005, 2:41:29 PM12/13/05

Tällainen kanava on nyt todenteolla heräämässä henkiin: #UTF-8

Kyseessä on siis kanava, jonka aiheena on Unicode-merkistö nimeltä
UTF-8, jonka käyttö on alkanut nyt yleistyä irkissä. Aiheesta lisää
täällä:

http://wiki.tukaani.org/irc_ja_utf-8

Sivun lopussa olevien linkkien takaa löytää toki paljon lisätietoa.

#UTF-8 oli olemassa ensin niin, että siellä kykki vain yksi ihminen.
Äsken minä menin sinne ja kerroin sen kanavan olemassaolosta muutamalla
kanavalla. Lisäsin myös maininnan tuon kanavan olemassaolosta em.
Wikisivun loppuun. Juuri nyt meitä on siellä jo yhteensä 10 henkeä.

--
Juhapekka "naula" Tolvanen * http colon slash slash iki dot fi slash juhtolv
"She turns me on. She makes me real. I have to apologize for the way I feel."
Nine Inch Nails

Mikko Järvinen

unread,

Dec 13, 2005, 4:04:25 PM12/13/05

Juhapekka Tolvanen <SNAFU....@iki.fi.FUBAR.invalid> wrote:
> Kyseessä on siis kanava, jonka aiheena on Unicode-merkistö nimeltä
> UTF-8, jonka käyttö on alkanut nyt yleistyä irkissä. Aiheesta lisää
> täällä:

Anteeksi tyhmä kysymys, mutta mistä kanavalla oikeastaan
keskustellaan? Onko yksittäinen merkistö niin mielenkiintoinen asia,
että siitä riittää puhetta yli tunniksi?

Toinen juttu, mikä tulee mieleen, on se, että kohtalaisen tökerö tämä
vaihdossa kyllä. Oikeastihan koko irkki olisi pitänyt konvertoida
sisäisesti UTF-8:ksi ja tarjota siihen jonkinlainen mahdollisuus
vanhoille ja rikkinäisille systeemeille - joita kuitenkin joku
väkisin joutuu käyttämään - nähdä latin-jollain edes ne pari sataa
merkkiä.

Mainitsinko, että irkki on muutenkin rikki, särki ja hirvitys ja
pitäisi vaihtaa?

--
Mikko Järvinen - ech at iki dot fi - http://www.iki.fi/ech/

Juhapekka Tolvanen

unread,

Dec 13, 2005, 5:06:30 PM12/13/05

Mikko Järvinen <e...@iki.fi> writes:

> Juhapekka Tolvanen <SNAFU....@iki.fi.FUBAR.invalid> wrote:

> Anteeksi tyhmä kysymys, mutta mistä kanavalla oikeastaan
> keskustellaan? Onko yksittäinen merkistö niin mielenkiintoinen asia,
> että siitä riittää puhetta yli tunniksi?

Tollaisia keskustelunaiheita tuli mieleen:

1) Miten tää mun irc-klientti saadaan puhumaan ja jummartamaan UTF-8:aa?

2) Miten saada UTF-8:an käyttö leviämään laajemmalle.

3) Miten suomenkielessä käytetään oikeaoppisesti UTF-8:sta löytyviä
väliviivoja ja lainausmerkkejä. Huom! PC-näppiksen oikeanpuoleisen
Shift-näppäimen ja pisteen näppäimen välissä oleva näppäin tuottaa
oikeasti pelkän miinusmerkin, jota ei tule käyttää esim.
ajatusviivana eikä tavuviivana. Ja se 2-näppäimestä shiftin avulla
tuleva merkki ei ole mikään lainausmerkki vaan tuuman merkki.

4) Mitähän fonttia tai fontteja kannattaisi käyttää, jotta
mahdollisimman monet UTF-8:n merkit näkyisivät oikein?

> Toinen juttu, mikä tulee mieleen, on se, että kohtalaisen tökerö tämä
> vaihdossa kyllä. Oikeastihan koko irkki olisi pitänyt konvertoida
> sisäisesti UTF-8:ksi ja tarjota siihen jonkinlainen mahdollisuus
> vanhoille ja rikkinäisille systeemeille - joita kuitenkin joku väkisin
> joutuu käyttämään - nähdä latin-jollain edes ne pari sataa merkkiä.

Niinpä. IRC-protokollahan on siitä paska, ettei siinä kulje mitään
tietoa siitä, millä merkistöllä mikäkin teksti on naputeltu. En kyllä
tiedä, miten helpolla IRC-servereihin olisi saatu jotain tuollaista
ehdottamaasi toiminnallisuutta.

Mutta kenties paras tapa siitä selviämiseen on käyttää mahdollisimman
yleisesti yhtä ainutta merkistöä, johon kuuluu mahdollisimman paljon
erilaisia merkkejä eri kielistä. Eli jokin Unicode-merkistö se on
oltava. Tämän perusteella tajuaa aika pian, että se jokin merkistö
kannattaa olla UTF-8, koska:

1) US-ASCII:hin kuuluvat merkit, kuten A-Z, a-z ja 0-9 ovat siinä
samoissa merkkipaikoissa.

2) Merkistön alkupään kukin merkki voidaan esittää yhtä tavua käyttäen.
Vasta isompinumeroisissa merkkipaikoissa sijaitsevien merkkien
ilmaisemiseen tarvitaan kahta tai useampaa tavua. Eli UTF-8 säästää
tilaa.

http://en.wikipedia.org/wiki/Comparison_of_Unicode_encodings

> Mainitsinko, että irkki on muutenkin rikki, särki ja hirvitys ja
> pitäisi vaihtaa?

Vaihda SILC:kiin :-) .

Mikko Järvinen

unread,

Dec 13, 2005, 6:05:10 PM12/13/05

Juhapekka Tolvanen <SNAFU....@iki.fi.FUBAR.invalid> wrote:
> Vaihda SILC:kiin :-) .

Siinähän olisi kyllä ainakin joiltakin ominaisuuksiltaan kehittyneempi
protokolla. Saisi vain olla normaalissa Irssissä myös tuki sille, niin
mahdollinen siirtymä onnistuisi paljon helpommin, kivuttomammin ja
todennäköisemmin.

Teemu Likonen

unread,

Dec 14, 2005, 3:28:04 AM12/14/05

Juhapekka Tolvanen kirjoitti:

> - - Huom! PC-näppiksen oikeanpuoleisen Shift-näppäimen ja pisteen

> näppäimen välissä oleva näppäin tuottaa oikeasti pelkän miinusmerkin,
> jota ei tule käyttää esim. ajatusviivana eikä tavuviivana.

Tarkoittamasi merkki (U+002D) on suomen kielen kannalta yhdysmerkki,
jota nimenomaan käytetään myös ta-vu-vii-va-na. Paremman puutteessa se
korvaa myös ajatusviivan (" - ") ja miinusmerkin. Ns. oikea miinusmerkki
on U+2212 ja ajatusviiva U+2013 tai U+2014. Lyhyttä ajatusviivaa
(U+2013) voidaan käyttää myös miinusmerkkinä, mutta monissa fonteissa
näyttäisi U+2212 asettuvan paremmin numeroiden korkeuteen nähden
keskilinjalle ja sopivan muiden matemaattisten operaattoreiden kanssa
yhteen.

> Ja se 2-näppäimestä shiftin avulla tuleva merkki ei ole mikään
> lainausmerkki vaan tuuman merkki.

Se on ascii-lainausmerkki, joka paremman puutteessa korvaa mm. oikean
lainausmerkin ja tuuman merkin. Ns. oikea tuuman merkki on U+2033 ja
suomen kielen mukainen lainausmerkki on U+201D.

Antti Alhonen

unread,

Dec 15, 2005, 1:45:02 PM12/15/05

UTF-8-sota :D!

Juhapekka Tolvanen wrote:
>
> Niinpä. IRC-protokollahan on siitä paska, ettei siinä kulje mitään
> tietoa siitä, millä merkistöllä mikäkin teksti on naputeltu. En kyllä

Ja siksi UTF-8:aa irkissä käyttävät eivät vain osaa, ja sitä tahallaan
käyttävät yleensä useimmilta kanavilta potkitaan ulos, kuten kaikki
muutkin häiriköt. Ignore on myös kova sana, jotta tällaisesta
tahallisesta häiriköinnistä pääsee eroon.

Siitä, onko IRC-protokollan puute merkistötuesta suurikin ongelma,
voidaan keskustella. En kuitenkaan usko, että kukaan rehellisesti
on kokenut tätä ikinä ongelmaksi. _Ongelman tahallisesti väitetään
olevan olemassa_, jotta päästään hypettämään Unicodea. Tosielämässä
tähän _metaongelmaan_ ei törmätä - ööö, juuri koskaan? Saa antaa
tosielämän oikeasti tapahtuneita esimerkkejä rajoittuneen merkistön
ongelmista irkissä, olen ihan oikeastikin kiinnostunut.

> Mutta kenties paras tapa siitä selviämiseen on käyttää mahdollisimman
> yleisesti yhtä ainutta merkistöä, johon kuuluu mahdollisimman paljon
> erilaisia merkkejä eri kielistä.

Ei, vaan käyttää jokaisella kielellä ko. kielelle vakiintunutta
IRC-merkistöä, joka ihan _oikeasti_ toimii kaikilla ja ei tuota mitään
ongelmia. Siitä ei ole tasan yhtään mitään epäselvyyttä. Esim. kaikille
suomalaisille näkyy ISO-8859-1(5) oikein, ja kaikki saavat sitä
kirjoitettua. Esim. japanilaiset taas tietääkseni kirjoittavat irkkiin
shift-jisiä (siis oikeasti, toki sielläkin saattaa olla muutamia
Unicode-uskovaisia), jossa roomaji taas vedetään ihan perinteisillä
ascii-koodeilla, joten englanninkin he saavat aivan joka paikassa
näkymään oikein.

Ja jos joku kertoo tähän väliin, että irkkijutustelussa tarvitaan
sitten jotain hemmetin matemaattisia erikoismerkkejä, niin nauran.
Sitä tärkeämpää olisi implementoida esim. rivinvaihdot viesteihin, jotta
tällaisesta kannattaisi edes keskustella. Irkki on jutustelua varten,
se ei miltään muultakaan ominaisuudeltaan sovellu monimutkaiseen
kielitieteen tai matematiikan välineeksi. (Tällaisessa erikoiskäytössä
voidaan muuten sitten tarpeen vaatiessa yhdessä sopia jokin yhteinen
merkistö.)

Vedetääs kunnon flametustyyliin "käsi ylös" -äänestys. Kuka ihan
REHELLISESTI kehtaa sanoa, että oikeasti (ei siis leikisti) tarvitsee
irkissä sellaisia erikoismerkkejä, joita ISO-8859-1(5) ei tarjoa?

> Eli jokin Unicode-merkistö se on
> oltava.

Miksi? (Näin niin kuin asiapohjalta vaihteeksi, ei uskontopohjalta
kuten yleensä.)

> Tämän perusteella tajuaa aika pian, että se jokin merkistö
> kannattaa olla UTF-8, koska:
>
> 1) US-ASCII:hin kuuluvat merkit, kuten A-Z, a-z ja 0-9 ovat siinä
> samoissa merkkipaikoissa.

Mutta ä ja ö eivät, niistä tulee hillitöntä sotkua. Vähän paha jutella
kenenkään UTF-8:aa käyttävän kanssa.

> 2) Merkistön alkupään kukin merkki voidaan esittää yhtä tavua käyttäen.
> Vasta isompinumeroisissa merkkipaikoissa sijaitsevien merkkien
> ilmaisemiseen tarvitaan kahta tai useampaa tavua. Eli UTF-8 säästää
> tilaa.

Tuo on toki vanhojen koodausten (ja UTF-8:n) etu, mutta tämä on
epäoleellista. Ei olisi minkään muunkaan Unicode-koodauksen ongelma
irkissä, vaikka ne veisivätkin kaksi tavua per merkki. Oleellista on se,
että IRC:ssä kaikkien täytyy käyttää yhtä merkistöä per kieli. Jos
halutaan siirtyä toiseen merkistöön, sen uuden on oltava taaksepäin
yhteensopiva de facto -standardin kanssa. Sitä UTF-8 ei suomen kielen
kohdalla ole. Ongelma on se, ettei UTF-8:aa voi käyttää suomeksi, koska
se Ei Vaan Toimi irkissä. Varsin yksinkertaista.

Nyysseissä ja webissä teoriassa on edes mahdollisuudet, että UTF-8
toimii. (Webissä yleensä toimiikin, nyysseissä toimivuus vaihtelevaa,
koska monet lukevat edelleenkin nyyssejä tekstipäätteen kautta, ja
se vaatii säätämistä.)

Irkissä ei pienintäkään toivoa Unicoden toimivuudesta, koska se ei ole
edes teknisesti mahdollista. Siinä missä nyysseissä kaikki vaaditaan
päivittämään ohjelmansa suhteellisen uusiksi, irkissä jonkin
diktaattorin täytyisi yksinkertaisesti määrätä kaikki hankkimaan
tietynlainen ohjelma ja laittamaan siihen samat asetukset. Tämä ei ole
realismia.

Voisin vastata vielä tähän ketjuun toiseen kohtaan oman ehdotukseni
siitä, miten Unicode voitaisiin oikeasti toteuttaa irkissä,
etten jää ihan tyhjänvalittajaksi. Niin kauan kuin tällaista oikeaa
keinoa ei ole, UTF-8-tekstin päästäminen irkkiin on lähinnä pienen
luokan nettiterrorismia.

#UTF-8-kanava on kaikin puolin hyvä idea. Se edustaa aiemmin tässä
viestissä mainitsemaani kantaa, että jotkin ehdottomasti
erikoismerkkejä tarvitsevat yhteisöt tekevät itse sopimuksen niiden
käytöstä paikallisesti.

--
Antti Alhonen.

Antti Alhonen

unread,

Dec 15, 2005, 2:12:37 PM12/15/05

Juhapekka Tolvanen wrote:
>
> http://wiki.tukaani.org/irc_ja_utf-8

Parhaiten toteutettu höpöhöpö-propaganda aikoihin :D! Tiukkaa tietoa,
totta vie.

Mutta UTF-8-tuen saaminen irkkiin voisi olla oikeasti mahdollista.
(Ei tosin masinoimalla (;)) ihmisiä jollain webbisivulla syyllistymään
yleiseen häiriköintiin ja peeloiluun.)

Se vaatisi hieman IRC-protokollan määritysten muokkaamista ja muutoksia
serveritasolla, mutta ne on paljon helpompi toteuttaa kuin kaikkien
klienttien yhtäaikainen päivitys merkistön pakkovaihdossa. Tämä uusi
merkistötuki täytyisi implementoida myös IRC-klientteihin, mutta se
toimisi niin päin, että jos tukea ei ole tehty, serveri lähettäisi
tällaiselle klientille ainoastaan sillä varmasti näkyvää dataa, ei
UTF-8-koodattua. Ero olisi siis se, että näin päivittäessä päästäisiin
UTF-8-merkistöön ilman, että yhteensopivuus järkkyy.

Selostan lyhyesti visioni järjestelmän rakenteesta.
1) IRC-serveri ilmoittaisi VERSION-informaatiossa tiedon tästä UTF-8-
toiminnosta. (Olkoon sen nimi coolisti vaikka Unicode over IRC.)

2) Klientti, joka tunnistaisi tämän informaation, asettaisi käyttäjälle
automaattisesti usermoden +u sekä käyttäisi itse UTF-8-koodausta.
(Usermode voi olla muukin kirjain, tässä esimerkissä u.) Tällöin Pena
Peruskäyttäjät, joilla on uusi Unicode over IRC:n kanssa yhteensopiva
klientti, saisivat automaattisesti kaikki UTF-8:n "edut" itselleen.

3) Käyttäjät, joilla ei ole Unicode over IRC:n kanssa
yhteensopivaa klienttiä mutta UTF-8-yhteensopiva kuitenkin (ja
merkistöksi asetettu UTF-8), voisivat itse asettaa +u-usermoden
varsin yksinkertaisesti.

4) Kaikki serverin sisäinen ja serverien välinen liikenne tapahtuu
UTF-8-muodossa.

5) Niiden käyttäjien, joilla ei ole +u-mode päällä, viestit muutetaan
(*) UTF-8-muotoon IRC-serverillä. Niiden, joilla on +u-mode, viestit
välitetään sellaisenaan.

6) Niille käyttäjille, joilla ei ole +u-modea, tulevat viestit serveri
muuttaa oikealle (*) merkistölle. Ne, joilla on +u-mode, saavat viestit
sellaisenaan.

Järjestelmän ehdoton etu olisi se, että oletustilanteessa kaikki
toimii, ja siirtyminen UTF-8:aan tapahtuisi rauhallisesti ja
kivuttomasti. Tämä on täysin päinvastainen tilanne UTF-8-pakkosiirtoon
verraten, jossa oletustilanne on se, että mikään ei toimi kenelläkään,
ja siitä lähdetään sitten eteenpäin vääntämään juttuja kuntoon väkisin.

(*) Merkistömuunnoksen ongelma molempiin suuntiin on tietää, mikä
merkistö käyttäjällä oikeasti sitten on käytössä. Tämäkin olisi sinänsä
helppo toteuttaa, mutta koska kyseessä on nimenomaan
"yhteensopivuustila", klienttipuolelle ei voida tehdä mitään lisäyksiä.
(Jos klientteihin kosketaan, silloin kannattaa toki lisätä saman tien
se UTF-8-toiminto, jolloin klientti toimii tuossa +u-modessa.) Ongelmaan
tulee nopeasti mieleen _jotakuinkin_ toimivia ratkaisuja, kuten käytetyn
merkistön määrittäminen palvelimen perusteella. (Esim. suomalaisilla
palvelimilla ISO-8859-1 jne.) Tähän voidaan yhdistää henkilön hostnameen
perustuva päättely, voidaan jopa analysoida hänen kirjoittamaansa
tekstiä. Suurin osa saadaan oikein. Toki väärää merkistötulkintaa
varten näihin IRC-palvelimiin lisättäisiin yksinkertaisesti komento,
jolla merkistö vaihdettaisiin. Tätä komentoa joutuisi sitten ehkä
yksi tuhannesta irkkaajasta käyttämään.

Ehdottomani järjestelmän ongelma siis on se, että
1) se ei toimi 100-prosenttisesti vaan ehkä vain 99-prosenttisesti,
2) se vaatii säätöä ehkä juuri jossain 1 prosentissa tapauksia.

Itse en ole tähän täysin tyytyväinen. Mutta joka tapauksessa tämä
on IHAN eri luokkaa kuin pakkosiirtäminen UTF-8:n käyttöön, jossa
vastaavat luvut ovat:
1) se ei toimi 100-prosenttisesti vaan ehkä juuri 30-prosenttisesti,
2) se vaatii säätöä sitten ehkä lopuissa 70 prosentissa. Ja joskus
säätö voi mennä peruskäyttäjälle liian hankalaksi.

Prosenttiluvut vedetty aivan päästä :-).

Sitten vielä loppuflame. Nyt odotan mielenkiinnolla, mitä
Unicode-uskovaiset tähän sanovat:

Ehdotukseni pitäisi kestää kaikki argumentit siitä, miten UTF-8 pelastaa
monipuolisuudellaan maailman, koska ehdotukseni sisältää täydellisesti
joka ainoan Unicoden merkin tuen ja vieläpä käytännössä yhtä helposti
kuin pakkosiirrossa.

Lisäksi vaikka ehdotukseni vaatiikin säätämistä ja päivittelemistä,
se vaatii sitä joka tapauksessa erittäin paljon vähemmän kuin
pakkosiirto, joka on sekin Unicode-uskovaisten mielestä ihan helppo
juttu :).

--
Antti Alhonen.

Ari Saastamoinen

unread,

Dec 15, 2005, 3:06:35 PM12/15/05

Antti Alhonen <antti.alhonen@tut_poista_tama.fi.invalid> writes:

> Mutta ä ja ö eivät, niistä tulee hillitöntä sotkua. Vähän paha jutella
> kenenkään UTF-8:aa käyttävän kanssa.

Mä ainakin luen ihan sujuvasti vaikka joku noita wtf8 -ääkkösiä
lähettäiskin, eikä tuo juurikaan haittaa keskustelua. Luultavasti
kyllä silti kehottaisin häntä säätämään asetuksiaan :)

--
Arzka oh3mqu+...@hyper.fi - En halua follareita mailina
1. Valitse sopiva paikka, ei ihmisten tai rakennusten lahella, jossa
paukku voi aiheuttaa hairiota. - Iso-Kiinalaisen kayttoohje

Juhapekka Tolvanen

unread,

Dec 15, 2005, 6:16:38 PM12/15/05

Antti Alhonen <antti.alhonen@tut_poista_tama.fi.invalid> writes:

> Juhapekka Tolvanen wrote:

>> http://wiki.tukaani.org/irc_ja_utf-8

> Parhaiten toteutettu höpöhöpö-propaganda aikoihin :D! Tiukkaa tietoa,
> totta vie.

Perustelut?

Ainoa "pikku" juttu mikä tossa rassaa mua tossa sivustossa on se, että
niillä kanavilla, joilla mä hengaan, en ole koskaan nähnyt käytävän
keskustelua siitä, minä päivänä tuo suomalaisten irkkaajien siityminen
UTF-8:aan täytyisi tapahtua. Eli vähän omavaltaisesti ja yksipuolisesti
tuo päivä (1.1.2006) on päätetty. Mutta tuskin kehtaat väittää, että
esim. tuolla annetut ohjeet eri klienttien säädöistä olisivat
höpöhöpö-propagandaa.

Mutta irkki on vähän anarkistinen paikka, jossa korkeintana yhden
kanavan sisällä voidaan jokin asia päättää demokraattisesti.
Tuollaisessa koko irc-verkkoa koskevissa asioissa jonkin muutoksen
aikaansaaminen meneekin sitten hankalammaksi. Siinä ei voi vedota
mihinkään ylemmän tahon tai peräti diktaattorin tekemään päätökseen vaan
voi vedota vain järkeen ja perusteluihin. Ja ns. peer-pressurea
tarvitaan myös. Mitä isommaksi UTF-8:aan siirtyneitten osuus kaikista
IRC-verkon käyttäjistä kasvaa, sitä kovempi paine niillä muilla on
siirtyä itsekin UTF-8:an käyttöön. Sitten kun UTF-8:aan siirtyneitten
osuus on mennyt yli jonkin kriittisen pisteen, vaikkapa 51 %:n (hatusta
vedetty arvio), niin lopuilla käyttäjillä on tosi alhainen kynnys
siirtyä itsekin UTF-8:aan.

Mutta itse ainakin aion alkaa tuona päivinä käyttää UTF-8:aa kaikilla
mahdollisilla kanavilla, joissa siitä ei saa ainakaan kenkää ja/tai
bannia. IRC-klientin nimeltä irssi uudessa versiossa 0.8.10 olevan
recode-tuen turvin voin sitten tarvittaessa säätää jonkin muun merkistön
kuin UTF-8:an käytön sellaisille kanaville, joissa siitä tulisi kenkää
ja/tai bannia. Sitä voi sitten vaikkapa joka uudenvuodenpäivänä koittaa
uudestaan, että onko tollaisilla jääräpäisemmillä kanavilla tilanne
muuttunut vai täytyykö siellä yhä vaan käyttää antiikkisia 8-bittisiä
merkistöjä.

> Mutta UTF-8-tuen saaminen irkkiin voisi olla oikeasti mahdollista. (Ei
> tosin masinoimalla (;)) ihmisiä jollain webbisivulla syyllistymään
> yleiseen häiriköintiin ja peeloiluun.)

Millä perusteella siirtyminen monen eri 8-bittisen merkistön
sekamelskasta yhteen ainoaan montaa eri kieltä tukevaan UTF-8
-merkistöön on häiriköintiä ja peeloilua? Pikemminkin jääräpäinen
pysyminen aiemmassa huonostitoimineessa käytännössä on peeloilua ja
häiriköintiä, koska sehän vaan pitkittää siirtymävaihetta ja sen
aiheuttamaa tuskaa.

> Se vaatisi hieman IRC-protokollan määritysten muokkaamista ja
> muutoksia serveritasolla, mutta ne on paljon helpompi toteuttaa kuin
> kaikkien klienttien yhtäaikainen päivitys merkistön pakkovaihdossa.

Jotta voisit väittää ehdotustasi realistiseksi, joutusisit myös
selittämään meille, miten saadaan vaikkapa IRCNetissä aikaan se, että:

1) Siellä yleisesti käytettyihin IRC-serveriohjelmistoihin saadaan
koodattua tuki noille ehdottamillesi ominaisuuksille.

2) IRCNetin serverien operaattorit saadaan vakuuttuneeksi siitä, että
heidän kannattaa ylläpitämissään servereissään päivittää se
serveriohjelmisto tuohon ykköskohdassa aikaansaatuun versioon.

En kyllä kovin hyvin tunne, miten esim. IRCNetin serverien operaattorit
tuonkaltaisista asioista päättävät, mutta pahoin pelkään, että sielläkin
tarvitaan ties minkälaista lobbbausta, suostuttelua ja masinointia. Saa
suorittaa.

Ja eihän IRC-verkot IRCNttiin lopu. Sama rumba olisi edessä vaikka missä
IRC-verkoissa, joissa on usein aivan eri serveriohjelmistot kuin
IRCNetissä. Saa suorittaa.

Mutta tuo ehdottamasi systeemi ei tietenkään poissulje sitä vaihtoehtoa,
että klientit alkavat yhä yleisemmin tuuppaamaan irkkiin UTF-8:aa. Eli
ongelmaa voi toki mennä ratkomaan sekä serveri- että klienttirintamilla.
Ja ehdottamasi järjestelmä voi toimia siirtymävaiheen pehmentäjänä,
kieltämättä.

Antti Alhonen

unread,

Dec 15, 2005, 8:25:51 PM12/15/05

Juhapekka Tolvanen wrote:
>
>>Parhaiten toteutettu höpöhöpö-propaganda aikoihin :D! Tiukkaa tietoa,
>>totta vie.
>
> Perustelut?

> tuo päivä (1.1.2006) on päätetty. Mutta tuskin kehtaat väittää, että

> esim. tuolla annetut ohjeet eri klienttien säädöistä olisivat
> höpöhöpö-propagandaa.

Joo ei, ne ohjeet ovatkin ihan asiallista opastusta ohjelmien käyttöön.
Suunnilleen kaikki muu onkin sitten vähän mitä on.

Yleisiä väärinkäsityksiä oikaisuineen
"Sitten kaikki näkevät mun merkit ihan väärin!"
Eivät näe, kunhan käytät IRC-ohjelmaa, joka osaa merkistömuunnokset.

Tyhmempikin tajuaa, että tuohan on aivan hillitön väite. Ja koska
sivun ovat tehneet tekniikkaa ymmärtävät, tuo on suora valhe eli
propagandaa.

Eihän se, että henkilön oma IRC-ohjelma osaa tehdä merkkimuunnokset,
saa vastapuolen ohjelmia tekemään merkkimuunnoksia. Jos käyttäjä
puskee UTF-8-merkistöä ulos, täytyy _vastaanottajalla_ olla tarvittava
merkkimuunnos. Eli tämä "yleinen väärinkäsitys" pitää aika lailla
paikkansa - kun vallankumouksellinen tyyppi siirtyy yhtäkkiä UTF-8:n
käyttöön, valtaosa (lukuun ottamatta jotain muropakettikanavia, joilla
ideaa on suunniteltu) todellakin näkee ne merkit ihan väärin.

Kun muokkasin sivua (asiallisesti) ja huomautin tuosta epäkohdasta,
perään lisättiin aiheesta asiallinen selvennys sentään. Sen sijaan
ensimmäinen väite säilytettiin yhä yhtä epäselvänä, vaikka tarkoituksena
olisi toki sanoa "Eivät näe [väärin], _jos et siirry_ UTF-8-merkistöön".
Kommenttini ansiosta lisätyssä huomautuksessa todetaan, että tätä
ongelmaa ei ole, jos UTF-8:n käyttöön ei siirry. Ristiriitaista:
vuoroin kerrotaan siirtymisen ongelmattomuudesta, ja vuoroin sitä
perustellaan oletuksella, ettei sittenkään siirrytä! Ehkäpä joku taas
huomaa sivun puhuvan itseään vastaan ja korjaa tuon epäkohdan muuttaen
tekstin taas jälleen sujuvaksi propagandaksi, jossa ei ole eriäviä
kantoja tai ristiriitoja :).

Lisäksi ajattelin pyytäessäsi perusteluja mainita tuon Jeesuksen toisen
tulemisen päivän, mutta sen hoksasit jo itsekin hyvin naurettavaksi.
Puhe "suuresta porukasta" lienee niin ikään naurettavaa. IRC:n
mittakaavassa tämän suuren porukan pitäisi käsittää mielellään
kymmeniätuhansia käyttäjiä. Varmaan just joku 25 kaveria ollut tuota
päivää sumplimassa.

Junavertaus on naurettavinta mitä olen koskaan kuullut tämän asian
suhteen. Tämä sivu viekin voiton. Vertauksessa esitetään, että jos
UTF-8-"vallankumous" tapahtuu, silloin jollain logiikalla myöhemmin
siihen siirtyneet eivät saisi UTF-8:n kaikkia ominaisuuksia käyttöön:
"parhaat paikat ovat kohta menneet. Loppuun asti vastahankaan olevat
joutuvat lopulta tyytymään resiinakyytiin." Kiinnostaisi tietää,
järjestetäänkö tämä asia luomalla suhteet IRC-serverien ylläpitoon,
luomalla tietokanta "vastahankaan olleiden" ip-osoitteista ja
estämällä heitä käyttämästä esimerkiksi ö-kirjainta. Tiedä häntä.
Mielenkiintoista uhkailua kuitenkin. Ikään kuin saisi jotain vähemmän,
jos ei osallistu merkistövallankumouksen järjestämiseen.

Otsikointi on kautta linjan täyttä propagandakirjoittelua, ei missään
nimessä objektiivista. (Ei sillä, että itsekään esim. täällä
objektiivisesti kirjoittaisin. Tosin en sitä väitäkään, mutta sinähän
kysyt perusteluja väitteelleni siitä, että tuo sivu on propagandaa :).
Tuo on propagandaa, tämä minun juttuni on vastapropagandaa; lukija
poimikoon molemmista ne todelliset tiedonjyvät (joita minun tekstissäni
muuten on suhteellisesti enemmän kuin tuolla sivulla, erityisesti jos
huomioidaan edes puutteelliset IRC-verkon ratkaisuehdotukset, joista
UTF-adventistit eivät ole lainkaan kiinnostuneita).)

"Vanhentuneita IRC:issä yleisiä merkistöjä, jotka UTF-8 korvaa".
Ensinnäkään kyse ei ole vanhentuneista merkistöistä. Esim. 7-bittinen
ASCII on vanhentunut. Luetellut merkistöt, esim. ISO-8859-1, ovat
nimenomaan yleisessä aktiivikäytössä nykyään. Tulevaisuudessa ne ovat
vanhentuneita. Nyt ne ovat todellisuutta ja nykyaikaa, eivät
vanhentuneita. "jotka UTF-8 korvaa" pitäisi tietysti olla "jotka
tarkoituksemme on korvata UTF-8:lla" tai jotakin vastaavaa, jos teksti
olisi objektiivista.

Sivun sävy on sellainen, että kyseessä on nyt jokin oikeasti yleinen
siirtyminen, joka olisi itsestäänselvyys. Kun todellisuudessa kyse on
verrattain pienen tietokoneharrastajaryhmän, jonka koko on korkeintaan
promilleluokkaa IRC:n käyttäjistä, vallankumousyrityksestä. Toki sitä
ei asiallisesti voi myöntää näin olevan.

"täyden hyödyn asiasta saa kun terminaalikin on säädetty oikein"
- Ilmeisesti näille ei riitä, että IRC:ssä siirrytään siihen heidän
lempimerkistöönsä. Lisäksi se on "_oikea_" merkistö myös jokaisen
omalla Linux-koneella. Kun ihan terminaaliin pitää säätää _oikea_
merkistö. Oikea-sanan käyttö tässä yhteydessä on aika perusteetonta.
Huomattavasti perustellumpaa on käyttää oikea-sanaa nykyään vallitsevan
ja toimivan merkistön yhteydessä. UTF-8 on juuri se vaihtoehtomerkistö,
josta nämä ihmiset yrittävät tehdä sitä oikeaa - jos se onnistuu,
tulevaisuudessa sitä voidaan sitten ehkä sanoa oikeaksi, kun ollaan
siirtymässä johonkin SIWA-123-merkistöön taas kymmenen vuoden päästä.

> Mutta irkki on vähän anarkistinen paikka, jossa korkeintana yhden
> kanavan sisällä voidaan jokin asia päättää demokraattisesti.

Aivan. Niin olkoon jatkossakin. Noudatettakoon yleisesti vallitsevia
käytäntöjä ja kanavilla erikseen sovittakoon erikoiskäytönnöistä.
Kanavien johto päättäköön kanavien menettelytavoista. Tuo sivu
pyrkii kuitenkin provosoimaan UTF-8:n käyttöön yleisesti kaikkialla
irkissä, mikä voidaan monissa paikoissa tulkita juurikin häiriköinniksi.
Ja kanavien operaattoreilla on oikeus se tulkita häiriköinniksi, ja tätä
näkemystä olisi hyvä kunnioittaa edes sen verran, että sivulla
mainittaisiin asian kiistanalaisuudesta. Nyt joku voi pitää sivua
ohjeena, vaikka se on todellisuudessa kannanotto kiistaan.

> mihinkään ylemmän tahon tai peräti diktaattorin tekemään päätökseen vaan
> voi vedota vain järkeen ja perusteluihin.

Joo ei, IRC-operaattoreillekaan ei tällainen asia oikeastaan kuulu,
sillä serverien toiminnan kannalta sillä ei ole mitään merkitystä,
millaisena se data liikkuu.

Paras järkisyy on toimivuus. Nykyinen käytäntö ei tuota mitään
todellisia ongelmia. (Metaongelmia paljonkin.) Sen sijaan uuteen
käytäntöön siirtyminen tuottaa erittäin paljon ihan oikeita ongelmia.

Jos et muuten tajunnut, niin se diktaattoripäätös-juttu olisi ollut
juuri Unicode-uskovaisten eduksi. Ei tätä meijän tuttua merkistöä
tartte kenenkään määrätä, ku kaikki käyttää sitä jo valmiiksi :).

> Ja ns. peer-pressurea
> tarvitaan myös. Mitä isommaksi UTF-8:aan siirtyneitten osuus kaikista
> IRC-verkon käyttäjistä kasvaa, sitä kovempi paine niillä muilla on
> siirtyä itsekin UTF-8:an käyttöön.

Joo, painostuksesta todellakin on kyse.

> Millä perusteella siirtyminen monen eri 8-bittisen merkistön
> sekamelskasta yhteen ainoaan montaa eri kieltä tukevaan UTF-8
> -merkistöön on häiriköintiä ja peeloilua? Pikemminkin jääräpäinen
> pysyminen aiemmassa huonostitoimineessa käytännössä on peeloilua ja
> häiriköintiä, koska sehän vaan pitkittää siirtymävaihetta ja sen
> aiheuttamaa tuskaa.

Sinulla on selvästi vaikeuksia ymmärtää yksinkertainen asia.
Merkkisotkun, jota ei voi lukea, tahallinen lähettäminen irkkiin on
häiriköintiä ja peeloilua. Kanavilla, joilla ei ole päätetty siirtyä
yleisen käytännön vastaisesti vaihtoehtomerkistöön, sitä voidaan pitää
sotkuna, sotkuahan se useimmille on.

Mutta jos kerran vanha käytäntö on "huonostitoiminut", kertoisitko
vähän, millä tavalla. Monesti olen kysynyt, mutta YHTÄÄN AINUTTA KERTAA
kukaan Unicode-uskovainen ei ole osannut kertoa yhtään todellisuuden
esimerkkiä siitä, mikä oli vanhan systeemin ongelma. Toisessa
viestissäni jo perään joitakin käytännön esimerkkejä näistä
"ongelmista", mistä UTF-uskovaiset niin innoissaan puhuvat mutta joista
pahin on euromerkin (jota ei muuten tarvita, Korpela on huomautellut
usein aiheesta nyyssiväittelyissä) näkyminen väärin. Kun taas
UTF-8-siirtymisongelmat ovat aivan eri luokkaa, ä:n ja ö:n näkyminen
väärin ja vielä erittäin pahasti väärin.

> Jotta voisit väittää ehdotustasi realistiseksi, joutusisit myös

En väitäkään ehdotusta täysin realistiseksi. Toin vain jotain uutta
ajateltavaa vaihteeksi sen "me pakotetaan kaikki!" -asenteen (ja
toisaalta meikäläisten tahon "se ei vaan toimi" -asenteen (joka
kyllä on aika lailla totuus, ikävä kyllä)) tilalle.

> 1) Siellä yleisesti käytettyihin IRC-serveriohjelmistoihin saadaan
> koodattua tuki noille ehdottamillesi ominaisuuksille.

Tuen koodaus sinänsä olisi aika yksinkertainen prosessi.

> 2) IRCNetin serverien operaattorit saadaan vakuuttuneeksi siitä, että
> heidän kannattaa ylläpitämissään servereissään päivittää se
> serveriohjelmisto tuohon ykköskohdassa aikaansaatuun versioon.

Tässä piilee IRCnetin ongelma (mutta toisaalta vapaus) - mahdottomuus
saada ircd:n päivityksiä asennettua joka puolelle. Viime aikoina tilanne
on ollut huomattavasti parempaan päin, +R-modet saatiin käyttöön,
nikkitörmäykset lopetettua, pidemmät topikit... Ja se, että nickin
maksimipituutta lisättiin, osoitti sentään jotain, en olisi uskonut
sen ikinä tapahtuvan. Ehkäpä se verkko vielä saa edes jonkinlaista
sisäistä järjestystä aikaan.

Joka tapauksessa yhteensopimattomat serveritkään eivät aiheuttaisi
mitään sen pahempaa kuin korkeintaan ne UTF-8-viestit - jotka tässä
"väkivalta"-vaihtoehdossanne tulevat joka tapauksessa KAIKILLE
servereille, ei vain päivittämättömille.

> Ja eihän IRC-verkot IRCNttiin lopu. Sama rumba olisi edessä vaikka missä
> IRC-verkoissa, joissa on usein aivan eri serveriohjelmistot kuin
> IRCNetissä. Saa suorittaa.

Kumpi on isompi rumba, päivittää 100 ohjelmaa vai 100 000 ohjelmaa?
Tästä on kyse. Jokainen päivitetty serveri parantaisi toimivuutta.
Huonoimmassa tilanteessa, ei yhtään päivitystä, tilanne olisi sama
kuin teidän mallissanne. Jos puoletkin servereistä päivittyisivät,
tilanne olisi paljon parempi.

Mielenkiinnolla olen seurannut asiaan liitettyä kiirettä. Näitä
8-bittisiä merkistöjä on "siedetty" 15 vuotta. Vasta n. pari vuotta
sitten alettiin puhua UTF-8:n mahdollisuudesta. Siirtymisidea on liian
räväkkä. Minun lisäkseni suunnilleen ketään muuta ei ole pätkääkään
kiinnostanut vuodesta 88 asti olemassa ollut IRC-verkon perusongelma,
merkistötiedon puuttuminen. Sen sijaan porukka väsää hirveällä innolla
merkistövallankumousta ilman, että on rauhassa mietitty, mitä ollaan
tekemättä. Viittaan häiriköinti- ja peeloilukommenttiini. Se todella
näyttää siltä. Yhdet riehuvat ja toiset yrittävät rauhoitella. Sitten
nämä rauhoittelijatkin hermostuvat. Sota on valmis.

> Mutta tuo ehdottamasi systeemi ei tietenkään poissulje sitä vaihtoehtoa,
> että klientit alkavat yhä yleisemmin tuuppaamaan irkkiin UTF-8:aa. Eli

Systeemini ideahan juuri oli, että klientit siirtyvät UTF-8:aan -
mutta vapaaehtoisesti!

> ongelmaa voi toki mennä ratkomaan sekä serveri- että klienttirintamilla.

Se oli niin ikään ajatus. Vanha tapa toimii vanhalla tavalla ja samaan
aikaan uusi uudella tavalla. Kun taas ilman serveripuolen ratkaisua uusi
toimii uudella tavalla ja vanha ei toimi.

> Ja ehdottamasi järjestelmä voi toimia siirtymävaiheen pehmentäjänä,
> kieltämättä.

Se on juuri sen tarkoitus. Jos olisin maailman diktaattori, kieltäisin
toki koko UTF-8:n ja kaiken keskustelun siitä ja telottaisin kaikki
Unicode-adventistit, niin ei tarttis tehdä yhtään mitään ;D. Mutta
tuossa hain ratkaisua, josta ei olisi haittaa teidän suunnitelmallenne
mutta toisaalta hyötyä sitä vastustaville. (Ja sitä kautta hyötyä
myös teille, ei sitä "turhaa valitusta" meiltä.) Ts. kaikki voittavat
-ratkaisua, ja uskon päässeeni edes HITUSEN lähemmäs kuin yksikään
Unicode-uskovainen.

--
Antti Alhonen.

Juhapekka Tolvanen

unread,

Dec 15, 2005, 9:28:06 PM12/15/05

Argh.... Eka yritys menikin replyksi eikä follariksi. Siis uusiksi:

Antti Alhonen <antti.alhonen@tut_poista_tama.fi.invalid> writes:

> Juhapekka Tolvanen wrote:

>> Niinpä. IRC-protokollahan on siitä paska, ettei siinä kulje mitään
>> tietoa siitä, millä merkistöllä mikäkin teksti on naputeltu. En kyllä

> Ja siksi UTF-8:aa irkissä käyttävät eivät vain osaa, ja sitä tahallaan
> käyttävät yleensä useimmilta kanavilta potkitaan ulos, kuten kaikki
> muutkin häiriköt. Ignore on myös kova sana, jotta tällaisesta
> tahallisesta häiriköinnistä pääsee eroon.

Herää pahvi! Pikemminkin se on niinpäin, että jääräpäisesti 8-bittisissä
sekasotkumerkistöissä pysyttelevät eivät vain osaa. Mutta en ainakaan
toistaiseksi suosittelisi heidän potkimistaan ulos saatikka heidän
ignoroimistaan. Ainakaan #UTF-8 -kanavalla ei kengitä muitten
merkistöjen käyttäjiä. Siitähän tulisi jo muna-kana-ongelmia: Pitäisi
vaihtaa UTF-8-merkistöön, jotta voisi mennä #UTF-8-kanavalle kysymään,
miten juuri siinä omassa IRC-klientti vaihdetaan merkistö #UTF-8:aan.

Sitäpaitsi UTF-8-käyttäjien kenkiminen ja muu painostus heitä kohtaan
vain nostaa siirtymistään epäröivien kynnystä siirtyä itsekin UTF-8:aan
ja sehän vaan pitkittää siirtymäaikaa ja siitä aiheutuvaa tuskaa. Olet
siis lyhytnäköinen eli et näe asioita nenääsi pitemmälle. Hanki elämä!

> Siitä, onko IRC-protokollan puute merkistötuesta suurikin ongelma,
> voidaan keskustella. En kuitenkaan usko, että kukaan rehellisesti on
> kokenut tätä ikinä ongelmaksi. _Ongelman tahallisesti väitetään olevan
> olemassa_, jotta päästään hypettämään Unicodea. Tosielämässä tähän
> _metaongelmaan_ ei törmätä - ööö, juuri koskaan?

Sullon ollut aika tukevasti pää perseessä viime aikoina.

> Saa antaa tosielämän oikeasti tapahtuneita esimerkkejä rajoittuneen
> merkistön ongelmista irkissä, olen ihan oikeastikin kiinnostunut.

Siitä tuonnempana.

>> Mutta kenties paras tapa siitä selviämiseen on käyttää mahdollisimman
>> yleisesti yhtä ainutta merkistöä, johon kuuluu mahdollisimman paljon
>> erilaisia merkkejä eri kielistä.

> Ei, vaan käyttää jokaisella kielellä ko. kielelle vakiintunutta
> IRC-merkistöä, joka ihan _oikeasti_ toimii kaikilla ja ei tuota mitään
> ongelmia. Siitä ei ole tasan yhtään mitään epäselvyyttä.

Suomenkielelle EI ole sellaista yhtä ainutta vakiintunutta merkistöä,
joka näkyisi kaikille samallatavalla ja joka siis toimisi oikein.
Todellisuudessa suomenkielisillä IRC-kanavilla vallitsee tällä hetkellä
peräti KOLMEN eri merkistön infernaalinen sekasotku.

> Esim. kaikille suomalaisille näkyy ISO-8859-1(5) oikein, ja kaikki
> saavat sitä kirjoitettua.

Herää todellisuuteen! Miksi puhut yksikkömuodossa jostain ihmeen
ISO-8859-1(5)-merkistöstä, jota ei edes ole oikeasti olemassa, vaikka
todellisuudessa on olemassa KAKSI aivan eri merkistöä, ISO-8859-1 ja
ISO-8859-15, joissa ON ihkaoikeita eroja. Ota vaikka silmä käteesi ja
katso itse!:

http://en.wikipedia.org/wiki/ISO-8859-1
http://en.wikipedia.org/wiki/ISO-8859-15

Ja jo pelkästään noitten kahden merkistön sekakäytöstä seuraa ongelmia:

1) Minulla on nykyään käytössä ISO-8859-15. Jos naputtelen euron merkin,
niin ISO-8859-1-käyttäjät saavatkin silmilleen "pimppimerkin".

2) Jos ISO-8859-1-käyttäjä naputtelee puolikkaan merkin, niin minulle
näkyykin tällainen merkki:

http://en.wikipedia.org/wiki/%C5%92

3) ISO-8859-1-käyttäjä taas ei voi kirjoittaa euronmerkkiä lainkaan,
koska siinä merkistössä ei kertakaikkiaan ole euron merkkiä.

4) ISO-8859-1 -käyttäjä taas ei näe, jos meikä kirjoittaa "shakki"
suhuässää käyttäen taikka koittaa kirjoittaa tämän laivatyypin
nimeltä "dzonkki" oikein, eli niin, että z-kirjaimen yläpuolella
näkyy sellainen v-kirjaimen muotoinen väkänen.

Kolmea ensinmainittua ongelmaa olen itsekin irkissä nähnyt monet kerrat.
Mutta sinulla on tainnut olla pää tukevasti perseessä viimeaikoina.

Mutta sitten suomenkielisillä kanavilla on vielä iso lauma
Windows-käyttäjiä, joilla on merkistönään Windows-1252:

http://en.wikipedia.org/wiki/Windows-1252

Ja siitäkin seuraa ongelmia:

1) Kun Windows-1252-käyttäjä naputtelee euron merkin, niin ISO-8859-1-
ja ISO-8859-15 -käyttäjille tulee jonkinlaista kontrollikoodisotkua.
Minulle on yleensä näkynyt at-merkki käänteisin värein.

2) Jos minä naputtelen euron merkin, niin Windows-1252-käyttäjä saakin
silmilleen "pimppimerkin".

3) Tuosta Windows-1252-merkistöstä löytyy riveiltä 8x ja 9x erilaisia
lainausmerkkejä, mutta kun niitä vastaavia ei ole ISO-8859-1 ja
ISO-8859-15 -merkistöissä, niin niitten merkistöjen käyttäjille
näkyykin kontrollikoodisotkua, kun Windows-käyttäjä koittaa
kirjoittaa oikeita lainausmerkkejä.

Ja kyllä, noitakin ongelmia olen nähnyt irkissä ja varsinkin
ensinmainittua. Mutta sinulle on taaskin tainnut olla pää tukevasti
perseessä viimeaikoina.

Sanalla sanoen, nuo kolme edellämainittua 8-bittistä merkistöä, joista
oikein mikään ei ole ylitse muiden, aiheuttavat vain ja ainoastaan
ongelmia. Eikä auta edes siirtyminen ISO-8859-15 -merkistöön, vaikka se
onkin uusi ISO-standardi, jossa on euron merkki. 8-bittisyyden
rajoittuneisuus painaa siinä yhä:

http://hsivonen.iki.fi/iso-8859-15/

Sensijaan Unicodessa on kaikkien noitten kolmen merkistön kirjaimet
mukana ja vielä iso kasa muita merkkejä.

> Esim. japanilaiset taas tietääkseni kirjoittavat irkkiin shift-jisiä
> (siis oikeasti, toki sielläkin saattaa olla muutamia
> Unicode-uskovaisia), jossa roomaji taas vedetään ihan perinteisillä
> ascii-koodeilla, joten englanninkin he saavat aivan joka paikassa
> näkymään oikein.

Mitenkäs sitten suomalaisen pitäisi toimia, jos hän irkkailee sekä
suomenkielisillä kanavilla että japaninkielen harrastuksensa vuoksi
japaninkielisillä kanavilla? Eikö olisi paljon simppelimpää, jos hän
voisi käyttää niillä kaikilla yhtä ja samaa merkistöä, josta löytyy sekä
japanin- että suomenkielen tarvitsemat merkit? Sitäpaitsi noita
japaninkielen merkistöjäkin on jo ennen Unicoden keksimistä ollut
olemassa useampia kuin yksi. Ei ne japaninkielen merkistöt
shift-jis:siin todellakaan lopu. Mutta en uskalla arvailla, miten
yleisiä mikäkin niistä irkissä on.

BTW kuulin juuri, että #japani.fi -kanavalla käytetään UTF-8-merkistöä.
Miten muuten suomalaiset ja suomenkieliset japaninkielen harrastajat
voisivat keskustella japaninkielestä? Mistään fscking shift-jis:sistä ei
kuitenkaan ääkkösiä löydy eikä mistään ISO-8859-*-merkistöistä löydy
japaninkielen merkkejä. On siis käytettävä jotain merkistöä, josta
löytyy sekä ääkköset että japaninkielen merkit. Siispä itsestäänselvä
valinta on silloin UTF-8. Kun ottaa sen pään pois perseestään, katselee
ympärilleen ja käyttää vähän mielikuvitustaan, niin tällaisia
esimerkkejä keksii ja löytää varmasti enemmänkin.

Ja samalla lailla myös erilaisia kyrillisiä merkistöjä on monta
erilaista. Katso vaikka:

http://bisqwit.iki.fi/jutut/csets.html

Eli aina vaan lisää 8-bittisten merkistöjen sekasotkua, vaikka kaikki
noissa merkistöissä olevat merkit olisi tarjolla Unicodessa.

Jo pelkästään englanninkieltä käyttävillä kansainvälisillä kanavilla voi
tulla ja on jo varmasti tullutkin ongelmia, jos pitää sanoa vaikka jokin
erisnimi, jossa on US-ASCII:sta ja ISO-8859-merkistöistä puuttuvia
merkkejä.

> Ja jos joku kertoo tähän väliin, että irkkijutustelussa tarvitaan
> sitten jotain hemmetin matemaattisia erikoismerkkejä, niin nauran.
> Sitä tärkeämpää olisi implementoida esim. rivinvaihdot viesteihin,
> jotta tällaisesta kannattaisi edes keskustella. Irkki on jutustelua
> varten, se ei miltään muultakaan ominaisuudeltaan sovellu
> monimutkaiseen kielitieteen tai matematiikan välineeksi. (Tällaisessa
> erikoiskäytössä voidaan muuten sitten tarpeen vaatiessa yhdessä sopia
> jokin yhteinen merkistö.)

Kyllä irkissäkin saatetaan joskus kirjoittaa esim. potenssilukuja ja
niihinkin löytyy Unicode-merkistöistä merkkinsä. Mutta joo, ei irkissä
oikein voi monirivisiä matemaattisia yhtälöitä kirjoitella. Mutta miksi
muka kielitieteellisiin keskusteluihin tarvittaisiin monirivisiä
viestejä?

Mutta etsi ihan itse Googlella jokin Unicode-merkkikartta ja katso itse,
olisiko siellä paljonkin merkkjä, joita saattaisit käyttää ja joita ei
ole mukana niissä kolmessa eri 8-bittisessä merkistössä, joita
suomenkielisillä kanavilla käytetään sikin sokin.

>> Eli jokin Unicode-merkistö se on oltava.

> Miksi? (Näin niin kuin asiapohjalta vaihteeksi, ei uskontopohjalta
> kuten yleensä.)

Siksi, koska siinä on niin monien eri kielien merkkejä, että sillä
yhdellä ainoalla merkistöllä voidaan keskustella niillä kaikilla
kielillä ja millä tahansa niistä kielistä voidaan käydä keskusteluja
mistä tahansa niistä kielistä sekä niitten eri kielien eroista. Eikä
tarvitse joka kanavalle erikseen kludgettaa omaa merkistöään käyttöön.

>> Tämän perusteella tajuaa aika pian, että se jokin merkistö
>> kannattaa olla UTF-8, koska:

>> 1) US-ASCII:hin kuuluvat merkit, kuten A-Z, a-z ja 0-9 ovat siinä
>> samoissa merkkipaikoissa.

> Mutta ä ja ö eivät, niistä tulee hillitöntä sotkua.

EI tule kovin hillitöntä sotkua, koska suomenkielessä kuitenkin suurin
osa merkeistä löytyy väliltä A-Z ja a-z. Jos jollakulla on vielä
tilapäisesti joku antiikkinen merkistö käytössä, niin sanan muista
kirjaimista pystyy päättelemään, mitä se UTF-8-merkistöinen
suomenkielinen teksti oikein yrittää sanoa. Tässä esimerkissä on ihan
tahallaan valittu paljon ääkkösiä sisältäviä sanoja ja jopa sen pystyy
lukemaan:

Ć
ĆĢliĆ¶ ĆĢlĆĢ lyĆ¶! ĆĆ¶liĆĢ lĆĢikkyy!

Mutta tuollaisiakaan sotkuja ei ole enää pakko sietää, kun pistää sen
UTF-8-tuen kuntoon sen sijaan että alkaisi kiukutella kaikille
vastaantuleville UTF-8-käyttäjille.

> Vähän paha jutella kenenkään UTF-8:aa käyttävän kanssa.

Sitä suuremmalla syyllä kannattaa itsekin alkaa käyttää UTF-8:aa, niin
loppuu tuo ongelma siihen.

>> 2) Merkistön alkupään kukin merkki voidaan esittää yhtä tavua
>> käyttäen. Vasta isompinumeroisissa merkkipaikoissa sijaitsevien
>> merkkien ilmaisemiseen tarvitaan kahta tai useampaa tavua. Eli UTF-8
>> säästää tilaa.

> Tuo on toki vanhojen koodausten (ja UTF-8:n) etu, mutta tämä on
> epäoleellista.

Miten niin epäoleellista?

> Oleellista on se, että IRC:ssä kaikkien täytyy käyttää yhtä merkistöä
> per kieli.

Miksi täytyy? Perustele! Ja mitä tuollaisella aivokuolleella käytännöllä
sitten saavutetaan? Juurihan kerroin, miten sillä saavutetaan vain ja
ainoastaan ongelmia varsinkin kahdella tai useammalla kielellä
irkkaaville.

> Jos halutaan siirtyä toiseen merkistöön, sen uuden on oltava
> taaksepäin yhteensopiva de facto -standardin kanssa.

Ja se de facto -standardi on sitten mikä? Kuten jo sanoin, se ei ole
joku mystinen "ISO-8859-1(5)", jota ei ole edes olemassa, joten sinun
aivan turhaa siitä enää puhua, ellet sitten halua tehdä itsestäsi
entistäkin pahempaa pelleä.

> Sitä UTF-8 ei suomen kielen kohdalla ole. Ongelma on se, ettei
> UTF-8:aa voi käyttää suomeksi, koska se Ei Vaan Toimi irkissä. Varsin
> yksinkertaista.

EI pidä paikkaansa. Mitä enemmän ja laajemmin UTF-8 aletaan irkissä
käyttää, sitä paremmin se toimii. Mutta siirtymäaikana voi olla ja
varmasti onkin ongelmia, mutta niistä ei ikinä päästä yli, jos
sinunkaltaisesi jääräpäät ottavat elämäntehtäväkseen UTF-8:aan
siirtymisen jarruttamisen ja estämisen.

> Nyysseissä ja webissä teoriassa on edes mahdollisuudet, että UTF-8
> toimii. (Webissä yleensä toimiikin, nyysseissä toimivuus vaihtelevaa,
> koska monet lukevat edelleenkin nyyssejä tekstipäätteen kautta, ja se
> vaatii säätämistä.)

> Irkissä ei pienintäkään toivoa Unicoden toimivuudesta, koska se ei ole
> edes teknisesti mahdollista.

Miksei ole teknisesti mahdollista?

> Siinä missä nyysseissä kaikki vaaditaan päivittämään ohjelmansa
> suhteellisen uusiksi, irkissä jonkin diktaattorin täytyisi
> yksinkertaisesti määrätä kaikki hankkimaan tietynlainen ohjelma ja
> laittamaan siihen samat asetukset. Tämä ei ole realismia.

Eli sekä nyysseissä että irkissä joudutaan päivittämään ohjelmia, mutta
irkissä pitää lisäksi jollain ilveellä saada de facto -standardiksi
UTF-8-merkistö. Niin, ei siihen diktaattoria löydy, mutta eipä tilanne
parane ainakaan jääräpäisellä vanhassa toimimattomassa systeemissä
pysymisellä. On siis siirryttävä vapaaehtoisesti UTF-8:aan ja koitettava
saada muutkin tajuamaan, miksi tuollainen siirtyminen on järkevä.

> Niin kauan kuin tällaista oikeaa keinoa ei ole, UTF-8-tekstin
> päästäminen irkkiin on lähinnä pienen luokan nettiterrorismia.

Eikä ole! Sen sijaan UTF-8:n leviämisen estäminen ja jarruttaminen on
pienenluokan nettiterrorismia ja ennenkaikkea taantumuksellista
jääräpäisyyttä.

Niilo Paasivirta

unread,

Dec 16, 2005, 12:05:57 AM12/16/05

Juhapekka Tolvanen wrote:
> Herää pahvi! Pikemminkin se on niinpäin, että jääräpäisesti 8-bittisissä
> sekasotkumerkistöissä pysyttelevät eivät vain osaa. Mutta en ainakaan

[nips]

Nämä kaikki argumentithan sopivat mainiosti myös nyysseihin, joten
siirrytäänpäs täälläkin UTF-8:iin kaikki tuona päivänä, eikös niin? :)

--
Niilo Paasivirta E-mail: n...@iki.fi URL: http://www.iki.fi/%7Enp/
"Lankoni sai samanlaisen kohtauksen, kun roomalainen kvestori tuli
karhuamaan häneltä veroja." - Caravellix (albumissa Asterixin harharetket)

Mikko Järvinen

unread,

Dec 16, 2005, 2:25:35 AM12/16/05

Juhapekka Tolvanen <SNAFU....@iki.fi.FUBAR.invalid> wrote:
> Herää pahvi! Pikemminkin se on niinpäin, että jääräpäisesti 8-bittisissä
> sekasotkumerkistöissä pysyttelevät eivät vain osaa. Mutta en ainakaan

Monikos käytetty ohjelma edes purkista toistaiseksi tajuaa, että
merkki voi olla useita tavuja? Moniko tukee useampaa merkistöä samalla
kanavalla? Wikissä mainitaan peräti yksi Windows-ohjelma - en laske
Chatzillaa, sillä se vaatii selaimen kaverikseen ja on siksi hieman
epäkäytännöllinen valinta - ja siitäkin todetaan, että se ei oikein
toimi. Ei kuulosta ihan pieneltä ongelmalta.

Osaamisvajaus ei nimittäin ole kovin massiivinen, jos ei osaa korjata
ilman sorsia toimitettua poropietariasiakasta tahi koodata omaa.

Nyt jos toimiva Irssi on kerran tullut, mihinköhän Debian versioon
sekään mahtaa ehtiä hiihtämään vuodenvaihteeseen. Unstablessa taitaa
olla jo, kiertäneekö siellä kauankin vaiko onko testingissäkin
P-päivänä? (Joo, ei mainita vakaata Debiania tässä vaiheessa).
Ubuntuun sitä lie syytä odotella joskus aprillipäivän aikoihin.

Tokihan innostuneet voivat asennella ohjelmia itse backportseista tai
käsin, mutta noin yleensä tällaisia asioissa auttaa sekin, että
ihmisillä on ne ohjelmat etukäteen.

> BTW kuulin juuri, että #japani.fi -kanavalla käytetään UTF-8-merkistöä.
> Miten muuten suomalaiset ja suomenkieliset japaninkielen harrastajat

Tässä taas on ihan oikeasti järkeä. Myös Freenoden #ubuntu-fi:llä on
sallittu ties mitä merkistöjen sekamelskaa (ns. kaksinkertaista
utf-8:sia on paheksuttu), sillä kasiahan nykyiset Linux-distribuutiot
oletuksena käyttävät joka paikassa (mikä on oikeus ja kohtuus, onhan
Windowsinkin tiedostojärjestelmä 16-bittistä unicodea, jos oikein
muistan) ja toisaalta kaiken maailman legacysysteemeissä ei vaan auta
käyttää kuin isoa latinalaista jos meinaa olla samalla klientillä
IRCNetissäkin.

Mutta jos se uusi Irssi nyt vaikka osaisi logata kaiken utf-8:ksi niin
logit eivät olisi jossain muusta systeemistä eroavassa
höpöformaatissa...

> Ć
> ĆĢliĆ¶ ĆĢlĆĢ lyĆ¶! ĆĆ¶liĆĢ lĆĢikkyy!

Hetken sai kyllä tavata vaikka esimerkki lause kokonaisuutena olikin
tuttu.

>> Irkissä ei pienintäkään toivoa Unicoden toimivuudesta, koska se ei ole
>> edes teknisesti mahdollista.
> Miksei ole teknisesti mahdollista?

On se mahdollista, mutta se pitäisi tehdä teknisesti järkevällä
tavalla, joka tuolla toisaalla tätä threadia esiteltiinkin. Järkevin
painostuksen kohde olisivat ircserveriohjelmien ja ircverkkojen
ylläpitäjät.

Friman

unread,

Dec 16, 2005, 2:54:07 AM12/16/05

Niilohan puhuu asiaa !

(ensimmäistä kertaa?)

Niilo Paasivirta

unread,

Dec 16, 2005, 4:15:28 AM12/16/05

Friman yläpostaili:

> Niilohan puhuu asiaa !
> (ensimmäistä kertaa?)

Oletko varma? Sinähän olet kirjoittanut kaikkiaan nyysseihin 5 postausta,
alkaen 7.12.2005, joten sinun kannattanee ensin käydä läpi minun kirjoittamani
11400 postausta, ennenkuin teet johtopäätöksiä. Suosittelen myös lukemaan
nyyssietikettiä ja tutustumaan kaikessa rauhassa asiaan, ennen kuin
edes itse postaat mitään nyysseihin. Yleensä suositellaan sellaista 6-12
kuukauden jaksoa, jona aikana pelkästään aloittelija lukee nyyssejä,
ennen kuin postaa itse.

Jatkot aloittelijoiden ryhmään.

--
Niilo Paasivirta E-mail: n...@iki.fi URL: http://www.iki.fi/%7Enp/

"Hnh rhhä!", "Pkäääg", "Btbtünk-fnn-nn", "Lullulu-lullu-lu!",
"Trib ...trib" - Markus Kajo

Antti Alhonen

unread,

Dec 16, 2005, 10:16:42 AM12/16/05

He he, helpollapa provosoiduit, vaikken edes provosoinut vaan kirjoitin
asiaa. No, vastaan samanlaisilla henkilökohtaisuuksilla, joten ei
kannata valittaa että tekstini olisi asiatonta. Minä en ainakaan
harrasta valehtelemista...

Juhapekka Tolvanen wrote:
>
> Herää pahvi! Pikemminkin se on niinpäin, että jääräpäisesti 8-bittisissä
> sekasotkumerkistöissä pysyttelevät eivät vain osaa.

Kannattaa vain toistella samaa perustelematta :). Tämän perustelin
jo toisaalla tässä viestiketjussa.

Mutta voisithan perustella, miten itse et osannut kolme vuotta sitten.
Tai miten minä en osannut kolme vuotta sitten. Tai miten kukaan ei
osannut kolme vuotta sitten.

Tosin ei tarvitse mennä kolmeakaan vuotta taaksepäin, sillä ihan samassa
asemassa vakiomerkistöt yhä ovat irkissä.

> Sitäpaitsi UTF-8-käyttäjien kenkiminen ja muu painostus heitä kohtaan
> vain nostaa siirtymistään epäröivien kynnystä siirtyä itsekin UTF-8:aan

Kumpihan osapuoli se tässä oikein painostaa :D.

Aina välttämättä kyse ei ole uskonsodasta tai yhtään mistään
painostuksesta. UTF-8-häiriköt potkitaan pois ihan samasta syystä kuin
muutkin, jotka floodaavat satunnaisdataa irkkiin: lukukelvottomuus. Ei
kyse ole sitä suuremmasta salaliitosta, ainakaan yleensä. Toki sitten
joskus, yleensä tosin vasta seurauksena, tunteetkin kuumenevat.

> Olet siis lyhytnäköinen eli et näe asioita nenääsi pitemmälle.

Sanoisin, että UTF-uskovaiset ovat varsin lyhytnäköisiä.
Merkistötilannetta, jossa 8-bittiset merkistöt ovat vallinneet 15 vuotta
ja mahdollisuus Unicodeen on ollut käytännössä vasta pari vuotta, ei
nähdä oikeassa suhteessa, ja jätetään kokonaan arvioimatta vaihtoehto
kivuttomaan siirtymiseen. Kyseessä on uutuuden viehätys. Innostus
siitä, kun eteen tulee uusi hieno merkistö! ... ja toisaalta
katkeruus siitä, ettei sitä saadakaan hetimullenyt.

> Hanki elämä!

Kieltämättä aikaa säästäisi, jos ei tarvitsisi yrittää tihrustaa
ja tulkita merkkisotkuja tai pätsäillä softia, jotta jotkut saavat
toteuttaa seksuaalisia mielihalujaan tietyn merkistön muodossa...

>>Siitä, onko IRC-protokollan puute merkistötuesta suurikin ongelma,
>>voidaan keskustella. En kuitenkaan usko, että kukaan rehellisesti on
>>kokenut tätä ikinä ongelmaksi. _Ongelman tahallisesti väitetään olevan
>

> Sullon ollut aika tukevasti pää perseessä viime aikoina.

Viisi vuotta olen aktiivisesti pyörinyt useilla erikielisillä kanavilla.
Kymmenen vuoden ajalta IRC:n tilanteesta kokemusta. (Tosin nythän
hävisin väittelyn, koska voit sanoa irkanneesi 15 vuotta aktiivisesti
:).) En ole kertaakaan törmännyt _todellisen_ luokan merkistöongelmiin
(alla lisää euromerkkiongelmasta, joka ei ole ensisijaisesti
merkistöongelma) ennen vuotta 2004 (muistaakseni), jolloin ensimmäisen
kerran törmäsin UTF-8:aan.

>>Saa antaa tosielämän oikeasti tapahtuneita esimerkkejä rajoittuneen
>>merkistön ongelmista irkissä, olen ihan oikeastikin kiinnostunut.
>
> Siitä tuonnempana.

Odotan innolla :).

> Suomenkielelle EI ole sellaista yhtä ainutta vakiintunutta merkistöä,
> joka näkyisi kaikille samallatavalla ja joka siis toimisi oikein.
> Todellisuudessa suomenkielisillä IRC-kanavilla vallitsee tällä hetkellä
> peräti KOLMEN eri merkistön infernaalinen sekasotku.

Vaikeuksia ymmärtää asiaa? Huomaa, että olet lukenut merkistöiden
tekniikasta. Niin minäkin, ei tarvitse opettaa. Sen sijaan suosittelisin
paneutumaan asian käytännön puoleen. Luettelemasi kolme merkistöä ovat
KAIKKI normaalissa keskustelussa tarvittavilta merkeiltään
yhteensopivat. Toimivuuden kannalta on täysin yhdentekevää, mitä
niistä käyttää.

Miten tämä sekasotku ilmenee näillä kanavilla ja millä tavalla se on
infernaalinen? Kerran viikossa joku peelo löytää koulun koneelta
euromerkin ja se ei näy kaikilla. Onpas infernaalinen sotku. Kannattaa
vähän miettiä, mitä oikein kirjoittaa, ettei paljasta itseään aivan
noin suhteellisuudentajuttomaksi.

>>Esim. kaikille suomalaisille näkyy ISO-8859-1(5) oikein, ja kaikki
>>saavat sitä kirjoitettua.
>
>
> Herää todellisuuteen! Miksi puhut yksikkömuodossa jostain ihmeen
> ISO-8859-1(5)-merkistöstä, jota ei edes ole oikeasti olemassa, vaikka

Sulkunotaatio lienee ilmeisesti uusi sinulle. Jos kirjoitan esimerkiksi
"(auto)juna", nuo osat ovat usein joko toisiaan määrittävät (kuten tässä
autojuna-esimerkissä) tai vaihtoehtoiset, siis tai-sanalla erotetut.
Selkokielellä siis lauseeni uudestaan: "kaikille suomalaisille näkyy
ISO-8859-1 TAI ISO-8859-15 oikein". Yksikkömuoto on perusteltu, koska
kukaan tuskin saa aikaan kumpaakin noista kahdesta samaan aikaan.
"Herää todellisuuteen" on mielenkiintoinen kommentti, kun viestissäsi
kohta seuraa jotain ihan himmeitä keksittyjä "esimerkkejä"...

Koska kyse on irkistä, joka on juttelujärjestelmä, nuo merkistöt voidaan
hyvin rinnastaa näin, sillä ne ovat yhtenevät kaikkien ns.
todellisuudessa tarvittavien merkkien kohdalla.

> 1) Minulla on nykyään käytössä ISO-8859-15. Jos naputtelen euron merkin,
> niin ISO-8859-1-käyttäjät saavatkin silmilleen "pimppimerkin".

Euromerkkiä ei ole tarkoitus käyttää muutenkaan. Kielitoimistonkin
suositus on kirjoittaa se asiatekstissä normaalisti sanana, esim.
tai "10 euroa". Virallinen euron lyhenne on euromerkki tai pieni
e-kirjain, ja e:tä kannattaakin käyttää esimerkiksi tietokonetaulukoissa
tai muissa paikoissa, joihin sana euro ei mahdu. IRC:ssä näin ei yleensä
ole, vaan euro voidaan kirjoittaa oikeaoppisesti kokonaan.

Lisätietoa euromerkistä:

http://www.cs.tut.fi/~jkorpela/euro.html - asiatietoa.
http://www.pelulamu.net/euro/ - sopivaa rautalankavääntöä, jos et yllä
olevaa tajua.

Lainaus Korpelan dokumentista:
"1. Ensisijaisesti käytetään sanoja "euro" ja "sentti" (tietenkin
tilanteen mukaan taivuttaen).
2. Toissijaisesti käytetään euron symbolia.
3. Jos lyhentäminen on tarpeen eikä euron symbolia voida käyttää,
käytetään lyhenteitä "e" ja "snt"."

Euromerkkiongelma ei siis ole merkistöongelma vaan pikemminkin
yleinen ärsyttävyysongelma - euromerkin turha käyttö normaalin
tekstin asemesta ärsyttäisi MELKEIN yhtä paljon kuin väärin näkyvä
euromerkki.

> 2) Jos ISO-8859-1-käyttäjä naputtelee puolikkaan merkin, niin minulle
> näkyykin tällainen merkki:

Muita ongelmallisia murtolukumerkkejä ovat esimerkiksi 1/3, 1/4 ja
niin edelleen. Ne mainitaan tuolla huumorisivullakin, josta keskustelu
lähti liikkelle.

Oletko ikinä ajatellut, että erilaisia murtolukuja on olemassa
ääretön määrä. Niistä yleisestikin käytetään jopa satoja. Unicodekaan
ei tarjoa tällaisia mahdollisuuksia, merkit käyvät usein liian
pienikokoisiksi ja niin edelleen. Tällöin on joka tapauksessa käytettävä
vinoviivaa ja ilmaistava 5/6, 9/10 - ja 1/2.

Normaalissa arkikielessä "puoli" kirjoitetaan yllättäen "puoli" eikä
1/2-merkillä. Silloin tällöin irkissä näkyy taas niin ikään peeloja,
jotka ovat löytäneet koulun koneelta 1/2-näppäimen, ja saattavat käyttää
sitä esimerkiksi ilmauksessa "kello on 1/2 kymmenen" tai "siellä oli
tavarat 1/2 hintaan". Lienee selvää, kuinka surkeita ilmauksia nuo ovat.
Puoli on puoli. "Puoleen hintaan" on sujuvaa suomea, siinä on
taivutuskin. Jos ehdotat ilmausta "1/2:een hintaan", nauran. Muut
murtoluvut ovat jo sen verran tasaisen harvinaisesti käytettyjä
(tarkoitan, että esim. 1/4 ei ole mitenkään tuhat kertaa yleisempi kuin
7/8), että vinoviivanotaatiota on joka tapauksessa käytettävä.

> 4) ISO-8859-1 -käyttäjä taas ei näe, jos meikä kirjoittaa "shakki"
> suhuässää käyttäen taikka koittaa kirjoittaa tämän laivatyypin
> nimeltä "dzonkki" oikein, eli niin, että z-kirjaimen yläpuolella
> näkyy sellainen v-kirjaimen muotoinen väkänen.

Tuollainen kirjoittaminen on "hei mä osaan tehdä tällasii hienoja
merkkejä näppäimistöllä!" -brassailua. On eri asia esimerkiksi
kirjoittaa lehteä. Irkissä keskustelun taso on yleensä kielellisesti
sillä tasolla, että isot kirjaimet puuttuvat ja välimerkit ovat mitä
sattuu. Edes minä en kirjoita siellä täydellistä kirjakieltä.

Esimerkiksi seuraavanlaista pidetään irkissä ihan tavanomaisen HYVÄNÄ
kielenä (omg, käytännön esimerkki, poimittu keskustelusta!):
"tai vaihtoehtoisesti valomainos mun nimen perään "tämä teki koodin!!"
;D". Jos tällaista tekstiä on tarkoitus ruveta viilamaan, kyllä siihen
ensiksi korjataan välilyönnit, oikea tapa esittää sitaatteja, isot
alkukirjaimet ja niin edelleen.

Kaikkein viimeiseksi haluaisin shakki-sanan kirjoitusasua viilattavan.
Sitä paitsi shakki-sana on tätä nykyä niin yleistynyt sh-muodossa, että
vierastan jo sitä suhuässällä kirjoitettuna. Kyse on silloin
todellisesta kirjakielestä, jota voitaisiin esimerkiksi painotuotteissa
käyttää.

> Kolmea ensinmainittua ongelmaa olen itsekin irkissä nähnyt monet kerrat.

Logitatko? Jos logitat, löydät varmasti nopealla tekstihaulla nuo
shakit ja dzonkit. Toivon, että näytät, vieläpä asiayhteyttä
rikkomatta, että varmistun siitä, ettei kyseessä ole metaongelma.
En nimittäin usko tätä, ennen kuin itse näen. Euromerkkiongelmaa
olen itsekin nähnyt, mutta ko. ongelmasta kirjoitinkin jo yllä.

> Mutta sinulla on tainnut olla pää tukevasti perseessä viimeaikoina.

Sittenhän voisit valaista näppärillä esimerkeillä.

> 1) Kun Windows-1252-käyttäjä naputtelee euron merkin, niin ISO-8859-1-

> 2) Jos minä naputtelen euron merkin, niin Windows-1252-käyttäjä saakin

Eurosta yllä.

> 3) Tuosta Windows-1252-merkistöstä löytyy riveiltä 8x ja 9x erilaisia
> lainausmerkkejä, mutta kun niitä vastaavia ei ole ISO-8859-1 ja
> ISO-8859-15 -merkistöissä, niin niitten merkistöjen käyttäjille
> näkyykin kontrollikoodisotkua, kun Windows-käyttäjä koittaa
> kirjoittaa oikeita lainausmerkkejä.

Kuka hemmetin Windows-1252-merkistön käyttäjä yrittää tehdä oikeita
lainausmerkkejä!? Tämä on ehkä metaongelmista tähän mennessä paras
läppä. Oikeita lainausmerkkejä käytetään painotuotteissa, ei aina
edes niissä. Oikeista lainausmerkeistä harva edes tietää. Lisäksi
KUKAAN peruskäyttäjä ei koskaan tee niitä vahingossa, vaan niiden
käyttöä haluava on aina henkilö, joka nimenomaan tuntee merkistöä
ja yleensä tietää siihen liittyvät ongelmat. Eikä kukaan halua irkkiin
kirjoittaa oikeita lainausmerkkejä.

> Ja kyllä, noitakin ongelmia olen nähnyt irkissä ja varsinkin

Olet nähnyt Windows-1252:n "oikeita" lainausmerkkejä vahingossa
tehtynä? Onnittelut. Paljastit juuri itsesi huijariksi, jolle
keskustelun päämäärä on voitto, johon voidaan aivan hyvin päästä
valehtelemalla, keksimällä "omia kokemuksia".

> Sanalla sanoen, nuo kolme edellämainittua 8-bittistä merkistöä, joista
> oikein mikään ei ole ylitse muiden, aiheuttavat vain ja ainoastaan
> ongelmia.

Ai, eivät esimerkiksi näkyvää tekstiä? Itse taas olen kokenut,
että ne aiheuttavat hyvinkin paljon keskustelua monista
mielenkiintoisista aiheista, kun kaikki merkit normaalissa keskustelussa
näkyvät oikein ja kenenkään ei tarvitse todeta "en näe merkkejäsi".

> Eikä auta edes siirtyminen ISO-8859-15 -merkistöön, vaikka se
> onkin uusi ISO-standardi, jossa on euron merkki. 8-bittisyyden

Ei tarvitse siirtyä. Käytössä olevat merkistöt toimivat yhteen jo nyt.

> Sensijaan Unicodessa on kaikkien noitten kolmen merkistön kirjaimet
> mukana ja vielä iso kasa muita merkkejä.

Se on toki kiva juttu.

> Mitenkäs sitten suomalaisen pitäisi toimia, jos hän irkkailee sekä
> suomenkielisillä kanavilla että japaninkielen harrastuksensa vuoksi
> japaninkielisillä kanavilla?

Olen jutellut japania irkissä suomen seassa, tiedän siis ainakin
jonkin verran, mistä nyt puhun. Kuten aikaisemmin taisin mainita,
roomajia ei shift-jis-koodata. Toisin sanoen japaninkieliset merkit
välittyvät shift-jisinä, suomenkieliset esimerkiksi ISO-8859-1:llä.
Tämä on yleinen käytäntö. Nämä merkistöt toimivat ongelmitta
rinnakkain.

> japaninkielen merkistöjäkin on jo ennen Unicoden keksimistä ollut
> olemassa useampia kuin yksi. Ei ne japaninkielen merkistöt
> shift-jis:siin todellakaan lopu.

Niin, kyllähän suomeakin voidaan kirjoittaa irkissä vaikka sadalla
eri merkistöllä. Niistä osa on yhteensopivia keskenään, osa ei.
Kun kerran juttelin japanilaisen kanssa merkistöasiasta, hän kertoi
merkistönsä olevan jotain muuta kuin shift-jis, en muista nimeä nyt.
Kyseessä oli kuitenkin kaikkien merkkien osalta 1:1 yhteensopiva
järjestelmä, itselläni merkistönä oli shift-jis ja kaikki toimi.
(Juttelimme siis sekaisin japaniksi ja englanniksi.) Eli Japanissa on
varmastikin sama tilanne kuin Suomessa, on olemassa useita
toistensa kanssa riittävän hyvin yhteensopivia merkistöjä. (Ja toisaalta
ei yhteensopivia, mutta niitähän ei kukaan irkissä käytä, koska se olisi
tyhmää :).)

> BTW kuulin juuri, että #japani.fi -kanavalla käytetään UTF-8-merkistöä.

Unicode-uskovaisten idea ;). No ei vaan, mikäs siinä. Kuten aikaisemmin
sanoin, kullakin kanavalla voidaan ihan hyvin yhteisesti sopia, mitä
merkistöä käytetään. Koska kyseessä on juuri suomalainen kanava, sitä
ei rajoita Japanissa yleisesti käytössä oleva merkistö, vaan he voivat
aloittaa oman järjestelynsä puhtaalta pöydältä. Jolloin UTF-8 on hyvä
valinta.

> Miten muuten suomalaiset ja suomenkieliset japaninkielen harrastajat
> voisivat keskustella japaninkielestä? Mistään fscking shift-jis:sistä ei
> kuitenkaan ääkkösiä löydy eikä mistään ISO-8859-*-merkistöistä löydy
> japaninkielen merkkejä. On siis käytettävä jotain merkistöä, josta
> löytyy sekä ääkköset että japaninkielen merkit.

Kannattaa perehtyä asioihin ennen kirjoittamista. Yllä kerroin, miten
tämä toimii ihan todellisuudessakin.

> Kun ottaa sen pään pois perseestään, katselee
> ympärilleen ja käyttää vähän mielikuvitustaan, niin tällaisia
> esimerkkejä keksii ja löytää varmasti enemmänkin.

_Mielikuvitustahan_ näiden ongelmien esimerkkien _keksimiseen_
todellakin on käytetty. Freudilaiset lapsukset, kun vastaaninttäjä
vahingossa puhuu itseään vastaan, ovat kivoja nyyssiväittelyissä :).

> Mutta etsi ihan itse Googlella jokin Unicode-merkkikartta ja katso itse,
> olisiko siellä paljonkin merkkjä, joita saattaisit käyttää ja joita ei
> ole mukana niissä kolmessa eri 8-bittisessä merkistössä, joita
> suomenkielisillä kanavilla käytetään sikin sokin.

Ei tarvitse etsiä, kun tiedän, millaisia merkkejä siellä on. Siellä ei
ole YHTÄÄN sellaista merkkiä, jota käyttäisin irkkikeskusteluissa,
vaikka se olisi mahdollista, kuin korkeintaan aivan poikkeustapauksissa
(jotka on erittäin helppo kiertää ja jotka kierrän ajattelematta tai
kiinnittämättä mitään suurempaa huomiota asiaan). Unicodeen siirtymisen
aiheuttama ongelma onkin monta kertaluokkaa suurempi kuin se "ongelma",
etten saa jotain sydämenkuvaa, tai puolikasta.

> Siksi, koska siinä on niin monien eri kielien merkkejä, että sillä
> yhdellä ainoalla merkistöllä voidaan keskustella niillä kaikilla
> kielillä ja millä tahansa niistä kielistä voidaan käydä keskusteluja
> mistä tahansa niistä kielistä sekä niitten eri kielien eroista. Eikä
> tarvitse joka kanavalle erikseen kludgettaa omaa merkistöään käyttöön.

Kuka keskustelee kaikilla kielillä samaan aikaan?

Kielitieteen syväanalyysiä harrastavathan voivat itse sopia UTF-8:n
käytöstä huomattavasti helpommin kuin pakottamalla kaikki siihen.
Ota huomioon, että suurin osa irkkaajista on sellaisia mattimeikäläisiä,
jotka eivät edes tajua merkistöistä mitään.

Itsekin yhden kaverin kanssa usein olen jutellut esim. japanin kielen
rakenteesta, ja kumma kyllä, toistaiseksi olemme pärjänneet
täydellisesti näillä perusmerkeillä. Silloin tällöin välissä ollut
shift-jisiä - yleisen käytännön mukaan.

Aika kovalla meiningillä mennään jo kielitieteen puolelle, jos tulee
todellinen tarve erikoismerkeille luontevien ja helppojen
kiertomahdollisuuksien kadotessa. Mutta tällaisia keskustelijoita on
maailmassa muutamia tuhansia, heidän on helpompi siirtyä itse omaan
järjestelmäänsä vain keskenään kuin pakottaa kaikki satattuhannet
muutkin.

> osa merkeistä löytyy väliltä A-Z ja a-z. Jos jollakulla on vielä
> tilapäisesti joku antiikkinen merkistö käytössä, niin sanan muista

Vielä jollakulla = 99,9 prosentilla irkkaajista?
Tilapäisesti? Joo ei, ollut kymmenen vuotta tilapäistä käyttöä :-).
Antiikkinen? Mitä antiikkista on nykyisessä käytännössä?

Jännä tyyli Unicode-adventisteilla esittää asia siten, että heidän
vallankumouksensa olisi jo mennyt läpi, UTF-8 olisi vallitseva käytäntö
ja että muut ovat jotain viime hetkeen vastaan inttäviä. Vaikka
todellisuudessa asia on juuri päinvastoin.

> tahallaan valittu paljon ääkkösiä sisältäviä sanoja ja jopa sen pystyy
> lukemaan:
>
> Ć
> ĆĢliĆ¶ ĆĢlĆĢ lyĆ¶! ĆĆ¶liĆĢ lĆĢikkyy!

Tuollaista tekstiä ei pysty lukemaan keskustelussa. Se vaatii erityistä
keskittymistä ja tulkkaamista. Jos itse pystyt lukemaan tuon samalla
vauhdilla kuin normaalin tekstin, olet aika fakiiri.

>
> Miten niin epäoleellista?

Hei, psst, pointtasin jotain UTF-8:n hyväksi. Eli että on epäoleellista
valittaa siitä kaistankäytön lisääntymisestä UTF-8:n käytössä.

Nyyssitrollit ovat siitä hauskoja, että he vaativat "perusteluja" ja
kiistävät kaiken lukematta itse asiaa. Vaikka kirjoittaisi jostain
asiasta yhtenevän kannan.

>>Oleellista on se, että IRC:ssä kaikkien täytyy käyttää yhtä merkistöä
>>per kieli.
>
>
> Miksi täytyy? Perustele!

Ai että miksi :)?

Siksi, että jos irkissä käytetään esimerkiksi viittä
(_epäyhteensopivaa_) merkistöä per kieli, se johtaa ongelmiin.
Esimerkiksi ISO-8859-15 ja UTF-8 ovat epäyhteensopivia. Lienemme
samaa mieltä, että yhtä merkistöä pitäisi käyttää, sitä tuskin
tarvitsee perustella?

> Ja mitä tuollaisella aivokuolleella käytännöllä
> sitten saavutetaan?

Sillä, että käytetään yhteistä merkistöä, saavutetaan se, että merkit
välittyvät oikein. Yksinkertainen asia, mutta joskus niin vaikea
ymmärtää :). Kas kun tietokone käsittelee sitä dataa vain lukuarvoina.

> Juurihan kerroin, miten sillä saavutetaan vain ja
> ainoastaan ongelmia varsinkin kahdella tai useammalla kielellä
> irkkaaville.

Niin, onhan toki tärkeää, että _kaksikieliset irkkaajat_ (wtf?)
pystyvät irkkaamaan, ei sillä niin väliä, pystyvätkö yksikieliset.

> Ja se de facto -standardi on sitten mikä? Kuten jo sanoin, se ei ole
> joku mystinen "ISO-8859-1(5)", jota ei ole edes olemassa, joten sinun
> aivan turhaa siitä enää puhua, ellet sitten halua tehdä itsestäsi
> entistäkin pahempaa pelleä.

Kukahan se tässä tekee pelleä itsestään tajuamatta näin yksinkertaista
käytännön asiaa ja luullen, että laittamani sulut kuuluivat merkistön
nimeen :)... Et ole ilmeisesti nähnyt sitten ennen, että välimerkein
voidaan erottaa myös nimiä? Esimerkiksi voin sanoa "Pentti, Keijo tai
Reiska", jolloin se tarkoittaa jotakuta näistä kolmesta, ei yksittäistä
"Pentti, Keijo tai Reiska" -nimistä ihmistä.

Itse asiaan vastasin jo yllä.

>>Sitä UTF-8 ei suomen kielen kohdalla ole. Ongelma on se, ettei
>>UTF-8:aa voi käyttää suomeksi, koska se Ei Vaan Toimi irkissä. Varsin
>>yksinkertaista.
>
>
> EI pidä paikkaansa. Mitä enemmän ja laajemmin UTF-8 aletaan irkissä
> käyttää, sitä paremmin se toimii.

Ensin sanot, ettei pidä paikkaansa, ettei se toimi. Sitten sanot, että
se voi ruveta toimimaan, jos sitä ruvetaan laajemmin käyttämään. Miten
se voi alkaa toimia, jos se jo toimii? Yrittäisit nyt päättää, toimiiko
se vai ei.

> Mutta siirtymäaikana voi olla ja
> varmasti onkin ongelmia, mutta niistä ei ikinä päästä yli, jos

Yhteiskunnassa yleisesti vallitsee _kohtuuden periaate_. Jos jotain
siirtymistä ei voida toteuttaa tarpeeksi vähin ongelmin, sitten ei
siirrytä heti vaan kehitetään parempi tapa siirtyä.

Ensin pitäisi ratkaista itse ongelma, se, ettei irkissä kulje tieto
käytetystä merkistöstä. Tai yleensäkin harkita muita lähestymistapoja.
Vallankumous on kaikkein huonoin vaihtoehto, jos mitään muuta tapaa
ei keksitä. Nyt ei ole vielä edes annettu aikaa esim. serveripuolen
kehitykseen. Minä kehitin alle tunnin ajatustyöllä melkein toimivan
protokollapäivityksen perusrungon. Mitä saisikaan aikaan IRC-protokollan
kehitystyöhön osallistuneet ammattilaiset?

> sinunkaltaisesi jääräpäät ottavat elämäntehtäväkseen UTF-8:aan
> siirtymisen jarruttamisen ja estämisen.

Tai itse asoista ei voida jutella irkissä, jos sinunkaltaisesi
suhteellisuudentajuttomat ihmiset ottavat elämäntehtäväkseen turhan
ja täysin valmistelemattoman teknisen projektin, josta aiheutuu vain
ongelmia.

> Miksei ole teknisesti mahdollista?

Koska IRC-protokollassa ei liiku tieto käytetystä merkistöstä.

> Eli sekä nyysseissä että irkissä joudutaan päivittämään ohjelmia, mutta
> irkissä pitää lisäksi jollain ilveellä saada de facto -standardiksi
> UTF-8-merkistö.

Aivan, jos se halutaan saada sellaiseksi.

> Niin, ei siihen diktaattoria löydy, mutta eipä tilanne
> parane ainakaan jääräpäisellä vanhassa toimimattomassa systeemissä

Voisit vaikka lopulta kertoa, millä tavalla nykyinen järjestelmä on
toimimaton. Muuten väitteilläsi on aika vähän painoarvoa.

> Eikä ole! Sen sijaan UTF-8:n leviämisen estäminen ja jarruttaminen on
> pienenluokan nettiterrorismia ja ennenkaikkea taantumuksellista
> jääräpäisyyttä.

Ei kukaan estä UTF-8:n leviämistä sinänsä. Järjissään olevat, asioita
miettivät ihmiset jarruttavat väärällä tavalla toteutettua jääräpäistä
UTF-8:n levittämistä.

Miksi ihmeessä kukaan haluaisi estää UTF-8:aan siirtymisen vain
kiusalla? Kyllä siihen on ihan oikeat syyt, kuten se, että
siirtyminen aiheuttaa valtavasti ongelmia ihan normaalin tekstin
kanssa.

Suomessa sentään vain esim. ä ja ö menevät rikki. Mieti maata, jossa
on kokonaan latinalaisia aakkosia käyttämätön merkistö. Siellä koko
teksti menee rikki, jos käytetään UTF-8:aa. Unicode-uskovaiset puhuvat
kovasti eri kansallisuuksien huomioon ottamisesta, mutta todellisuudessa
siirtymistä katsotaan vain englanninkielisten näkökulmasta.

Tyypillinen amerikkalaisasenne kyseessä: "pakotetaan noi tähän meidän
tuomaan systeemiin, kyllä ne hyötyy siitä, ne ei vaan tajua sitä"!
Ikään kuin irkkaajat eivät olisi tyytyväisiä nyt omien, kansallisten
merkistöjensä kanssa, jotka toimivat jopa YLLÄTTÄVÄN paljon paremmin
yhteen keskenäänkin kuin Unicode-uskovaiset antavat ymmärtää.

Kyse on yksinkertaisesti siitä, että jotkut kielten
rinnakkaisanalysointia harrastavat tarvitsevat tehokkaan työkalun
itselleen. Nämä ihmiset yrittävät väkisin muokata irkistä sellaista
välinettä itselleen. Vaikka he voisivat käyttää sitä välineenä sopien
kanavakohtaisesta merkistöstä. Mutta tämä ei riitä heille. He eivät
halua säätää merkistöä kanavakohtaisesti. Heidän mielestään on
helpompaa, että kaikki maailman irkkaajat säätävät omia ohjelmiaan,
kuin että he itse joutuisivat säätämään omaansa.

Kyse on aika lailla siitä, että muutama sata ihmistä ei jaksa säätää
ohjelmaansa, joten he yrittävät pakottaa sadattuhannet ihmiset säätämään
omiaan luomalla yhteisöpainetta disinformaatiota välittämällä.

--
Antti Alhonen.

Friman

unread,

Dec 16, 2005, 6:21:51 PM12/16/05

No siihen se asianpuhuminen sitten loppuihin.

Niilo Paasivirta <n...@nemesis.co.jyu.fi> kirjoitti:

Juhapekka Tolvanen

unread,

Dec 17, 2005, 12:41:19 AM12/17/05

Antti Alhonen <antti.alhonen@tut_poista_tama.fi.invalid> writes:

>> Sitäpaitsi UTF-8-käyttäjien kenkiminen ja muu painostus heitä kohtaan
>> vain nostaa siirtymistään epäröivien kynnystä siirtyä itsekin UTF-8:aan

> Aina välttämättä kyse ei ole uskonsodasta tai yhtään mistään

> painostuksesta. UTF-8-häiriköt potkitaan pois ihan samasta syystä kuin
> muutkin, jotka floodaavat satunnaisdataa irkkiin: lukukelvottomuus.

Se lukukelvottomuus ei tuossa tilanteessa johdu suinkaan siitä, että
joku suoltaa irkkiin satunnaisdataa vaan siitä, että vastaanottaja itse
on vielä niin tajapajuinen, ettei osaa vastaanottaa ja käsitellä
UTF-8-merkistön mukaista dataa. Onko sinulla suuriakin vaikeuksia
käsittää satunnaisdatan ja Unicode-standardin mukaisen tekstin välistä
eroa? :-P Satunnaisdatahan on jo määritelmänsä mukaan lukukelvotonta,
mutta UTF-8-tekstin oikeintulkitseminen on täysin mahdollista, kunhan
systeemit ovat kunnossa. Korkeintaan tietämättömän näkökulmasta
UTF-8-teksti voi näyttää satunnaisdatalta. Niin, että keksi parempi
vertaus.

> Sanoisin, että UTF-uskovaiset ovat varsin lyhytnäköisiä.
> Merkistötilannetta, jossa 8-bittiset merkistöt ovat vallinneet 15
> vuotta ja mahdollisuus Unicodeen on ollut käytännössä vasta pari
> vuotta, ei nähdä oikeassa suhteessa, ja jätetään kokonaan arvioimatta
> vaihtoehto kivuttomaan siirtymiseen.

Toisaalta kun vähänkään tutkii Unicoden historiaa, alkaa näyttää aika
kummalliselta, ettei IRC:issä sitä ole vieläkään saatu yleisesti
käyttöön vaan ollaan yhä suppeitten 8-bittisten sekasotkumerkistöjen
ikeen alla:

http://en.wikipedia.org/wiki/Unicode

---- Clip here ----
Unicode revision history

* 1991 Unicode 1.0
* 1993 Unicode 1.1
* 1996 Unicode 2.0
* 1998 Unicode 2.1
* 1999 Unicode 3.0
* 2001 Unicode 3.1
* 2002 Unicode 3.2
* 2003 Unicode 4.0
* 2005 Unicode 4.1
---- Clip here ----

Eli ensi vuonna tulee jo 15 vuotta kuluneeksi siitä, kun eka Unicoden
versio tuli pihalle. Ei me voida joka kerta hangata vastaan tällaisin
argumentein: "Kun ei sitä kukaan muukaan käytä, niin ei sitä kukaan
muukaan käytä". Eräitten on pakko panna itsensä likoon ja oltava
edelläkävijöitä ja näytettävä muille mallia.

>> 1) Minulla on nykyään käytössä ISO-8859-15. Jos naputtelen euron merkin,
>> niin ISO-8859-1-käyttäjät saavatkin silmilleen "pimppimerkin".

> Euromerkkiä ei ole tarkoitus käyttää muutenkaan. Kielitoimistonkin
> suositus on kirjoittaa se asiatekstissä normaalisti sanana, esim. tai
> "10 euroa". Virallinen euron lyhenne on euromerkki tai pieni
> e-kirjain, ja e:tä kannattaakin käyttää esimerkiksi
> tietokonetaulukoissa tai muissa paikoissa, joihin sana euro ei mahdu.
> IRC:ssä näin ei yleensä ole, vaan euro voidaan kirjoittaa
> oikeaoppisesti kokonaan.

Entäs jos kopypasteaa jostain hintataulukosta muutaman rivin ja joka
rivillä on euron merkki hinnan perässä? Pitäisikö silloin käydä joka
riviltä naputtelemassa e-kirjain tai euroa-sana sinne euronmerkin
tilalle. Ei kiitos! Ja, kyllä olen ihan oikeasti nähnyt tuollaisia
hintalistoja kopypastettavan irkkiin. Ja silläkin kertaa sekin euron
käyttö meni pieleen, kun siellä päässä oli joku Wintoosa-merkistö ja
minulla joko ISO-8859-1 tai ISO-8859-15.

> http://www.pelulamu.net/euro/ - sopivaa rautalankavääntöä, jos et yllä
> olevaa tajua.

Tuo pelulamun sivusto ei edes paneudu Unicodeen millään lailla ja sen
näkökulma on ajankohtainen vain sellaisissa IRC-piireissä, joissa on
riesana sekalaiset 8-bittiset merkistöt, eikä olla vielä yhdessä
siirrytty UTF-8:aan.

>> 2) Jos ISO-8859-1-käyttäjä naputtelee puolikkaan merkin, niin minulle
>> näkyykin tällainen merkki:

> Muita ongelmallisia murtolukumerkkejä ovat esimerkiksi 1/3, 1/4 ja
> niin edelleen. Ne mainitaan tuolla huumorisivullakin, josta keskustelu
> lähti liikkelle.

> Oletko ikinä ajatellut, että erilaisia murtolukuja on olemassa ääretön
> määrä. Niistä yleisestikin käytetään jopa satoja. Unicodekaan ei
> tarjoa tällaisia mahdollisuuksia, merkit käyvät usein liian
> pienikokoisiksi ja niin edelleen. Tällöin on joka tapauksessa
> käytettävä vinoviivaa ja ilmaistava 5/6, 9/10 - ja 1/2.

No, käytetään sitä vinoviivanotaatiota vasta sitten, kun on tarvis saada
sen verran harvinainen murtoluku, ettei sille ole olemassa
Unicode-merkkiä (taikka jos käyttäjä ei ehdi ottaa selkoa, että olisko
hänen tarvitsemalleen harvinaisemmalle murtoluvulle olemassa oma
merkkinsä). Simppeliä, eikö totta? Ainakin puolikkaat ja neljäsosat
vielä menee, eikä vähiten siksi, kun ne ovat jo ISO-8859-1 -merkistöstä
tuttuja, mutta sen harvinaisemmilla murtoluvuilla ei välttämättä maksa
edes vaivaa etsiä sitä omaa merkkiään, vaikka sellainen olisikin
Unicodessa olemassa.

> Normaalissa arkikielessä "puoli" kirjoitetaan yllättäen "puoli" eikä
> 1/2-merkillä. Silloin tällöin irkissä näkyy taas niin ikään peeloja,
> jotka ovat löytäneet koulun koneelta 1/2-näppäimen, ja saattavat käyttää
> sitä esimerkiksi ilmauksessa "kello on 1/2 kymmenen" tai "siellä oli
> tavarat 1/2 hintaan". Lienee selvää, kuinka surkeita ilmauksia nuo ovat.

Niin, tai vaikkapa "1/2kuu" on vielä pelleilyä. Mutta entäs tämä?:
"Koitin nukkua 4 1/2 h unet." Tuohan on varsin puhekielinen lause, mutta
puolikkaan merkki näyttää silti varsin sopivalta tuohon. Ja itseasiassa
sanasta sanaan suunnilleen tuollaisen lauseen näin ihan oikeasti irkissä
n. viikko sitten ja hän koitti käyttää puolikkaan merkkiä, mutta minulle
näkyi tällaisena ligatuurimerkkinä, jollaisesta jo kerroinkin:

http://en.wikipedia.org/wiki/%C5%92

Eli ei sitä puolikkaan ja muitten murtolukujen merkkejä ole suinkaan
huvin vuoksi keksitty, vaan sille on ihan oikeaakin käyttöä.

>> 4) ISO-8859-1 -käyttäjä taas ei näe, jos meikä kirjoittaa "shakki"
>> suhuässää käyttäen taikka koittaa kirjoittaa tämän laivatyypin
>> nimeltä "dzonkki" oikein, eli niin, että z-kirjaimen yläpuolella
>> näkyy sellainen v-kirjaimen muotoinen väkänen.

>> Kolmea ensinmainittua ongelmaa olen itsekin irkissä nähnyt monet kerrat.

>
> Logitatko? Jos logitat, löydät varmasti nopealla tekstihaulla nuo
> shakit ja dzonkit. Toivon, että näytät, vieläpä asiayhteyttä
> rikkomatta, että varmistun siitä, ettei kyseessä ole metaongelma.
> En nimittäin usko tätä, ennen kuin itse näen. Euromerkkiongelmaa
> olen itsekin nähnyt, mutta ko. ongelmasta kirjoitinkin jo yllä.

Opettele lukemaan! Sanoin, että kolmea ensinmainittua ongelmaa olen
oikeasti irkissä nähnyt. Mutta toi dzonkin ja suhuässän ongelma olikin
neljännessä kohdassa. Tosin kerran jollain IRC-kanavalla eräs totesi,
että kannattaa käyttää irkissä ISO-8859-15-merkistöä, jotta dzonkit ja
suhuässät tulevat oikein. Siinä kaikki.

>> 3) Tuosta Windows-1252-merkistöstä löytyy riveiltä 8x ja 9x erilaisia
>> lainausmerkkejä, mutta kun niitä vastaavia ei ole ISO-8859-1 ja
>> ISO-8859-15 -merkistöissä, niin niitten merkistöjen käyttäjille
>> näkyykin kontrollikoodisotkua, kun Windows-käyttäjä koittaa
>> kirjoittaa oikeita lainausmerkkejä.

> Oikeita lainausmerkkejä käytetään painotuotteissa, ei aina

> edes niissä. Oikeista lainausmerkeistä harva edes tietää.

Ihan yhtälailla se väärien lainausmerkkien (ja väärien ajatus-, väli- ja
tavuviivojen) käyttö on väärin painotuotteissakin. Varsinkin
WYSIWYG-teksturit ovat niitten suhteen niin ylimalkaisia mutta esim.
LaTeX ei. Olisi kieltämättä kivaa, jos WYSIWYG-teksturienkin puolella
alettaisiin vihdoin käyttää niitä oikeita merkkejä eikä halpoja muovisia
kopioita. Ja kunhan UTF-8 saadaan riittävänä yleiseksi irkissä, noita
merkkejä uskaltaa käyttää sielläkin. Ainoa ongelma on sitten enää löytää
suht helppo tapa syöttää ne merkit, kun näppäimistöltä ne eivät suoraan
löydy.

> Eikä kukaan halua irkkiin kirjoittaa oikeita lainausmerkkejä.

Eikö kukaan? Johtuisikohan se haluamattomuus lähinnä siitä, kun ei edes
tiedetä sellaisten olemassaolosta? Toisaalta jos ne olisivat oikeasti
tarjolla, niin varmaan niitä myös halukkaammin käytettäisiin.

>> Ja kyllä, noitakin ongelmia olen nähnyt irkissä ja varsinkin

> Olet nähnyt Windows-1252:n "oikeita" lainausmerkkejä vahingossa
> tehtynä? Onnittelut.

Tarkkaanottaen tuon Windows-merkistön mainitsemistani ongelmista olen
irkissä nähnyt ihan oikeasti ainakin kahta ensinmainittua, mutta
kolmannesta en ole varma.

> Paljastit juuri itsesi huijariksi, jolle keskustelun päämäärä on
> voitto, johon voidaan aivan hyvin päästä valehtelemalla, keksimällä
> "omia kokemuksia".

Ei, minä en valehtele, enkä keksi "omia kokemuksia". Piste.

>> Miten muuten suomalaiset ja suomenkieliset japaninkielen harrastajat
>> voisivat keskustella japaninkielestä? Mistään fscking shift-jis:sistä
>> ei kuitenkaan ääkkösiä löydy eikä mistään ISO-8859-*-merkistöistä
>> löydy japaninkielen merkkejä. On siis käytettävä jotain merkistöä,
>> josta löytyy sekä ääkköset että japaninkielen merkit.

> Kannattaa perehtyä asioihin ennen kirjoittamista. Yllä kerroin, miten
> tämä toimii ihan todellisuudessakin.

No, missä 8-bittisessä ei-Unicode-merkistössä on mukana sekä ääkköset,
että iso kasa japaninkielen merkkejä?

Entäs jos otetaan tarkasteluun monien muitten eri kielien puhujia, jotka
haluaisivat keskustella vaikkapa japaninkielestä? Yhäkö heille löytyy
itsekullekin jokin ei-Unicode-merkistö, josta löytyy sekä heidän itse
kunkin oman äidinkielensä merkit että iso kasa japaninkielen merkkejä?
Vai alkaako taas tulla aiheelliseksi vaihtaa Unicodeen? Mitä sillä
sitten saavutetaan, jos jokaisen japaninharrastajan pitää arpoa joku
kuppainen ei-Unicode-merkistö, jolla pystyy kirjoittamaan sekä japania
että omaa äidinkieltään?

>> Kun ottaa sen pään pois perseestään, katselee ympärilleen ja käyttää
>> vähän mielikuvitustaan, niin tällaisia esimerkkejä keksii ja löytää
>> varmasti enemmänkin.

> _Mielikuvitustahan_ näiden ongelmien esimerkkien _keksimiseen_
> todellakin on käytetty.

Ei, nämä esimerkkini eivät ole pelkästään mielikuvituksen tuotetta. Piste.

>> Siksi, koska siinä on niin monien eri kielien merkkejä, että sillä
>> yhdellä ainoalla merkistöllä voidaan keskustella niillä kaikilla
>> kielillä ja millä tahansa niistä kielistä voidaan käydä keskusteluja
>> mistä tahansa niistä kielistä sekä niitten eri kielien eroista. Eikä
>> tarvitse joka kanavalle erikseen kludgettaa omaa merkistöään
>> käyttöön.

> Kuka keskustelee kaikilla kielillä samaan aikaan?

En minä sellaista olekaan vaatimassa. Älä kyhää olkinukkea.

> Kielitieteen syväanalyysiä harrastavathan voivat itse sopia UTF-8:n
> käytöstä huomattavasti helpommin kuin pakottamalla kaikki siihen. Ota
> huomioon, että suurin osa irkkaajista on sellaisia mattimeikäläisiä,
> jotka eivät edes tajua merkistöistä mitään.

Niin, ja "tavallinen käyttäjä ei edes tiedä, mikä on rootkit!". Olisko
se paha juttu, jos irkkaajat ja tietokoneen käyttäjät oppisivat edes
vähän paremmin näitä merkistöasioita?

>> osa merkeistä löytyy väliltä A-Z ja a-z. Jos jollakulla on vielä
>> tilapäisesti joku antiikkinen merkistö käytössä, niin sanan muista

> Vielä jollakulla = 99,9 prosentilla irkkaajista?

Tuossa oli siis pikemminkin tarkoitus esittää jonkinlainen
tulevaisuuteen sijoittuva skenaario eikä niinkään kertoa
nykytilanteesta.

> Tilapäisesti? Joo ei, ollut kymmenen vuotta tilapäistä käyttöä :-).

Tilapäisyydelä tarkoitin lähinnä sitä, jos joku pääasiallisen
irkkikoneensa UTF-8:aan siirtänyt joutuu tilapäisesti käyttämään jotain
muita järjestelmiä, joissa UTF-8 näkyy väärin.

> Antiikkinen? Mitä antiikkista on nykyisessä käytännössä?

Eiköhän se ole jo käynyt selväksi, miten onnetoman suppeita nuo
8-bittiset merkistöt ovat ja siksi niissä pitäytymistä voidaan erittäin
perustellusti kutsua antiikkiseksi käytännöksi.

> Jännä tyyli Unicode-adventisteilla esittää asia siten, että heidän
> vallankumouksensa olisi jo mennyt läpi, UTF-8 olisi vallitseva
> käytäntö ja että muut ovat jotain viime hetkeen vastaan inttäviä.
> Vaikka todellisuudessa asia on juuri päinvastoin.

Älä viitsi kyhätä olkinukkea. Mutta ennenpitkää tilanne kyllä kääntynee
siihen, että noissa antiikkisissa 8-bittisissä merkistöissä
jääräpäisesti pysyvät ovat vain viimeiseen saakka vastaan inttäviä
vähemmistöläisiä.

>> tahallaan valittu paljon ääkkösiä sisältäviä sanoja ja jopa sen pystyy
>> lukemaan:
>> Ć
>> ĆĢliĆ¶ ĆĢlĆĢ lyĆ¶! ĆĆ¶liĆĢ lĆĢikkyy!

> Tuollaista tekstiä ei pysty lukemaan keskustelussa. Se vaatii erityistä
> keskittymistä ja tulkkaamista. Jos itse pystyt lukemaan tuon samalla
> vauhdilla kuin normaalin tekstin, olet aika fakiiri.

Tuohan oli aika ääriesimerkki. En ehkä itse lukisi juuri tuota lausetta
samalla nopeudella kuin ehjää tekstiä, mutta sellaista tavallisempaa
suomenkieltä ainakin melkein samalla nopeudella. Mutta kuten jo sanoin,
jos vaan suinkin mahdollista, niin kannattaa hoitaa se systeeminsä
UTF-8:an lukeminen kuntoon tavalla tai toisella, eikä kiukutella
jokaiselle vastaantulevalle UTF-8:an käyttäjälle.

>> Miten niin epäoleellista?

> Hei, psst, pointtasin jotain UTF-8:n hyväksi. Eli että on
> epäoleellista valittaa siitä kaistankäytön lisääntymisestä UTF-8:n
> käytössä.

Missasitkohan pointtini? Tarkoitin, että muihin Unicode-merkistöihin
verrattuna UTF-8 vie vähemmän tilaa ja kuluttaa vähemmän kaistaa. Mitä
etua muista Unicode-merkistöistä kuin UTF-8:sta sitten olisi irkissä?

>>> Oleellista on se, että IRC:ssä kaikkien täytyy käyttää yhtä merkistöä
>>> per kieli.

>> Miksi täytyy? Perustele!

> Ai että miksi :)?

> Siksi, että jos irkissä käytetään esimerkiksi viittä
> (_epäyhteensopivaa_) merkistöä per kieli, se johtaa ongelmiin.
> Esimerkiksi ISO-8859-15 ja UTF-8 ovat epäyhteensopivia.

Miten esim. sinä olisit kehittänyt UTF-8:n niin, että se olisi
mahdollisimman yhteenopiva ISO-8859-15:n kanssa ja siinä sivussa vielä
yhteensopiva monen muunkin merkistön kanssa, josta siihen UTF-8:aan
ollaan siirtymässä? Meillä suomalaisilla tosiaan on tuuria, kun lähinnä
vain ääkköset ovat menossa joksikin aikaa "rikki" UTF-8:aan siirtymisen
aikana ja itsekullakin vaihtelevassa määrin. Eiköhän me se kestetä?
Tosin siirtymävaiheessa ne ovat oikeasti rikki vain sellaisen
näkökulmasta, jolla UTF-8:an siirtyminen on kesken.

Tämä on todennäköisesti vihoviimeinen kerta, kun me suomalaiset
korjaamme ääkkösiämme. Toisinkuin noita antiikkisia 7- ja 8-bittiset
merkistöjä, Unicode-merkistöjä voidaan tarvittaessa laajentaa ja
taaksepäin yhteensopivasti ja sen vuoksi sillä pärjätään pitkälle
tulevaisuuteen. Uusien merkkien ilmaantuessa ei enää olekaan tarvetta
siirtyä yhdestä suppeasta merkistöstä toiseen yhtä suppeaan merkistöön,
kuten tapahtui euron merkin ilmaantuessa, vaan ainoastaan Unicoden
versiosta uudenmpaan Unicoden versioon. Unicodessa merkkipaikkoja on yhä
vapaana vaikka kuinka ja uusien vapaitten merkkipaikkojen lukumäärää
voidaan tarvittaessa lisätä.

> Lienemme samaa mieltä, että yhtä merkistöä pitäisi käyttää, sitä
> tuskin tarvitsee perustella?

Ja se yksi merkistö tulee olla mieluummin UTF-8 kuin ISO-8859-15. Piste.
Minä EN ole vaatimassa, että yhtä ja samaa kieltä kirjoitetaan kahdella
tai useammalla merkistöllä. Siirryttäessä vaikkapa ISO-8859-15:sta
UTF-8:aan tilanne näyttää vain sen yhden kulloisenkin kielen
näkökulmasta _hetkellisesti_ siltä, että juuri sillä hetkellä
kirjoitellaan yhtä kieltä kahdella tai useammalla merkistöllä. Mutta
sehän on vain välivaihe, joka täytyy saada mahdollisimman
lyhytaikaiseksi. Mutta kuten olen jo painottanut, se siirtymävaihe ja
sen aiheuttamat tuskat vain pitkittyvät jääräpäisellä
vastaanhankaamisella.

Mutta sitten kun tilannetta tarkastellaan useampien kielien
näkökulmasta, huomataankin että käytössä onkin iso kasa keskenään
yhteensopimattomia merkistöjä, jotka kaikki kannattaisi korvata yhdellä
ainoalla merkistöllä eli Unicodella. Myöskään monen eri kielen
kirjoittelu monella eri merkistöllä ei kertakaikkiaan ole käytännölistä.

Olet siis missannut pointtini erittäin tehokkaasti. Kyllä, minäkin
haluan, että käytetään yhtä merkistöä per kieli. Mutta haluan myös, että
käytetään yhtä merkistöä per (suunnilleen) kaikki kielet. Ja kummassakin
tapauksesa se yksi ainoa merkistö kannattaa olla jokin Unicode-merkistö.
Käsitätkö? Jatkuvastihan tulee tilanteita, joissa liutaan yhden kielen
kirjoittamisesta kahden tai useamman kielen kirjoittamiseen ja sitä
sattuu myös irkissä. Ei tollaisiin tilanteisiin joutuakseen tarvitse
välttämättä olla edes mikään kielitieteilijä. Sen vuoksi olisi hyvä,
että jo sitä yhtä kieltä kirjoittaessa merkistö olisi jo alunperinkin
sopiva muittenkin kuin vain sen yhden kielen kirjoittamiseen. Sitäpaitsi
usein jo yhtä kieltä kirjoittaessa tulee usein tarve kirjoittaa
vieraskielisiä erisnimiä, joissa tarvitaan merkkejä, joita ei
kertakaikkiaan löydy jostain suppeasta 8-bittisestä merkistöstä, jolla
sitä yhtä kieltä on tapana kirjoitella. Ja sitäkin tapahtuu myös
irkissä.

>> Ja mitä tuollaisella aivokuolleella käytännöllä sitten saavutetaan?

> Sillä, että käytetään yhteistä merkistöä, saavutetaan se, että merkit
> välittyvät oikein. Yksinkertainen asia, mutta joskus niin vaikea
> ymmärtää :). Kas kun tietokone käsittelee sitä dataa vain lukuarvoina.

Mutta jos se yksi merkistö on joku antiikkinen 8-bittinen merkistö, se
ei riitä juuri yhtään mihinkään.

>>> Sitä UTF-8 ei suomen kielen kohdalla ole. Ongelma on se, ettei
>>> UTF-8:aa voi käyttää suomeksi, koska se Ei Vaan Toimi irkissä. Varsin
>>> yksinkertaista.

>> EI pidä paikkaansa. Mitä enemmän ja laajemmin UTF-8 aletaan irkissä
>> käyttää, sitä paremmin se toimii.

> Ensin sanot, ettei pidä paikkaansa, ettei se toimi. Sitten sanot, että
> se voi ruveta toimimaan, jos sitä ruvetaan laajemmin käyttämään. Miten
> se voi alkaa toimia, jos se jo toimii? Yrittäisit nyt päättää,
> toimiiko se vai ei.

Ja taas missasit pointin. Suure nimeltä "toimivuus" ei ole joko/tai
-asia, vaan siinä voi olla myös astevaihtelua. Tarvitsetko lisää
rautalankaa? Irkissä se astevaihtelu ilmenee lähinnä UTF-8-kykyisten
käyttäjien osuutena kaikista IRC-käyttäjistä. Mitä isommaksi tuo osuus
kasvaa, sen paremmin UTF-8 toimii irkissä.

> Nyt ei ole vielä edes annettu aikaa esim. serveripuolen kehitykseen.
> Minä kehitin alle tunnin ajatustyöllä melkein toimivan
> protokollapäivityksen perusrungon. Mitä saisikaan aikaan
> IRC-protokollan kehitystyöhön osallistuneet ammattilaiset?

Jos se serveripuolen kehitystyö on sinulle niin tärkeää, niin mikset
sitten jo ala ajamaan asiaa aktiivisemmin? Toistan: Saa suorittaa.

>>> Irkissä ei pienintäkään toivoa Unicoden toimivuudesta, koska se ei
>>> ole edes teknisesti mahdollista.

>> Miksei ole teknisesti mahdollista?

> Koska IRC-protokollassa ei liiku tieto käytetystä merkistöstä.

Hu0h!1 Koska IRC-protokollassa ei liiku tietoa käytetystä merkistöstä,
niin looginen seuraus siitä on se, ettei pidä käyttää mitä sattuu
sekasotkumerkistöjä vaan yhtä ainutta mahdollisimman laajaa merkistöä
eli UTF-8:aa.

IRC-serverithän eivät nykytilanteessa millään lailla edes yritä sille
bittivirralle mitään merkistökonversioita tehdä, joten ainakin se kulkee
puhtaasti klientille saakka. Ongelmat alkavat vasta siinä vaiheessa, kun
klientin pitäisi sitä bittivirtaa näyttää käyttäjän ymmärtämässä
muodossa ja toisaalta sitä käyttäjän naputtelemaa tekstiä lähettää
jonkinmerkistöisenä bittivirtana. Eli klientit on saatava tässä asiassa
kuntoon. Niin kauan, kun sekä IRC-servereille että -klienteille se
teksti on pohjimmiltaan vain bittivirtaa, jonka merkistöä ei erikseen
ilmoiteta, vastuu on klienttien käyttäjillä, joiden täytyy voida luottaa
siihen, että nämä asiantilat ovat voimassa:

1) Oma klientti lähettää UTF-8.
2) Oma klientti osaa näyttää UTF-8:an oikein.
3) Muitten klientit lähettävät UTF-8:aa ja se myös tulkitaan sellaisena.
4) Muut klientit osaavat näyttää UTF-8:aa oikein.

Toinen tapa korjata ongelma olisi myös se, että saataisin jollain
ilveellä IRC-protokollaan sellainen lisäys, että mukana liikkuisi tieto
käytetystä merkistöstä. Ja vielä jos homma hoidetaan taaksepäin
yhteensopivasti, niin kiva olisi.

Nyysseissä ja wepissä sekalaisten merkistöjen käyttö ei ole aivan niin
paha asia, koska niissä on mahdollista ilmaista, millä merkistöllä
mikäkin teksti on kirjoitettu. Mutta on se toki niinkin päin, että tuo
käytetyn merkistön ilmoittaminen ko. protokollassa tekee UTF-8:ankin
käytöstä toimivampaa.

Eli tiivistäen: Vaikka IRC-protokollassa ei kuljekaan tietoa käytetystä
merkistöstä, se seikka ei missään tapauksessa tee Unicoden käytöstä
teknisesti täysin mahdotonta, mutta se on kyllä jonkinlainen hidaste sen
käyttöönotolle.

> Miksi ihmeessä kukaan haluaisi estää UTF-8:aan siirtymisen vain
> kiusalla? Kyllä siihen on ihan oikeat syyt, kuten se, että siirtyminen
> aiheuttaa valtavasti ongelmia ihan normaalin tekstin kanssa.

TA-JU-A!: Ne ongelmat ovat vain ja ainostaan välivaihe, jota ei missään
tapauksessa pidä pitkittää! Tarvitsetko rautalankaa vaiko jo
hiilihangonvartta?

> Suomessa sentään vain esim. ä ja ö menevät rikki. Mieti maata, jossa
> on kokonaan latinalaisia aakkosia käyttämätön merkistö. Siellä koko
> teksti menee rikki, jos käytetään UTF-8:aa. Unicode-uskovaiset puhuvat
> kovasti eri kansallisuuksien huomioon ottamisesta, mutta
> todellisuudessa siirtymistä katsotaan vain englanninkielisten
> näkökulmasta.

Paskaa. Jos merkistöissä todella toimittaisiin vain ja ainoastaan
englannikielisten näkökulma huomioonottaen, koko vitun Unicodea ei olisi
alunperinkään alettu edes suunnittelemaan. Itseasiassa silloin ei olisi
keksitty myöskään näitä lukuisia kansallisia 8-bittisiä merkistöjä. Sen
verran siinä Unicodessa on kyllä tehty myönnytystä englanninkielen
suuntaan, että merkistön alkupään merkit mätsäävät US-ASCII:n kanssa,
joka on sovelias lähinnä vain englanninkielen kirjoittamiseen ja
vaihtelevassa määrin muitten länsimaisten kielien kirjoittamiseen. Siinä
kaikki.

> Tyypillinen amerikkalaisasenne kyseessä: "pakotetaan noi tähän meidän
> tuomaan systeemiin, kyllä ne hyötyy siitä, ne ei vaan tajua sitä"!

Amerikkalainen asenne merkistöasioissa olisi tällainen: "Kyllä ne sillä
US-ASCII:lla pärjäävät ja jos eivät pärjää, opetelkoot enkkua ja
jättäkööt erinismistään aksentit, umlautit ja muut turhat härpäkkeet
pois!"

> Kyse on yksinkertaisesti siitä, että jotkut kielten
> rinnakkaisanalysointia harrastavat tarvitsevat tehokkaan työkalun
> itselleen. Nämä ihmiset yrittävät väkisin muokata irkistä sellaista
> välinettä itselleen. Vaikka he voisivat käyttää sitä välineenä sopien
> kanavakohtaisesta merkistöstä. Mutta tämä ei riitä heille. He eivät
> halua säätää merkistöä kanavakohtaisesti. Heidän mielestään on
> helpompaa, että kaikki maailman irkkaajat säätävät omia ohjelmiaan,
> kuin että he itse joutuisivat säätämään omaansa. Kyse on aika lailla
> siitä, että muutama sata ihmistä ei jaksa säätää ohjelmaansa, joten he
> yrittävät pakottaa sadattuhannet ihmiset säätämään omiaan luomalla
> yhteisöpainetta disinformaatiota välittämällä.

Ei pidä paikkaansa. Ihan jokainen tässä jupakassa joutuu jotain
säätämään jokatapauksessa, joko kanavakohtaisia asetuksia tai sitten
muita asetuksia tai sekä että. Ja kyllä varmasti myös monet
"Unicode-uskovaiset" niihin kanavakohtaisiin asetuksiin suostuvat
tilapäisesti. Mutta se on minusta vain välttämätön paha. Toisaalta ei ne
kanavakohtaisetkaan asetukset itsestään niihin IRC-klientteihin ole
tulleet vaan jonkun, on pitänyt ne niihin koodata.

Niilo Paasivirta

unread,

Dec 17, 2005, 12:52:40 AM12/17/05

Juhapekka Tolvanen wrote:
> Se lukukelvottomuus ei tuossa tilanteessa johdu suinkaan siitä, että
> joku suoltaa irkkiin satunnaisdataa vaan siitä, että vastaanottaja itse
> on vielä niin tajapajuinen, ettei osaa vastaanottaa ja käsitellä
> UTF-8-merkistön mukaista dataa. Onko sinulla suuriakin vaikeuksia

Juu. Nyysseissäkin takapajuiset eivät osaa vastaanottaa ja käsitellä
UTF-8:a. (Jostain syystä muuten postauksesi ei ollut UTF-8:aa? Onko
sinulla joku takapajuinen nyyssiohjelma tai jotain?)

> Toisaalta kun vähänkään tutkii Unicoden historiaa, alkaa näyttää aika
> kummalliselta, ettei IRC:issä sitä ole vieläkään saatu yleisesti
> käyttöön vaan ollaan yhä suppeitten 8-bittisten sekasotkumerkistöjen
> ikeen alla:

Aivan kuten nyysseissäkin.

> Eli ensi vuonna tulee jo 15 vuotta kuluneeksi siitä, kun eka Unicoden
> versio tuli pihalle. Ei me voida joka kerta hangata vastaan tällaisin
> argumentein: "Kun ei sitä kukaan muukaan käytä, niin ei sitä kukaan
> muukaan käytä". Eräitten on pakko panna itsensä likoon ja oltava
> edelläkävijöitä ja näytettävä muille mallia.

Pätee nyysseihinkin.

> Entäs jos kopypasteaa jostain hintataulukosta muutaman rivin ja joka
> rivillä on euron merkki hinnan perässä? Pitäisikö silloin käydä joka
> riviltä naputtelemassa e-kirjain tai euroa-sana sinne euronmerkin
> tilalle. Ei kiitos! Ja, kyllä olen ihan oikeasti nähnyt tuollaisia
> hintalistoja kopypastettavan irkkiin. Ja silläkin kertaa sekin euron
> käyttö meni pieleen, kun siellä päässä oli joku Wintoosa-merkistö ja
> minulla joko ISO-8859-1 tai ISO-8859-15.

Aivan. Kun nyyssipostaukseenkin haluaa copypasteta jotain, jossa on
euron merkkejä, niin sama juttu.

> Niin, ja "tavallinen käyttäjä ei edes tiedä, mikä on rootkit!". Olisko
> se paha juttu, jos irkkaajat ja tietokoneen käyttäjät oppisivat edes
> vähän paremmin näitä merkistöasioita?

Ja nyysseihin kirjoittajat.

> Eiköhän se ole jo käynyt selväksi, miten onnetoman suppeita nuo
> 8-bittiset merkistöt ovat ja siksi niissä pitäytymistä voidaan erittäin
> perustellusti kutsua antiikkiseksi käytännöksi.

Jep. Nyysseissäkin on siis päivänselvästi siirryttävä UTF-8:aan.

> Älä viitsi kyhätä olkinukkea. Mutta ennenpitkää tilanne kyllä kääntynee
> siihen, että noissa antiikkisissa 8-bittisissä merkistöissä
> jääräpäisesti pysyvät ovat vain viimeiseen saakka vastaan inttäviä
> vähemmistöläisiä.

Niinpä. Täällä nyysseissäkin saivarrellaan ihan ihmeellisiä tekosyitä,
ettei vaan jouduttaisi siirtymään nykyaikaan.

> jos vaan suinkin mahdollista, niin kannattaa hoitaa se systeeminsä
> UTF-8:an lukeminen kuntoon tavalla tai toisella, eikä kiukutella
> jokaiselle vastaantulevalle UTF-8:an käyttäjälle.

Näin on. Nyysseissäkin on käytettävä UTF-8:a, ja sivuutettava kaikenlaiset
vänkytykset sitä vastaan.

> Tosin siirtymävaiheessa ne ovat oikeasti rikki vain sellaisen
> näkökulmasta, jolla UTF-8:an siirtyminen on kesken.

Siirtymävaihetta siis nopeuttaa huomattavasti se, kun kaikki alkavat
nyt heti postata UTF-8:a nyysseihin.

Kopio ja jatkot siis nyyssiryhmään, koska jokainen argumentti UTF-8:n
käytöstä äm-irkissä sopii aivan suoraan tai jopa paremminkin nyysseihin.

--
Niilo Paasivirta E-mail: n...@iki.fi URL: http://www.iki.fi/%7Enp/

"Iätön kauneutenne, kultivoitu käytöksenne, älykkyytenne - ja tissit
tietysti - on aina vetänyt minua valtavasti puoleensa." - Uuno Turhapuro

Juhapekka Tolvanen

unread,

Dec 17, 2005, 1:54:17 AM12/17/05

Followup-To: sfnet.viestinta.nyyssit

Niilo Paasivirta <n...@nemesis.co.jyu.fi> writes:

> Juhapekka Tolvanen wrote:

>> Se lukukelvottomuus ei tuossa tilanteessa johdu suinkaan siitä, että
>> joku suoltaa irkkiin satunnaisdataa vaan siitä, että vastaanottaja
>> itse on vielä niin tajapajuinen, ettei osaa vastaanottaa ja käsitellä
>> UTF-8-merkistön mukaista dataa. Onko sinulla suuriakin vaikeuksia

> Juu. Nyysseissäkin takapajuiset eivät osaa vastaanottaa ja käsitellä
> UTF-8:a. (Jostain syystä muuten postauksesi ei ollut UTF-8:aa? Onko
> sinulla joku takapajuinen nyyssiohjelma tai jotain?)

Mutta sivuutit tämän kohtani kommentoimatta sitä:

"Nyysseissä ja wepissä sekalaisten merkistöjen käyttö ei ole aivan niin
paha asia, koska niissä on mahdollista ilmaista, millä merkistöllä
mikäkin teksti on kirjoitettu."

No, eipä tämä minun Gnussini järin takapajuiselta vaikuta siinä
suhteessa, kun tämä on jo monet kerrat näyttänyt muitten kirjoittamat
UTF-8-merkistöiset nyyssit oikein ainaskin silloin kun se merkistön
ilmoittava headeri on ollut siinä nyyssissä oikein. Ja eiköhän tämä
osaisi myös lähettää niitä.

Jos mä kirjoittaisin nyysseihin sellaista tekstiä, jossa on merkkejä,
jotka löytyy UTF-8:sta muttei ISO-8859-1:stä eikä ISO-8859-15:sta, niin
sitten käyttäisin varmaan UTF-8:aa. Itseasiassa jo pelkästään noitten
euronmerkkien sekä oikeitten lainausmerkkien ja tavu-, ajatus- ja
väliviivojen takia UTF-8:an käyttäminen nyysseissä vaikuttaa
kiinnostavalta. Ja sanomattakin on selvää, että haluan jatkossakin
ilmoittaa sen käyttämäni merkistön oikein tuolla nyyssien headereissa.

Mutta mitäs nyyssien RFC-dokut asiasta sanovat? Eikös niissä sanota,
että pitäisi käyttää suppeinta mahdollista (ISO-)merkistöä, joka ko.
nyyssin kykenee ilmaisemaan? Eli niin kauan kuin en käytä edes euron
merkkiä, mun pitäisi käyttää ISO-8859-1:stä. Heti jos kirjoitan euron
merkin nyyssiini, saan käyttää jo ISO-8859-15:sta. Sitten jos kirjoitan
nyyssiin esim. sekä euron että puolikkaan merkin, voinkin huoletta
tuupata sen menemään UTF-8-merkistöisenä, koska ISO-8859-15-merkistössä
noista kahdesta merkistä löytyy vain euron merkki ja ISO-8859-1
-merkistöstä puolestaan puolikkaan merkki. Ja heti jos nyyssissäni olisi
noita oikeita lainausmerkkejä ja tavu-, ajatus- ja väliviivoja, niin
sitten ainakin UTF-8:an käyttö olisi välttämätöntä.

Siitä olen jo threadin alkupäässä kirjoittanut, milloin minun mielestäni
on oikein käyttää euron ja puolikkaan merkkiä ja koska niitten sijaan
tulisi käyttää vastaavia sanoja oikein taivutettuna. Eli en tarkoita,
että pitäisi koska sattuu käyttää euron ja puolikkaan merkkiä.

>> Entäs jos kopypasteaa jostain hintataulukosta muutaman rivin ja joka
>> rivillä on euron merkki hinnan perässä? Pitäisikö silloin käydä joka
>> riviltä naputtelemassa e-kirjain tai euroa-sana sinne euronmerkin
>> tilalle. Ei kiitos! Ja, kyllä olen ihan oikeasti nähnyt tuollaisia
>> hintalistoja kopypastettavan irkkiin. Ja silläkin kertaa sekin euron
>> käyttö meni pieleen, kun siellä päässä oli joku Wintoosa-merkistö ja
>> minulla joko ISO-8859-1 tai ISO-8859-15.

> Aivan. Kun nyyssipostaukseenkin haluaa copypasteta jotain, jossa on
> euron merkkejä, niin sama juttu.

Itseasiassa nyyssipostaukseen noita hintataulukon rivejä uskaltaa
kopypasteilla kerralla suurempia määriä kuin irkkiin ja siitä voi
seurata myös se, että joka euron merkin korvaaminen euroa-sanalla käy
liian vaivalloiseksi. Sitäpaitsi hintataulukkoihin euron merkki sopiikin
paljon paremmin kuin johonkin ihmiskielen lauseeseen. Mutta koska
nyysseissä kulkee tieto nyyssiartikkelissa käytetystä merkistöstä niin
hyvin, niin tuollaisen hintataulukon sisältävän nyyssin saattaa hyvinkin
voida lähettää ISO-8859-15 -merkistöisenä eikä UTF-8:aa välttämättä
tarvita.

>> jos vaan suinkin mahdollista, niin kannattaa hoitaa se systeeminsä
>> UTF-8:an lukeminen kuntoon tavalla tai toisella, eikä kiukutella
>> jokaiselle vastaantulevalle UTF-8:an käyttäjälle.

> Näin on. Nyysseissäkin on käytettävä UTF-8:a, ja sivuutettava
> kaikenlaiset vänkytykset sitä vastaan.

Tai ainakin kannattaa hankkia joku hyvä nyyssiklientti, joka osaa edes
näyttää ne UTF-8-merkistöiset nyyssit oikein. Eihän se vielä sitä
tarkoita, että alkaisi myös kirjoittaa sitä UTF-8:aa nyyssiryhmät
täyteen.

> Kopio ja jatkot siis nyyssiryhmään,

Menkööt vasta seuraava follari vain s.v.nyysseihin.

Lauri Nurmi

unread,

Dec 17, 2005, 3:11:21 AM12/17/05

Antti Alhonen <antti.alhonen@tut_poista_tama.fi.invalid> kirjoitti 15.12.2005:
> Vedetääs kunnon flametustyyliin "käsi ylös" -äänestys. Kuka ihan
> REHELLISESTI kehtaa sanoa, että oikeasti (ei siis leikisti) tarvitsee
> irkissä sellaisia erikoismerkkejä, joita ISO-8859-1(5) ei tarjoa?

Monella kanavalla käytetään esimerkiksi sekä 1/2-merkkiä että euromerkkiä.
Näiden molempien esittämiseen ISO-8859-1/15 ei riitä.

Juhapekka Tolvanen

unread,

Dec 17, 2005, 4:03:55 AM12/17/05

Lauri Nurmi <lan...@iki.no.spam.fi.invalid> writes:

Noitten lisäksi minä haluaisin käyttää tässä threadissa mainittuja
ihkaoikeita lainausmerkkejä sekä väli, tavu- ja ajatusviivoja enkä
niitten halpoja muovisia kopioita. Ja potenssilukujakin saattaisi ehkä
joskus tarvita.

Antti Alhonen

unread,

Dec 17, 2005, 8:50:07 AM12/17/05

Lauri Nurmi wrote:
>
> Monella kanavalla käytetään esimerkiksi sekä 1/2-merkkiä että euromerkkiä.
> Näiden molempien esittämiseen ISO-8859-1/15 ei riitä.

Ai, mitäs kanavia nämä ovat?

Ja se, että jossain joku euromerkin näppäimistöltään löytänyt teini
KÄYTTÄÄ sitä, ei tarkoita sitä, että sitä TARVITSISI käyttää. Siksihän
kysyinkin tarvetta. No, onko sitä? Niitä esimerkkejä?

--
Antti Alhonen.

Juhapekka Tolvanen

unread,

Dec 17, 2005, 9:03:21 AM12/17/05

Antti Alhonen <antti.alhonen@tut_poista_tama.fi.invalid> writes:

> "täyden hyödyn asiasta saa kun terminaalikin on säädetty oikein" -
> Ilmeisesti näille ei riitä, että IRC:ssä siirrytään siihen heidän
> lempimerkistöönsä. Lisäksi se on "_oikea_" merkistö myös jokaisen
> omalla Linux-koneella. Kun ihan terminaaliin pitää säätää _oikea_
> merkistö. Oikea-sanan käyttö tässä yhteydessä on aika perusteetonta.

Hu0h! Oletko koskaan käyttänyt muita kuin graafisia IRC-klienttejä? Jos
ajetaan jotain tekstipohjaista IRC-klienttiä, kuten irssiä,
UTF-8-merkistöä käyttäen, se ihan oikeasti tarvitsee kunnolla
toimiakseen UTF-8-merkistöä käyttävän terminaalin (tai
terminaaliemulaattorin). Jos terminaalin merkistö onkin vaikkapa
ISO-8859-15, silloin aina kun IRC:issä näkyy jokin tuon merkistön
ulkopuolinen merkki, niin terminaali näyttää sen tilalla vain jotain
kyssämerkkiä tai muuta tyhjää merkkiä. Ja mitäs hienoa siinä tilanteessa
olisi? Ei sen puoleen, kyllä se UTF-8:an käyttöönotto myös muissa
ohjelmissa kuin IRC-klientissä on kannattavaa ja samantien käyttiksessä
yleensäkin.

Mikä vittu siinä oikein on, kun pitää keksimällä keksiä toinen toistaan
omituisempia tuulesta temmattuja syitä sille, ettei UTF-8:aa muka saisi
milloin missäkin paikassa käyttää? Ensin sitä ei muka saisi käyttää
irkissä. Ja sitten vielä pitäisi olla säätämättä IRC-klienttiä käyttävä
terminaali niin, että se näyttäisi UTF-8-merkit oikein. Hanki jo, vittu,
se elämä!

> tulevaisuudessa sitä voidaan sitten ehkä sanoa oikeaksi, kun ollaan
> siirtymässä johonkin SIWA-123-merkistöön taas kymmenen vuoden päästä.

Tuo tulevaisuuden kauhuskenaariosi on silkkaa sci-fiä. Todellisuudessa
tulevaisuudessa siirtyillään enää vain Unicoden versiosta uudempaan
versioon, jossa on entisen version merkit vanhoilla paikoillaan ja uudet
merkit niillä paikoilla, jotka vielä edellisessä versiossa olivat
vapaina. Ja merkkipaikkojen loppumisestakaan ei ole pelkoa: Niitä on yhä
käyttämättä vaikka kuinka ja niitten lukumäärää voidaan tarvittaessa
lisätä. Tällä hetkellä Unicodessa on merkkipaikkoja vähän yli miljoona
ja niistä on käytetty vasta yli 96000 paikkaa.

Antti Alhonen

unread,

Dec 17, 2005, 9:26:27 AM12/17/05

Juhapekka Tolvanen wrote:
>
> käsittää satunnaisdatan ja Unicode-standardin mukaisen tekstin välistä
> eroa? :-P

Minkä tahansa standardin käyttöön kuuluu aina se, että ilmoitetaan, mitä
standardia on käytetty. Jos esimerkiksi ilmoitan luvun 57, et voi
tietää, onko kyseessä metri-standardin vaiko esimerkiksi
sekunti-standardin mukainen lukuarvo.

> Satunnaisdatahan on jo määritelmänsä mukaan lukukelvotonta,

Pahoittelen, syyllistyin vastaavaan liioitteluun kun jatkuvasti sinäkin.
Satunnaisdatasta ei ole kyse, vaan lähinnä joiltain kohdin (ääkköset)
satunnaisdatalta näyttävästä tekstistä.

> mutta UTF-8-tekstin oikeintulkitseminen on täysin mahdollista, kunhan
> systeemit ovat kunnossa.

Aivan, eli protokollassa liikkuu tieto käytetystä merkistöstä TAI
merkistö on yleisesti vakiintunut. Jota UTF-8 ei irkissä ole.

> * 1991 Unicode 1.0
...
> * 2003 Unicode 4.0

> Eli ensi vuonna tulee jo 15 vuotta kuluneeksi siitä, kun eka Unicoden
> versio tuli pihalle.

Todellakin ensimmäinen versio. Käyttökelpoiseksi tulevaisuuden
standardiksi Unicode on voitu laskea versiosta 4.0 eteenpäin. Silloin
voitiin ruveta pohtimaan irkissä sen käyttöönottoa. Siitä on pari
vuotta.

Mistähän muuten johtuu, ettei sen käyttöönoton mahdollistaminen ole
kiinnostanut ketään? Ehkä siksi, että IRC:n kehittäjät kokevat
sen käyttöönoton tarpeettomaksi ja pitävät nykytilannetta riittävänä.
(Arvaus.)

> muukaan käytä". Eräitten on pakko panna itsensä likoon ja oltava
> edelläkävijöitä ja näytettävä muille mallia.

Mutta tehtävä tämä aiheuttamatta haittaa viestinnän toiminnalle. Jos
eivät siihen kykene, sitten unohdettava koko juttu ja valmisteltava
siirtyminen paremmin ja toteutettava se vaikka parin vuoden kuluttua,
kun puitteet siirtymiselle on saatu valmisteltua. Mihin on näin
hillitön kiire? (Kun kehitetään jotain 80-luvulta peräisin olevaa
Internet-standardia, silloin vuoden parinkin ajanjakso on hyvin lyhyt
aika.)

Tuollaista kieltämättä joskus tapahtuu, itsekin muistelisin joskus
nähneeni. Onnittelut, ensimmäinen oikea esimerkki niiden kaikkien
metaesimerkkien jälkeen.

Nythän on kuitenkin niin, että usein nuo copy-pastetkin ovat turhia.
Usein copy-pastettajana on joku, joka ei ole tajunnut, että kaikkia ei
kiinnosta lukea viittä riviä jotain turhaa. Toisaalta silloin tällöin
nämä copy-pastet ovat ihan aiheellisia, joten sikäli puhut asiaa.

Mutta ei minua ole koskaan häirinnyt se, jos kerran kuussa jossain
yksittäisessä copy-pastessa on hinnan perässä laatikko. Se ei sotke
tekstiä, ymmärrettävyyttä eikä luettavuutta yhtään, toisin kuin
UTF-8:aan siirtymisen aikana olevat sotkuääkköset.

> Tuo pelulamun sivusto ei edes paneudu Unicodeen millään lailla ja sen

Se ei ollut tarkoituskaan. Jos tajusit pointtini, kyse oli euromerkin
käytöstä, ei mistään merkistöstä. Tuolla sivulla väännetään
rautalangasta se(kin), ettei sitä tarvita, vaan voidaan kirjoittaa
"euro", ja että suurin tarve euron merkkiin on tosiaan niillä
seiskaluokkalaisilla koulun koneen näppäimistöltä merkin löytäneillä.

> No, käytetään sitä vinoviivanotaatiota vasta sitten, kun on tarvis saada
> sen verran harvinainen murtoluku, ettei sille ole olemassa

Ja sitten tekstissä on sekaisin valmiita murtolukumerkkejä ja tavallista
vinoviivamerkintää (joka on muuten ihan yhtä asiallinen ja oikea tapa.
Usein selvempi lukeakin, jos käytössä on pieni fontti!) Olen vahvasti
sitä mieltä, että 1/4-, 3/4- jne. merkkejä ei pitäisi käyttää ollenkaan.
Pienellä fontilla ne sotkeutuvat liian helposti puolikkaan merkkiin.
Lukija erottaa murtolukumerkin tekstistä ja pitää sitä puolikkaana.
Matemaattisessa käytössähän nämä esitetään ihan normaalikokoisella
fontilla käyttäen kahta riviä ja välissä jakoviivaa. Sen sijaan omassa
erikoismerkissään numerosymbolit ovat alle puolet fontin oikeasta
koosta.

Edellä olevan valossa puolikas on ainoa tarpeellinen noista mainituista
merkeistä. Sen sijaan senkin osoitin useimmissa tapauksissa olevan
tarpeeton, sillä sana "puoli" korvaa sen 92,3 prosentissa tapauksista.

> "Koitin nukkua 4 1/2 h unet."

Itse (nukkuessani tuollaisia unia päivällä :)) olen useinkin käyttänyt
juuri tuollaista ilmausta. Ei ole koskaan tullut mieleen kirjoittaa sitä
noin. Olen aina kirjoittanut joko oikeaoppisesti kirjaimin: "Tulipas
nukuttua neljän ja puolen tunnin unet" tai sitten matemaattisella
ilmauksella, jota itse käytit, "Tulipas nukuttua 4,5 h unet."

Esittämäsi ilmaus ei ole puhekieltä. En ole ainakaan kenenkään kuullut
puhuvan "neljän ja puolen _hoon_ unista". Niin ikään se ei ole
kirjakieltä. Matemaattinenkaan ilmaus se ei oikein ole, koska kyseessä
on selvä likiarvo, jolloin pitäisi käyttää desimaalimuotoa eikä
murtolukumuotoa. Näin ollen kyseessä on aika lailla keksimällä keksitty
esimerkki, jossa on sotkettu eri tyylejä siten, että varmasti saadaan
tarve puolikkaan merkille.

AA>>>> tosielämän oikeasti tapahtuneita esimerkkejä rajoittuneen merkistön

JT>>>4) ISO-8859-1 -käyttäjä taas ei näe, jos meikä kirjoittaa "shakki"

>>>Kolmea ensinmainittua ongelmaa olen itsekin irkissä nähnyt monet kerrat.

> Opettele lukemaan! Sanoin, että kolmea ensinmainittua ongelmaa olen

> oikeasti irkissä nähnyt. Mutta toi dzonkin ja suhuässän ongelma olikin

Ai. Kun peräsin oikeasti tapahtuneita esimerkkejä, ja kolmea ensimmäistä
kerroit nähneesi suorastaan monet kerrat, oletin, että neljättä olet
nähnyt vain jonkin verran. Mutta ilmeisesti keksit turhaa paskapuhetta
ihan lämpimiksesi. Kuten itsekin totesit, keksitty esimerkki siis.

> neljännessä kohdassa. Tosin kerran jollain IRC-kanavalla eräs totesi,
> että kannattaa käyttää irkissä ISO-8859-15-merkistöä, jotta dzonkit ja
> suhuässät tulevat oikein. Siinä kaikki.

Niin, kyllä vähän kaikissa leireissä syyllistytään metaesimerkkeihin.

> Ihan yhtälailla se väärien lainausmerkkien (ja väärien ajatus-, väli- ja
> tavuviivojen) käyttö on väärin painotuotteissakin.

Niinhän se on, ja häiritsevää myöskin.

> kopioita. Ja kunhan UTF-8 saadaan riittävänä yleiseksi irkissä, noita
> merkkejä uskaltaa käyttää sielläkin. Ainoa ongelma on sitten enää löytää
> suht helppo tapa syöttää ne merkit, kun näppäimistöltä ne eivät suoraan
> löydy.

Missasit vissiin sen pointin, mihin IRC:tä käytetään. Kun normaalisti
IRC-keskustelijat eivät vaivaudu esimerkiksi shift-näppäintä painamaan
isojen kirjainten saamiseksi, siinä voisi olla ensimmäinen valistuskohta
ennen "oikeita lainausmerkkejä". (Jotka muuten ovat väärin esimerkiksi
tuolla UTF8-IRC-wikisivulla.)

Voidaan palata tähän UTF-8-siirtymiseen sitten, kun olet saanut
näppäimistövalmistajat valmistamaan näppäimistöjä, joissa on napit
"oikeille lainausmerkeille". Saa suorittaa. Miksi et jo suorita :)?

>>Eikä kukaan halua irkkiin kirjoittaa oikeita lainausmerkkejä.
>
> Eikö kukaan? Johtuisikohan se haluamattomuus lähinnä siitä, kun ei edes
> tiedetä sellaisten olemassaolosta?

Siitä, ja myös siitä, ettei niitä saa näppäimistöstä helposti, vaan
shift+2 tuottaa vain hyvät lainausmerkit.

Valittaminen "vääristä lainausmerkeistä" jossain muussa yhteydessä kuin
korkealaatuisissa painotuotteissa osoittaa suurta
suhteellisuudentajuttomuutta. Itse muuten kerran kokeilin niitä käyttää
jollain webbifoorumilla. Unicode-tuet oli kunnossa. Silti niiden
toimivuudessa oli jotain häikkää. Että ei kaikki toimi aina ihan niin
kuin on suunniteltu. En tutkinut ongelmaa enempää vaan käytin niitä
normaaleja "-lainausmerkkejä.

> Toisaalta jos ne olisivat oikeasti
> tarjolla, niin varmaan niitä myös halukkaammin käytettäisiin.

Niin, nythän niitä käytetään esim. webbipohjaisissa foorumeissa,
joissa Unicode toimii... Tai sit ei.

> Tarkkaanottaen tuon Windows-merkistön mainitsemistani ongelmista olen
> irkissä nähnyt ihan oikeasti ainakin kahta ensinmainittua, mutta
> kolmannesta en ole varma.

Eli esität keksittyjä esimerkkejä todellisina ja jutustelet vain
lämpimiksesi. Ei tämä ole kovin kaukana valehtelusta.

> Ei, minä en valehtele, enkä keksi "omia kokemuksia". Piste.

Niin, muistat vaan "vahingossa" väärin :). Sellaista sattuu
paremmissakin piireissä.

> No, missä 8-bittisessä ei-Unicode-merkistössä on mukana sekä ääkköset,
> että iso kasa japaninkielen merkkejä?

Eli et tajunnut asiaa lainkaan, vaikka sen rautalangasta väänsin.
Otetaas vielä paksumpi lanka käyttöön.

Japanin ja suomen kirjoittaminen sekaisin ei vaadi yhtä merkistöä, jossa
on molemmat merkit. Shift-JIS-japania ja ISO-8859-1(5)-suomea voi
kirjoittaa sekaisin tarpeen vaatiessa. Kokemuksieni mukaan myös ä ja ö
toimivat siellä välissä yhtä hyvin kuin ASCII. En toki voi taata
toimivuutta, sillä kyse on todellakin omasta kokemuksesta.

> sitten saavutetaan, jos jokaisen japaninharrastajan pitää arpoa joku
> kuppainen ei-Unicode-merkistö, jolla pystyy kirjoittamaan sekä japania
> että omaa äidinkieltään?

Ei tarvitse, kuten yllä kerroin.

> Ei, nämä esimerkkini eivät ole pelkästään mielikuvituksen tuotetta. Piste.

Niin, et vain muista, mistä ne ovat tulleet.

> Niin, ja "tavallinen käyttäjä ei edes tiedä, mikä on rootkit!". Olisko

Muuten ihan näpsäkkä heitto, muttei valitettavasti liity
keskustelunaiheeseen mitenkään.

> se paha juttu, jos irkkaajat ja tietokoneen käyttäjät oppisivat edes
> vähän paremmin näitä merkistöasioita?

Miten tämä aihe liittyy merkistöasioiden _oppimiseen_?

> Tuossa oli siis pikemminkin tarkoitus esittää jonkinlainen
> tulevaisuuteen sijoittuva skenaario eikä niinkään kertoa
> nykytilanteesta.

Kannattaa sanoa, mitä tarkoittaa. Kuten sanoin, Unicode-uskovaisilla on
tapana puhua tavoittelemastaan tulevaisuudesta nykyhetkenä.

> Tilapäisyydelä tarkoitin lähinnä sitä, jos joku pääasiallisen
> irkkikoneensa UTF-8:aan siirtänyt joutuu tilapäisesti käyttämään jotain
> muita järjestelmiä, joissa UTF-8 näkyy väärin.

Kannattaa sanoa, mitä tarkoittaa.

> Eiköhän se ole jo käynyt selväksi, miten onnetoman suppeita nuo

"Huonous" tai suppeus on eri asia kuin antiikkisuus.

>>Jännä tyyli Unicode-adventisteilla esittää asia siten, että heidän
>>vallankumouksensa olisi jo mennyt läpi, UTF-8 olisi vallitseva
>>käytäntö ja että muut ovat jotain viime hetkeen vastaan inttäviä.
>>Vaikka todellisuudessa asia on juuri päinvastoin.
>
> Älä viitsi kyhätä olkinukkea. Mutta ennenpitkää tilanne kyllä kääntynee

Mitä olkinukkea siinä on? Aika naurettavaa vedellä jostain
argumenttivirhelistalta termejä tietämättä, mitä ne tarkoittavat.

On aivan totta, että asia esitetään siten, kuin UTF-8 olisi vallitseva
käytäntö. Jotkut jopa puhuvat suoraan "vallitsevasta käytännöstä",
mikä on aivan suora valhe. (Tavoitteena vallitseva käytäntö on eri asia
kuin voimassaoleva vallitseva käytäntö.)

> siihen, että noissa antiikkisissa 8-bittisissä merkistöissä
> jääräpäisesti pysyvät ovat vain viimeiseen saakka vastaan inttäviä
> vähemmistöläisiä.

Aika näyttää. Jos siirtyminen toteutetaan järkevästi, harvallapa on
syytä inttää vastaan jääräpäisesti.

> Missasitkohan pointtini? Tarkoitin, että muihin Unicode-merkistöihin
> verrattuna UTF-8 vie vähemmän tilaa ja kuluttaa vähemmän kaistaa. Mitä
> etua muista Unicode-merkistöistä kuin UTF-8:sta sitten olisi irkissä?

Missasit pointtini. Sillä, viekö yksi merkki tavun vai kaksi, ei ole
irkissä merkitystä kaistankäytön kannalta. Pointti oli, että tämän
seikan arviointi on täysin turhaa kumpaankaan tai mihinkään suuntaan.
Muut tekijät ratkaisevat valinnan.

> Miten esim. sinä olisit kehittänyt UTF-8:n niin, että se olisi
> mahdollisimman yhteenopiva ISO-8859-15:n kanssa ja siinä sivussa vielä
> yhteensopiva monen muunkin merkistön kanssa, josta siihen UTF-8:aan
> ollaan siirtymässä?

En mitenkään. UTF-8 on sinänsä oikein hyvin toteutettu, eikä sitä ole
tarvetta eikä edes mahdollisuutta muuttaa. Sen sijaan siihen siirtyminen
irkissä ei onnistu suoraan siksi, että se on sellainen kuin on. Hyväkään
järjestelmä ei ole automaattisesti täydellinen ratkaisu kaikkiin
ongelmiin. Juuri tässä tuleekin kysymys siitä, onko aihetta nostaa jokin
hyväkin asia uskonnonomaiseksi ilmiöksi.

> Meillä suomalaisilla tosiaan on tuuria, kun lähinnä
> vain ääkköset ovat menossa joksikin aikaa "rikki" UTF-8:aan siirtymisen
> aikana ja itsekullakin vaihtelevassa määrin.

Niin. Muilla kansallisuuksilla sitten tilanne on helposti vielä paljon
pahempi. Ja UTF-8:aan painostetaan siirtymään.

> lyhytaikaiseksi. Mutta kuten olen jo painottanut, se siirtymävaihe ja
> sen aiheuttamat tuskat vain pitkittyvät jääräpäisellä
> vastaanhankaamisella.

Mielenkiintoinen idea - ensin sotketaan omat ääkköset siirtymällä
johonkin omaan järjestelmään, joka ei ole vallitseva käytäntö - ja
samalla aletaan syyttää koko muuta maailmaa syntyneistä ongelmista.
Aika hemmetin itsekeskeinen maailmankatsomus. Kyllähän sitä oikeissakin
sodissa käytetään samankaltaista argumentaatiota: "Kun liitetään tämä
teidän valtio meihin, niin sitten me lopetamme hyökkäyksen. Kannattaa
antautua, te vain pitkitätte omaa tuskaanne noin!" (Huono vertaus, koska
on ihan eri suuruusluokan asia, mutta toivon, että silti pystyt sen
tajuamaan, koska vastaavasta asiasta pienemmässä luokassa on kyse.)

>
> Mutta sitten kun tilannetta tarkastellaan useampien kielien
> näkökulmasta, huomataankin että käytössä onkin iso kasa keskenään
> yhteensopimattomia merkistöjä, jotka kaikki kannattaisi korvata yhdellä
> ainoalla merkistöllä eli Unicodella. Myöskään monen eri kielen
> kirjoittelu monella eri merkistöllä ei kertakaikkiaan ole käytännölistä.

Turha sinun tätä on todistella minulle. Sehän on selvä, että Unicoden
käyttöön kannattaa siirtyä - jos se on kohtuullisuuden periaatetta
noudattaen mahdollista. Jos ei ole mahdollista, sitten siitä tehdään
mahdollista eikä vaan väkisin runnota läpi.

> Käsitätkö? Jatkuvastihan tulee tilanteita, joissa liutaan yhden kielen
> kirjoittamisesta kahden tai useamman kielen kirjoittamiseen ja sitä
> sattuu myös irkissä.

Jatkuvasti ja jatkuvasti... Huomaa: "kahden tai useamman kielen",
joissa on käytössä _eriävät_ merkistöt, jotka _eivät_ ole keskenään
yhteensopivat. Jos haluan vaikka kirjoittaa ruotsia ja englantia
sekaisin, ei se ole mikään merkistöongelma. Siksi tuo
"kaksikielisyysargumenttisi" on aika epämääräinen. Ja esimerkiksi
japanin kanssa tosiaan ne meidän merkit toimivat myös sekaisin ilman
Unicodeakin, vaikka japanilaiset piirtelevätkin sellaisia hökkeleitä ja
me kirjaimia.

> sopiva muittenkin kuin vain sen yhden kielen kirjoittamiseen. Sitäpaitsi
> usein jo yhtä kieltä kirjoittaessa tulee usein tarve kirjoittaa
> vieraskielisiä erisnimiä, joissa tarvitaan merkkejä, joita ei
> kertakaikkiaan löydy jostain suppeasta 8-bittisestä merkistöstä, jolla
> sitä yhtä kieltä on tapana kirjoitella. Ja sitäkin tapahtuu myös
> irkissä.

Vieraalla merkistöllä kirjoitetut nimet on tapana translitteroida oman
kielen merkistölle. Näin toimitaan aina ja se on ainoa tapa päätyä
luettavaan tekstiin. Esimerkiksi kiinalaiset nimet voivat alkuperäisessä
kirjoitusasussaan olla hivenen mitäänsanomattomia suomalaiselle
ihmiselle.

> Mutta jos se yksi merkistö on joku antiikkinen 8-bittinen merkistö, se
> ei riitä juuri yhtään mihinkään.

Väite kasvaa vain entisestään :). Ensin oli jotain ongelmia, sitten
se oli toimimaton, nyt se ei riitä juuri yhtään mihinkään. Mihinkäs se
ei sitten riitä, tähän mennessä tullut yksi esimerkki, tietyllä tavalla
toteutetun hintataulukon copy-pastettamiseen jostain sivulta. Jos
tästä seuraa, ettei se riitä juuri mihinkään, pyörit aika
mielenkiintoisilla IRC-kanavilla, jos kerran keskustelun pääasiallinen
sisältö on copy-pastettaa euromerkin sisältäviä hintataulukkoja webistä.
Ilmankos sinulla onkin vähän vinksahtanut kuva IRC-keskusteluista :).

> Ja taas missasit pointin. Suure nimeltä "toimivuus" ei ole joko/tai

Sinulle se tuntuu olevan, kun niin näppärästi kerrot "toimimattomasta"
järjestelmästä, joka nyt muka vallitsee.

> Tarvitsetko lisää rautalankaa?

Voisin pari rullaa ottaa, tulee käyttöön tässä keskustelussa.

> Irkissä se astevaihtelu ilmenee lähinnä UTF-8-kykyisten
> käyttäjien osuutena kaikista IRC-käyttäjistä.

Joka on n. 0,01 %.

> Mitä isommaksi tuo osuus
> kasvaa, sen paremmin UTF-8 toimii irkissä.

Eli toimivuus on nyt 0,01 %. Mielestäni tuon voi pyöristää nollaksi ja
todeta, ettei se toimi nyt. Katotaan viiden vuoden päästä uudestaan.

> Jos se serveripuolen kehitystyö on sinulle niin tärkeää, niin mikset
> sitten jo ala ajamaan asiaa aktiivisemmin? Toistan: Saa suorittaa.

Koska en ole IRCnetin tai muunkaan ison verkon ylläpitäjä. Ylläpidän
vain hyvin pientä kokeellista verkkoa. Siellä taas ei ole ollut
pienintäkään tarvetta implementoida tuollaista muunnostoimintoa, ja
tällä hetkellä minulla on muita, tärkeämpiä ohjelmointiprojekteja
lähinnä digitaaliseen videonkäsittelyyn liittyen.

MINULLE tuo muunnostyö ei ole tärkeä. Itsehän pärjään tällä merkistöllä
niin hyvin, etten sinänsä kaipaa Unicodea irkkiin. Sen sijaan TEILLE
tuo muutostyö on tärkeä, jotta saatte UTF-8:n käyttöönne ilman, että
teidän täytyy pakottaa koko muuta maailmaa seuraamaan mielihaluanne.

> niin looginen seuraus siitä on se, ettei pidä käyttää mitä sattuu
> sekasotkumerkistöjä

Itse puhut kovin mielelläsi olkinukeista. Tuossapa teit oikein mainion
sellaisen. Irkissä ei käytetä mitä tahansa sekasotkumerkistöjä, vaan
hyvin vakiintuneita, täysin toimivia merkistöjä. Niiden alentaminen
"sekasotkumerkistöiksi" on naurettavaa.

> jonkinmerkistöisenä bittivirtana. Eli klientit on saatava tässä asiassa
> kuntoon.

Klienttiä ei voi saada "kuntoon" niin kauan kuin verkosta puuttuu
merkistötieto.

> Niin kauan, kun sekä IRC-servereille että -klienteille se
> teksti on pohjimmiltaan vain bittivirtaa, jonka merkistöä ei erikseen
> ilmoiteta, vastuu on klienttien käyttäjillä, joiden täytyy voida luottaa
> siihen, että nämä asiantilat ovat voimassa:
>
> 1) Oma klientti lähettää UTF-8.

Ei vaan oma klientti lähettää samaa merkistöä mitä vastaanottaja
vastaanottaa. Eli suomalaisilla kanavilla jokin ISO-8859-johdannainen.

(Sivuhuomautus: sanoja saa muuten taivuttaa.)

> 2) Oma klientti osaa näyttää UTF-8:an oikein.

Ei vaan oma klientti osaa näyttää käytössä olevaa merkistöä, eli
Suomessa jotakin ISO-8859-1-johdannaista, oikein. Ei siitä ole hyötyä,
jos se osaa jonkin merkistön, joka ei ole käytössä (UTF-8).

> Toinen tapa korjata ongelma olisi myös se, että saataisin jollain
> ilveellä IRC-protokollaan sellainen lisäys, että mukana liikkuisi tieto
> käytetystä merkistöstä. Ja vielä jos homma hoidetaan taaksepäin
> yhteensopivasti, niin kiva olisi.

Se on mahdollista ja se pitäisi tehdä. Olisi pitänyt tehdä jo kauan
sitten. IRC-protokolla on monilta muiltakin osin aika ongelmallinen,
ja sitä on korjattu vain päälle rakennetuilla purkkavirityksillä.
Saat muuten sinäkin suorittaa tämän UTF-8:n ystäville kaikkein
tärkeimmän muutoksen, ei sitä tarvitse minulle yrittää nakittaa, emmää
sitä tartte :). Saat käyttää esittämääni suunnitelmaani ilmaiseksi!

> Eli tiivistäen: Vaikka IRC-protokollassa ei kuljekaan tietoa käytetystä
> merkistöstä, se seikka ei missään tapauksessa tee Unicoden käytöstä
> teknisesti täysin mahdotonta,

Niin, ei teekään, jos oletetaan, että ko. protokolla on olemassa
yksinään eikä sillä ole käyttäjiä. Nyt tilanne on kuitenkin se, että
IRC on olemassa ja voi hyvin ja sillä on vakiintuneet toimivat
käytännöt, joita ei voi niin vain sorkkia.

> TA-JU-A!: Ne ongelmat ovat vain ja ainostaan välivaihe, jota ei missään
> tapauksessa pidä pitkittää!

TA-JU-A!: Tai sitten ei luoda ongelmia ollenkaan.

>>Suomessa sentään vain esim. ä ja ö menevät rikki. Mieti maata, jossa
>>on kokonaan latinalaisia aakkosia käyttämätön merkistö. Siellä koko
>>teksti menee rikki, jos käytetään UTF-8:aa.

> Paskaa. Jos merkistöissä todella toimittaisiin vain ja ainoastaan

Mitäs paskaa tuossa oli? Itsekin sen aiemmin myönsit todeksi. Koettaisit
nyt päättää :).

> Amerikkalainen asenne merkistöasioissa olisi tällainen: "Kyllä ne sillä
> US-ASCII:lla pärjäävät ja jos eivät pärjää, opetelkoot enkkua ja
> jättäkööt erinismistään aksentit, umlautit ja muut turhat härpäkkeet
> pois!"

Niin, myöskään amerikkalaisten itsekkyys ei ole vain on/ei-suure, vaan
on myös välimuotoja. Mutta oletko ajatellut, että Unicoden kaltaisen
järjestelmän kehityksen ei välttämättä olisi tarvinnut edes lähteä
Amerikasta. Mutta he haluavat olla maailman merkistöongelmien
pelastajia. Vaikka sitten väkisin. Vai... Olisiko sittenkin niin, että
tämä Unicode-_uskonto_ on aika suomalainen ilmiö? Siinä pohdittavaa.

> Ei pidä paikkaansa. Ihan jokainen tässä jupakassa joutuu jotain
> säätämään jokatapauksessa, joko kanavakohtaisia asetuksia tai sitten

No nimenomaan sitä olen koko ajan kertonut. Onneksi sentään lopuksi
tajusit, onnittelut! - Siksi koko jupakkaa ei pidä luoda.

> "Unicode-uskovaiset" niihin kanavakohtaisiin asetuksiin suostuvat
> tilapäisesti.

No nimenomaan siihenhän ei ole suostuttu, ja siitä tämä keskustelu on
lähtenyt käyntiin. (Ks. ensimmäinen linkki.)

--
Antti Alhonen.

Suomen Huippu

unread,

Dec 17, 2005, 9:41:44 AM12/17/05

Antti Alhonen ilmaisi itseään viestissä
news:dnsdjs$2atm$1...@news.cc.tut.fi näillä sanoin:

> >
> > Tämän perusteella tajuaa aika pian, että se jokin merkistö
> > kannattaa olla UTF-8, koska:
> >
> > 1) US-ASCII:hin kuuluvat merkit, kuten A-Z, a-z ja 0-9 ovat siinä
> > samoissa merkkipaikoissa.
>
> Mutta ä ja ö eivät, niistä tulee hillitöntä sotkua. Vähän paha jutella
> kenenkään UTF-8:aa käyttävän kanssa.

Minulla onkin mIRC-ohjelmassani skripti, joka muuntaa tärkeimmät UTF-8
merkit selkokielelle automaattisesti.

--
Vuosikymmenien saatossa on Joulupadasta tullut perinteinen näky myös meidän
jouluisessa katukuvassa.
http://JOULUPATA.fi/cgi-bin/joulupata/lahjoitus.cgi?potti=finet.binaries.keskustelu

Suomen Huippu

unread,

Dec 17, 2005, 9:44:40 AM12/17/05

Antti Alhonen ilmaisi itseään viestissä

news:bKUof.2536$bR5...@reader1.news.jippii.net näillä sanoin:

Ei kyllä ä- ja ö-kirjaimiakaan välttämättä TARVITSE käyttää. Kyllähän aika
hyvin saa tekstistä selvää, vaikka ne puuttuisikin. Ihan humpuukia
tuollaiset erikoismerkit.

--
Joulupadan nettikeräys on toteutettu kokonan talkootyönä ja kaikki
lahjoitukset menevät lyhentämättöminä Pelastusarmeijan jouluaputyöhön.
http://JOULUPATA.fi/cgi-bin/joulupata/lahjoitus.cgi?potti=finet.binaries.keskustelu

Antti Alhonen

unread,

Dec 17, 2005, 10:21:17 AM12/17/05

Suomen Huippu wrote:
> Ei kyllä ä- ja ö-kirjaimiakaan välttämättä TARVITSE käyttää. Kyllähän aika
> hyvin saa tekstistä selvää, vaikka ne puuttuisikin. Ihan humpuukia
> tuollaiset erikoismerkit.

Mitään ideaa osallistua keskusteluun trollaamalla, jos ei tajua yhtään,
mistä on puhuttu?

Tiedoksi, että tällä hetkellä ä ja ö toimivat irkissä täysin
moitteettomasti. Mutta ethän voi tietää, jos et ole irkissä käynyt. Nyt
tiedät senkin.

Oliko muuten niitä esimerkkejä? Ei taida, kun täytyy trollata jostain
ääkkösistä :).

--
Antti Alhonen.

Antti Alhonen

unread,

Dec 17, 2005, 10:24:50 AM12/17/05

Suomen Huippu wrote:
> Minulla onkin mIRC-ohjelmassani skripti, joka muuntaa tärkeimmät UTF-8
> merkit selkokielelle automaattisesti.
>

Kolme minuuttia myöhemmin kirjoitit viestin, jossa luulit, ettei irkissä
ääkköset toimi eli osoitit, ettet irkkaa. Miksi ihmeessä olet asentanut
mIRC:n ja siihen tuollaisen skriptin, jos et kuitenkaan irkkaa? Jotta
voit näyttää kavereille, että työpöydällä on äm-irkin kuvake?

OK, ei viitsi leikkiä tämän trollin kanssa, jatkettakoon tosissaan
olevan Tolvasen kanssa vääntöä ;). Plonk. Jatkoja ei asetettu, koska
kukaan järkevä ei vastaa tähän.

--
Antti Alhonen.

Antti Alhonen

unread,

Dec 17, 2005, 11:08:04 AM12/17/05

Jes! Nyt päästään jo siihen vaiheeseen, että kaveri keksii minun
sanoneen vaikka mitä ja sitten vielä ottaa nokkiinsa näistä oman
mielikuvituksensa tuotteista. No, antaa palaa! (Kannattaa varoa,
ettei mene trollaukseksi kuitenkaan. Toistaiseksi vielä näyttää
siltä, että olet tosissasi, vaikka juttu onkin aika hervotonta.)

Juhapekka Tolvanen wrote:
>
> Hu0h! Oletko koskaan käyttänyt muita kuin graafisia IRC-klienttejä? Jos

Kokemukset rajoittuvat irssiin sekä ircii:hin. Graafiselta
puolelta vain mIRCistä kokemusta.

> ajetaan jotain tekstipohjaista IRC-klienttiä, kuten irssiä,
> UTF-8-merkistöä käyttäen, se ihan oikeasti tarvitsee kunnolla
> toimiakseen UTF-8-merkistöä käyttävän terminaalin (tai
> terminaaliemulaattorin).

Ja miksi se tekee UTF-8-merkistöstä OIKEAN valinnan ja muista
valinnoista väärän? Kai se on sama, mitä merkistöä käyttäjä itse
käyttää omalla koneellaan, kunhan työntää irkkiin yleistä standardia.
(Eli nykyään ISO-8859-1-johdannaista tai tulevaisuusvisiossasi
UTF-8:aa. Voidaan tässä kohdassa tehdä myönnytys, että se olisi
UTF-8, sillä sekään ei muuta tilannetta, että käyttäjä saa itse
valita terminaalinsa merkistön.)

> Jos terminaalin merkistö onkin vaikkapa
> ISO-8859-15, silloin aina kun IRC:issä näkyy jokin tuon merkistön
> ulkopuolinen merkki, niin terminaali näyttää sen tilalla vain jotain
> kyssämerkkiä tai muuta tyhjää merkkiä.

Voihan IRC-ohjelmakin toimia ISO-8859-1-tilassa. Jopa
UTF-8-skenaariossa, jolloin se tekee merkistömuunnoksen. Toki
tietysti paras yhteensopivuus kaikkien merkkien osalta saadaan
käyttämällä UTF-8-merkistöä, mutta ei se tee siitä Ainoaa Oikeaa
merkistöä.

> olisi? Ei sen puoleen, kyllä se UTF-8:an käyttöönotto myös muissa
> ohjelmissa kuin IRC-klientissä on kannattavaa ja samantien käyttiksessä
> yleensäkin.

Kannattavaa ehkä, vaan ei ainoa oikea vaihtoehto. Siksi olisi parempi
esittää asiat tuolla sivulla ehdotuksina eikä ehdottomina totuuksina
(joita vahvistetaan perusteettomin uhkauksin.)

> irkissä. Ja sitten vielä pitäisi olla säätämättä IRC-klienttiä käyttävä
> terminaali niin, että se näyttäisi UTF-8-merkit oikein.

Kuka kieltää? Tässä kohdassa jo keksit omiasi minun sanomisikseni,
koska et voi alitajuisesti sietää sitä tosiasiaa, että puhun asiaa
monelta kannalta enkä ole vain silmitön Unicode-vastustaja, jona minua
haluat pitää, ettei korttitalosi romahtaisi ;).

Sanoin vain, etteivät nämä tyypit voi määritellä UTF-8-merkistöä
ainoaksi oikeaksi, kuten tekevät. En minä sitä silti vääräksi
määritellyt, kuten nyt luulet. Jokainen saa käyttää terminaalissaan ihan
sitä merkistöä kuin haluaa. UTF-8 on toki usein hyvä ratkaisu, jos
järjestelmän kaikki lenkit sitä tukevat.

> Hanki jo, vittu, se elämä!

Tajuatko itse, miten pelleä teet itsestäsi, kun et tajua enää tässä
raivosi vallassa edes yksinkertaista suomea vaan keksit itse sanomisiani
ja luulet vahvistavasi omaa sanomaasi vittusaatanakielellä?

Voisin sanoa, että sinun kannattaisi "hankkia se elämä", jos todellakin
merkistökiista aiheuttaa niin suuria tunneryöppyjä, ettei pysty
hallitsemaan edes omaa harkintakykyään vaan kirjoittaa mitä sylki suuhun
tuo.

Voisi kyllä tässä lähitulevaisuudessa todella toteuttaa ehdotuksesi
ja lopetella tätä pelleilyä, tähän kuluu yllättävän paljon aikaa.

>>tulevaisuudessa sitä voidaan sitten ehkä sanoa oikeaksi, kun ollaan
>>siirtymässä johonkin SIWA-123-merkistöön taas kymmenen vuoden päästä.
>
> Tuo tulevaisuuden kauhuskenaariosi on silkkaa sci-fiä. Todellisuudessa

Niin oli. Se kauhuskenaario oli siinä epäoleellisempi pointti, kieli
poskella heitetty turha huomautus, ns. vitsi. Itse pointti oli se, että
SITTEN UTF-8:aa voidaan sanoa _oikeaksi_, jos se on yleistynyt. Niin
kauan se on vaihtoehtomerkistö.

> tulevaisuudessa siirtyillään enää vain Unicoden versiosta uudempaan
> versioon, jossa on entisen version merkit vanhoilla paikoillaan ja uudet
> merkit niillä paikoilla, jotka vielä edellisessä versiossa olivat

Näin ainakin teoriassa, ja vaikka et tietenkään usko (koska haluat
pitää minua Unicode-vihaajana, jota en todellakaan ole, päin vastoin),
niin itsekin toivon tätä.

> vapaina. Ja merkkipaikkojen loppumisestakaan ei ole pelkoa: Niitä on yhä
> käyttämättä vaikka kuinka ja niitten lukumäärää voidaan tarvittaessa
> lisätä. Tällä hetkellä Unicodessa on merkkipaikkoja vähän yli miljoona
> ja niistä on käytetty vasta yli 96000 paikkaa.

Unohdat kuitenkin yhden jutun. Unicodea voidaan koodata monilla eri
tavoilla, ja vaikka Unicodesta ei täytyisikään siirtyä pois, voi olla,
että jokin koodauksista vanhenee syystä tai toisesta. Teet virheellisen
UTF-8 == Unicode -tulkinnan.

... En silti henkilökohtaisesti usko, että UTF-8 tulee kuolemaan
ainakaan 10 vuoteen. Aika näyttää.

---- TIIVISTELMÄ ----

Tässä vielä pointtini, koska et ole sitä tajunnut vaan tarjoillut aina
vain mehukkaampia naurettavuuksia kommentoitavaksi ja kumottavaksi :).

- Irkissä pärjätään tällä hetkellä todella hyvin ilman Unicodea.
-> Mitään kiirettä siirtymiselle ei ole.

- Pieni vähemmistöryhmä haluaa irkkiin tuen Unicodelle. (Yllättäen
nämä tyypit alkoivat tarvita sitä ensimmäistä kertaa pari vuotta sitten,
ts. joko ovat aloittelijoita tai sitten ovat myös pärjänneet ilman
jo pitkään, miksei siis vielä vähän aikaa.)
-> Se siis kannattaa tehdä, ei siinä mitään.

- Unicoden siirtäminen irkkiin on tällä hetkellä lapsenkengissään.
Suunnitelmia siirtymisestä ei vielä ilmeisesti ole, paitsi pienen
ryhmän ajatus väkisin siirtymisestä. (Joka on vain yksi tapa hoitaa
asia, erittäin huono sellainen.)
- Olen sitä mieltä, että Unicodeen (UTF-8) voidaan siirtyä irkissä heti,
kun se on mahdollista teknisesti ilman merkistösotaa ja -sekasotkua.
-> Täytyy kehittää tapa siirtyä.

- Samaan aikaan, kun tätä tapaa kehitetään, myös kaikki terminaalit,
käyttöjärjestelmät ja muut osat kehittyvät. Uusista ohjelmista koodataan
yhä useammin Unicode-yhteensopivia.
-> Kun yleinen yhteensopivuus on kunnossa JA kun irkissä kulkee tieto
merkistöstä, voidaan siirto toteuttaa.

Huomautan myös, että nykysuuntaus on lisätä kaiken siirrettävän tekstin
oheen tieto käytetystä merkistöstä. Silloin ei kaikkien välttämättä
tarvitse siirtyä Unicodeen, koska kaikki muutkin tarpeeksi yleisesti
tuetut merkistöt toimivat yhteen. Unicoden olemassaolo sitten
mahdollistaa lisäksi vielä sen, että samassa tekstinpätkässä on
useita eri kielten merkkejä. IRC on vain jälkijunassa.

-------------

Jos Unicode-tuen irkkiin haluavat olisivat kiinnostuneita
IRC-järjestelmän kehittämisestä eivätkä vain jääräpäisesti haluaisi
tapella kaikkien siirtämiseksi UTF-8:n käyttöön väkisin, jotain
oikeaa voisi tapahtuakin ilman yhtäkään sotaa. Saa suorittaa.

Jännää oli muuten se, että esitin pitkän liudan todisteita
tuon sivun propagandaluonteesta. Valitsit niistä vain yhden, vieläpä
sen, joka oli eniten tulkinnanvarainen.

--
Antti Alhonen.

Jari Eskelinen

unread,

Dec 17, 2005, 12:08:01 PM12/17/05

Juhapekka Tolvanen kirjoitteli:

> Mikä vittu siinä oikein on, kun pitää keksimällä keksiä toinen toistaan
> omituisempia tuulesta temmattuja syitä sille, ettei UTF-8:aa muka saisi
> milloin missäkin paikassa käyttää? Ensin sitä ei muka saisi käyttää

Katsoppa peiliin ja kysy sieltä näkyvältä heppulilta, että miksi
vitussa UTF-8:aa on pakko tunkea sinnekkin, minne se ei edes
teknisesti sovellu sen lisäksi että se pitää tunkea sinne, missä sitä
ei tarvita?

Eli:

1) Kaikki on toiminut pitkään hyvin.
2) Joku keksii että just nyt on pakko työntää joku uusi teknologia
pakosti kohtaan 1.
3) Ne, joilla kaikki on toiminut pitkään hyvin, valittavat.
4) Keksitään keinotekoisia argumenttejä miksi teknolofia 2 on pakko
ottaa käyttöön ja miten kohdan 3 henkilöt ovat idiootteja
kehityksen jarruja.

> terminaali niin, että se näyttäisi UTF-8-merkit oikein. Hanki jo, vittu,
> se elämä!

Jatka samaan malliin niin kyllä vakuuttavuutesi vain kasvaa :) Hyvä
idea on myös kehoittaa hankkimaan elämä sellaisen asian kiistassa,
joka on elämästä kaukana.

Hei, kasva aikuiseksi. Toisten hyvin toimineita hiekkalaatikoita ei
tartte tulla sotkemaan vaikka onkin keksinyt tosi hienon uuden jutun.
Jos haluaa käyttää UTF8:ia irkissä, niin ongelmaahan ei ole kun ei
mene sotkemaan muiden ympyröitä vaan perustaa omat utf8-kanavat, eikös
juu? Sitten voi nauresekella porukalla niille muille takapajuisille
idiooteille, jotka eivät voi kirjoittaa yhtäaikaa euron ja puolikkaan
symbolia.

--
Jari Eskelinen - jari.eske...@iki.fi
http://www.iki.fi/jari.eskelinen/

Suomen Huippu

unread,

Dec 17, 2005, 12:48:14 PM12/17/05

Antti Alhonen ilmaisi itseään viestissä

news:W3Wof.2566$iv6...@reader1.news.jippii.net näillä sanoin:

> Suomen Huippu wrote:
> > Ei kyllä ä- ja ö-kirjaimiakaan välttämättä TARVITSE käyttää. Kyllähän
> > aika hyvin saa tekstistä selvää, vaikka ne puuttuisikin. Ihan humpuukia
> > tuollaiset erikoismerkit.
>
> Mitään ideaa osallistua keskusteluun trollaamalla, jos ei tajua yhtään,
> mistä on puhuttu?

Kommentoin tarvitsemisen käsitettä.

--
"Antakaa padan porista!", kehoitti pelastuskapteeni Joseph McFee yli sata
vuotta sitten.
http://JOULUPATA.fi/cgi-bin/joulupata/lahjoitus.cgi?potti=finet.binaries.keskustelu

Suomen Huippu

unread,

Dec 17, 2005, 12:53:42 PM12/17/05

Antti Alhonen ilmaisi itseään viestissä

news:f7Wof.2568$_q6....@reader1.news.jippii.net näillä sanoin:

> Suomen Huippu wrote:
> > Minulla onkin mIRC-ohjelmassani skripti, joka muuntaa tärkeimmät UTF-8
> > merkit selkokielelle automaattisesti.
>
> Kolme minuuttia myöhemmin kirjoitit viestin, jossa luulit, ettei irkissä
> ääkköset toimi eli osoitit, ettet irkkaa.

En ole kirjoittanut sellaista viestiä, nyt kyllä vedät liiallisia
johtopäätöksiä.

Ajattelin vain mainita, ettei mIRC-ohjelmalla ainakaan ole paha keskustella
UTF-8-ääkkösiä käyttävien kanssa, kun siihen saa aivan helposti asennettua
skriptin.

> OK, ei viitsi leikkiä tämän trollin kanssa,

Aika hyökkäävällä asenteella täällä näköjään solvataan ja plonkataan, se on
vissiin tuo UTF-8 kun saa päät sekaisin.

--
Ympäri Suomea pystytetyt perinteiset padat ja internet-keräys tuovat yhdessä
joulun kymmenille tuhansille suomalaisille joka vuosi.
http://JOULUPATA.fi/cgi-bin/joulupata/lahjoitus.cgi?potti=finet.binaries.keskustelu

Antti Alhonen

unread,

Dec 17, 2005, 3:18:12 PM12/17/05

Jari Eskelinen wrote:
> Hei, kasva aikuiseksi. Toisten hyvin toimineita hiekkalaatikoita ei
> tartte tulla sotkemaan vaikka onkin keksinyt tosi hienon uuden jutun.

Tuossa onkin muuten hyvä pointti, jota en ole tullut suoranaisesti
ajatelleeksi. Usein "Unicode irkkiin" -tapauksissa kyse on henkilöistä,
jotka ovat harrastaneet jonkin sortin tietokonenäpräystä aiemminkin
(kuitenkin aika lyhyen ajan, lukien lähinnä tiiviisti erilaisia
dokumentteja tulevaisuuden kehityssuunnasta, keskittymättä niinkään
todelliseen tilanteeseen tai historiaan), mutta sitten löytävät irkin.
Ja toki innoissaan haluavat heti lähteä kehittämään sitä. Eivät toki
kaikki Unicode-uskovaiset ole tällaisia tapauksia, mutta monet.

--
Antti Alhonen.

Lasse Kärkkäinen / Tronic

unread,

Dec 19, 2005, 3:20:00 AM12/19/05

> Se vaatisi hieman IRC-protokollan määritysten muokkaamista ja muutoksia
> serveritasolla, mutta ne on paljon helpompi toteuttaa kuin kaikkien
> klienttien yhtäaikainen päivitys merkistön pakkovaihdossa. Tämä uusi
> merkistötuki täytyisi implementoida myös IRC-klientteihin, mutta se
> toimisi niin päin, että jos tukea ei ole tehty, serveri lähettäisi
> tällaiselle klientille ainoastaan sillä varmasti näkyvää dataa, ei
> UTF-8-koodattua. Ero olisi siis se, että näin päivittäessä päästäisiin
> UTF-8-merkistöön ilman, että yhteensopivuus järkkyy.

Koska itse listasit vain systeemisi hyvät puolet (en lainannut ko. osaa)
ja esitit ettet siinä näe ongelmia, listaan minä puolestani ongelmakohtia:

1. Clienttien päivitys vaaditaan silti, jotta merkit oikeasti näkyisivät
oikein. Jos serveripuolella käyttäisiin täysin UTF-8:a, voisi olettaa ko.
merkistöä myös hyödynnettävän, jolloin tulisi taas käytännössä tarve
asentaa UTF-8:a tukevat clientit. Lopputuloksena on hirveästi työtä
servereiden päivittämiseksi ja lopulta sama tilanne, eli clientit pitäisi
saada kaikilta vaihdettua (vaikka se sitten voitaisiinkin tehdä hitaasti).

2. Merkistömuunnokset Unicoden ja muiden merkistöjen välillä ovat
raskaita, koska siihen tarvitaan jättimäiset merkkitietokannat. Tämä näkyy
jo yksittäisen käyttäjän raskaammassa käytössä olevan Irssin CPU-usagen
nousuna, mutta serverillä toteutettuna (varsinkin jos defaulttina kaikille
pitää tehdä muunnokset) olisi todennäköisesti sen verran raskasta ettei
sitä voitaisi hyväksyä.

3. Serveripuolella toteutettu merkistömuunnos voi potentiaalisesti rikkoa
järjestelmiä, jotka olettavat datan siirtyvän sellaisenaan¹.

4. Serveripuolella esittämälläsi tavalla toteutettu (serveri olettaa
alueella vallitsevan merkistön) serverin merkistömuunnos rikkoo muita
merkistöjä ko. alueella käyttävien systeemit (esimerkkinä Suomessa asuva
venäläinen, joka haluaisi käyttää KOI8-R-merkistöä)¹. Ongelma on tosin
ratkaistavissa sillä jos serverille voisi myös kertoa että mitä merkistöä
haluaa - tämä kuitenkin vaatii säätöä ja samalla vaivalla luulisi
onnistuvan UTF-8:n käyttöönotonkin, kun se tosiaan on tuettu kaikissa
maininnan arvoisissa ympäristöissä kännykästä shellikoneiden kautta
Windowsiin, Maciin tai vaikka Irixiin ja OS/2:een.

¹) Aika marginaalinen ongelma, mutta kun itse vaadit ehdottoman
täydellistä taaksepäinyhteensopivuutta niin mielestäni tämä on vastaavasti
otettava huomioon. Myös servereiden pitäjät todennäköisesti edellyttävät
tätä ennen päivitykseen suostumistaan.

- Tronic -

Lasse Kärkkäinen / Tronic

unread,

Dec 19, 2005, 3:30:04 AM12/19/05

Standardimerkistön valitseminen 8-bittisistä on Suomessakin hyvin
hankalaa. Toki voidaan sopia että merkistönä on vain ASCII ja päälle
Latin-1:n mukaiset [ÄäÖö]. Mikään ohjelmisto ei kuitenkaan tällaista
merkistöä tunne, jolloin muunnokset tosiaan jäävät käyttäjän vastuulle.
Jos puhutaan oikeista merkistöistä niin vahvin kandidaatti on CP1252, jota
käyttää kuitenkin suurin osa käyttäjistä. Tätä puoltaisi myös se että mIRC
ei edes tue ISO-merkistöjä. Tietysti on tiettyjä poliittisia syitä
Microsoftin merkistön sorsimiseen...

Merkistötiedon välittämiseen UTF-8-tekstin seassa on muuten standardoitu
menetelmä. Tämä tehdään lisäämällä alkuun nk. BOM-merkki. Tämän käyttöä
ircissä ei kuitenkaan ole katsottu järkeväksi, koska se rikkoo
yhteensopivuutta 8-bittisten kanssa entisestään, eikä oikeastaan tarjoa
mitään hyötyä (UTF-8:n ja 8-bittiset erottaa varsin luotettavasti
toisistaan ilmankin).

Mainittakoot vielä että ei tässä mitenkään kiireellä olla liikkeellä.
UTF-8 on keksitty vuonna 1992 ja sittemmin sitä on käytetty lukuisissa
sovelluksissa. Mitä välttämätöntä uutta Unicode 4.0 tarjosi?

Samaan aikaan IRCissä on taisteltu ensin 7 bit lokinsiipiskandien ja
sittemmin IBM-merkistöjen (CP437 ja CP850) kanssa, ennen kuin saatiin edes
nämä Latin-1-tyyppiset ääkköset - kunnes Redhat (ja sittemmin moni muu)
päätti että defaulttimerkistöksi tulee UTF-8. IRC-clienteissä on tukea
UTF-8:lle ollut jo vuosikaudet, mutta tämä UTF-8:n autodetectointi, joka
sallii pehmeämmän siirtymän, on uudempi ominaisuus (Irssissä vasta pari
vuotta, mIRCille puoli vuotta - ajat muistinvaraisina arvioina, eli hihasta).

MIRC ei kehity käytännössä lainkaan (vaikka sen tekijä onkin toistuvasti
UTF-8-tukea luvannut), koska softa pitäisi kirjoittaa suunnilleen kokonaan
uusiksi pikkukorjausten sijaan. Valitettavasti emme voi maailmantappiin
saakka odotella että jokin yksittäinen softa saataisiin korjattua
(varsinkin kun senkin tosiaan saa toimimaan jollain tapaa siedettävästi
niillä scripteillä).

- Tronic -

Simo Melenius

unread,

Dec 19, 2005, 2:29:55 PM12/19/05

Antti Alhonen <antti.alhonen@poista_tama.tut.fi.invalid> writes:

> Jari Eskelinen wrote:
>> Hei, kasva aikuiseksi. Toisten hyvin toimineita hiekkalaatikoita ei
>> tartte tulla sotkemaan vaikka onkin keksinyt tosi hienon uuden jutun.
> Tuossa onkin muuten hyvä pointti, jota en ole tullut suoranaisesti

...

> Ja toki innoissaan haluavat heti lähteä kehittämään sitä. Eivät toki

Sepä se irkissä onkin hyvä, ettei sitä tarvitse sen ihmeemmin
kehittää. Senkun vaan alkaa käyttää UTF-8 -merkistöä sopivilla
kanavilla tai työpaikan/jonkun yhteisön sisäisellä irc-palvelimella,
jos tuntuu, että se UTF-8 jonkun ongelman ratkaisee. Joskus ratkaisee,
yleensä ei. (Siksi se ei varmaan ole yleisesti käytössä.)

Jos irkkiä olisi "kehitetty", sen eri versioista ja niiden
yhteensopivuudesta johtuvista ongelmista joutuisi todennäköisesti
tappelemaan enemmän kuin nyt merkistövaihteluista.

(Sanotaan nyt vielä, että joo: kyllähän irkkiä _on_ kehitetty, mutta
itse pyörää ei ole onneksi keksitty kokonaan uudelleen.)

t:s

--
firstname...@iki.fi -- Today is the car of the cdr of your life.

Antti Alhonen

unread,

Dec 19, 2005, 5:39:23 PM12/19/05

Lasse Kärkkäinen / Tronic wrote:
> Koska itse listasit vain systeemisi hyvät puolet (en lainannut ko. osaa)
> ja esitit ettet siinä näe ongelmia, listaan minä puolestani ongelmakohtia:

Esitin sitä eräänlaisena idean pohjana, luonnoksena. Pääpointti oli
esittää, että on muitakin keinoja kuin pakkosiirrättäminen.
Esittämässäni järjestelmässä on lukuisia ongelmakohtia, enkä missään
vaiheessa esittänyt sitä täysin ongelmattomaksi. Se on esimerkki, jonka
tarkoitus on havainnollistaa sitä, että IRC-standardiin ON mahdollista
taaksepäin kohtuullisen yhteensopivasti lisätä tieto käytetystä
merkistöstä.

> 1. Clienttien päivitys vaaditaan silti, jotta merkit oikeasti näkyisivät
> oikein. Jos serveripuolella käyttäisiin täysin UTF-8:a, voisi olettaa ko.
> merkistöä myös hyödynnettävän, jolloin tulisi taas käytännössä tarve
> asentaa UTF-8:a tukevat clientit.

Merkistömuunnoksilla ei toki saada kaikkein harvinaisimpia merkkejä
toimimaan. Toisaalta eipä tilanne olisi sen huonompi kuin nytkään,
eiväthän nytkään esim. ne euromerkit näy oikein toisille. Siksi klientin
päivitys olisi tarpeen vain siinä tapauksessa, että välttämättä haluaa
pystyä lukemaan ja kirjoittamaan erikoisia merkkejä, lähinnä joissain
kielitieteellisissä piireissä.

> Lopputuloksena on hirveästi työtä
> servereiden päivittämiseksi ja lopulta sama tilanne, eli clientit pitäisi
> saada kaikilta vaihdettua (vaikka se sitten voitaisiinkin tehdä hitaasti).

Miksi välttämättä tarvitsisi? Ihan hyvin näkyisivät kaikki käytössä
olevan merkistön tarjoamat merkit. Jos 99,9 prosentille irkkaajista nyt
riittää nämä merkit, miksei näin olisi tulevaisuudessa. Se 0,01 % voisi
sitten päivittää ne klienttinsä ja saada kaikki merkit toimimaan.
(Ja näillä, jotka laajan merkistön haluavat, onkin useimmilla jo
klientti päivitettynä.) Kaikkia tyydyttävä ratkaisu.

> 2. Merkistömuunnokset Unicoden ja muiden merkistöjen välillä ovat
> raskaita, koska siihen tarvitaan jättimäiset merkkitietokannat.

Ei iso (ja nykypäivänä nuo kootkaan eivät olisi niin valtavia)
tietokanta välttämättä tarkoita hitautta. Jos tiedossa on käyttäjän
käyttämä 8-bittinen merkistö, muunnostaulukko tästä UTF-8:ksi
on 256-alkioinen taulukko, josta ei tarvitse etsiä yhtään mitään,
valita vain kyseinen alkio. Toisin päinkin homma toimii samalla tavalla;
taulukot ovat isoja mutta ei niistä sinänsä tarvitse mitään etsiä.
Taulukot vievät useammankin megan, mutta niihin osoittaminen on silti
nopeaa.

> Tämä näkyy
> jo yksittäisen käyttäjän raskaammassa käytössä olevan Irssin CPU-usagen
> nousuna,

Nyt sanon etten usko ennen kuin näen. Muutama tekstirivi sekunnissakaan
ei nosta kuormitusta, vaikka olisi koodattu huonomminkin. Jos kyseessä
on ajon aikana tulkittava perl-skripti esimerkiksi, se toki on aivan
eri asia kuin serveriohjelmaan sisäänrakennettu muunnin. Silti jos
sellainenkin skripti lisää Irssin tehonkulutusta, johan on surkeasti
koodattu jokin osa ketjusta.

> mutta serverillä toteutettuna (varsinkin jos defaulttina kaikille
> pitää tehdä muunnokset) olisi todennäköisesti sen verran raskasta ettei
> sitä voitaisi hyväksyä.

Palvelinkoneiden suoritintehot ovat kasvaneet hillittömästi suhteessa
siihen, kuinka vähän tehoa yksinkertainen tekstin muokkaus vaatii.
En usko, että tämä olisi ongelma. Varmaa tietoa ja kokemusta ei
kuitenkaan ole. Onko sinulla, vai esittelemmekö molemmat vain eriäviä
arvauksia?

> 3. Serveripuolella toteutettu merkistömuunnos voi potentiaalisesti rikkoa
> järjestelmiä, jotka olettavat datan siirtyvän sellaisenaan¹.

Tämä on mielestäni järjestelmän pahin ongelma. Tätäkin voisi ratkoa
vaikka siten, että serveriltä toiselle datan ei tarvitsisikaan
välttämättä kulkea UTF-8-muodossa vaan se olisi mahdollista siirtää
myös alkuperäisessä muodossa. Tämä vaatisi toki kunkin viestin yhteyteen
tiedon käytetystä merkistöstä, mikä ei kyllä sinänsä olisi ongelma
sekään.

> 4. Serveripuolella esittämälläsi tavalla toteutettu (serveri olettaa
> alueella vallitsevan merkistön) serverin merkistömuunnos rikkoo muita
> merkistöjä ko. alueella käyttävien systeemit (esimerkkinä Suomessa asuva

Näin tekee, jos ideaani ei kehitetä yhtään. Nopea mieleen tuleva idea
olisi luoda uusi serverikomento, jolla valittaisiin käytetty merkistö.

Se, että serveri "arvaa" alueen perusteella merkistön, säästäisi
lähes kaikki säätämiseltä kokonaan. Sen lisäksi voitaisiin tarjota
mahdollisuus manuaaliseen säätämiseen komennon avulla.

> haluaa - tämä kuitenkin vaatii säätöä ja samalla vaivalla luulisi
> onnistuvan UTF-8:n käyttöönotonkin, kun se tosiaan on tuettu kaikissa

Mutta säätöä tarvitsisi vain tehdä aivan poikkeustapauksissa, ja
toisaalta säilyisi vapaus valita. Olen sillä kannalla, että säätö
kuuluu ammattilaisille, tavallisella käyttäjällä kaiken pitäisi toimia
mahdollisimman vähällä säädöllä.

> ¹) Aika marginaalinen ongelma, mutta kun itse vaadit ehdottoman
> täydellistä taaksepäinyhteensopivuutta niin mielestäni tämä on vastaavasti

Milloin olen vaatinut _ehdottoman täydellistä_ taaksepäin
yhteensopivuutta? Toki mitä parempi yhteensopivuus, sitä hienompi
juttu. Nyt kuitenkin vertaillaan kahta toimintamallia, joista toinen
(pakkosiirtyminen) ei ole LAINKAAN taaksepäin yhteensopiva, ja toinen
edes kohtuullisen yhteensopiva.

> otettava huomioon. Myös servereiden pitäjät todennäköisesti edellyttävät
> tätä ennen päivitykseen suostumistaan.

Niin. UTF-8:aan pakkosiirrättämiseenhän serverien pitäjät eivät voi
oikein puuttuakaan, vaikka se onkin täysin taaksepäin yhteensopimaton.
Mutta se ei ole taaksepäin yhteensopimaton _ylläpitäjien takia_. "Ei
tarvitse korjata sitä minkä muut ovat rikkoneet."

--
Antti Alhonen.

Lasse Kärkkäinen / Tronic

unread,

Dec 20, 2005, 12:16:20 AM12/20/05

Ei tätä muutosta suinkaan suoraan vain lähdetty ajamaan läpi, vaan kyllä
ne muutkin vaihtoehdot on tutkittu. Erityisesti tuen saaminen
serveripuolelle on usein noussut esille, samoin kuin muut mahdolliset
koodaustavat (esim. UTF-7 ja UCS-4), sekä BOM:n käyttö sekä muut
merkistöidentifierit, jotka voitaisiin lisätä ilman serveritukea.

Olet toistuvasti esittänyt että lisämerkeillä ei ole mitään käyttöä (99.9
prosentille käyttäjistä). Viitsisitkö siis kertoa miten esität
ISO-8859-1:llä ääntämisohjeita? IPA-aakkosia (esim. /pɹəˌnʌnsɪˈeɪʃən/) on
kiva pasteta sanakirjasta (ja vähemmän kiva kirjoittaa normaalilla
näppisleiskalla), mutta saman asian esittäminen ilman niitä on aika
hankalaa. Tällaisen luulisi olevan useinkin tarpeellista erityisesti
meille marginaalikielen edustajille.

> Ei iso (ja nykypäivänä nuo kootkaan eivät olisi niin valtavia)
> tietokanta välttämättä tarkoita hitautta. Jos tiedossa on käyttäjän
> käyttämä 8-bittinen merkistö, muunnostaulukko tästä UTF-8:ksi
> on 256-alkioinen taulukko, josta ei tarvitse etsiä yhtään mitään,
> valita vain kyseinen alkio. Toisin päinkin homma toimii samalla tavalla;
> taulukot ovat isoja mutta ei niistä sinänsä tarvitse mitään etsiä.
> Taulukot vievät useammankin megan, mutta niihin osoittaminen on silti
> nopeaa.

Translitterointi vaatii kuitenkin kaikkien merkkien ja -yhdistelmien
ymmärtämisen ja nimenomaan tämä on se raskas operaatio. Serverin pitäisi
esimerkiksi ymmärtää korvata € merkkijonolla EUR¹, jos vastaanottajan
merkistö ei ko. merkkiä suoraan tue. Lisäksi ne perusmerkitkin voi esittää
useammalla eri tavalla, esim. ä = a+¨ (combining characters), joka tuo
odottamattomia uusia vaihtoehtoja.

¹) glibin käyttämä translitteraatio - tietysti se voisi olla perusteltua
korvata myös kirjaimella e tai sanalla euro.

> Nyt sanon etten usko ennen kuin näen. Muutama tekstirivi sekunnissakaan
> ei nosta kuormitusta, vaikka olisi koodattu huonomminkin. Jos kyseessä
> on ajon aikana tulkittava perl-skripti esimerkiksi, se toki on aivan
> eri asia kuin serveriohjelmaan sisäänrakennettu muunnin. Silti jos
> sellainenkin skripti lisää Irssin tehonkulutusta, johan on surkeasti
> koodattu jokin osa ketjusta.

PID USER PR NI VIRT RES SHR S %CPU %MEM TIME+ COMMAND
6620 tronic 20 0 64680 35m 2692 S 0.3 28.7 891:12.50 irssi

CPU-ajallaan Irssi (tämä siis 0.8.10 ja c:llä kirjoitettu recode, ei
mikään scripti) on kevyesti kärjessä, ohittaen mm. sähköpostiserverin ja
spammifiltteröinnin (yli kertaluokan ero). Itse en kuitenkaan omassa
käytössäni asiaa ole noteerannut (minulla on vain yksi Irssi-prosessi,
joka ei varsinaisesti konetta polvilleen tuo), vaan perustin väitteeni
sille kuinka muut ovat asian havainneet ja sitten siitä on mm. #irssillä
keskusteltu, joten minulla ei myöskään ole esittää vertailukelpoisia
tuloksia Irssillä ilman recodea.

Jos oikeasti haluat tutkia asiaa niin aja kahta Irssi-prosessia, joista
yksi käyttää recodea ja toinen ei ja jätä ne kumpikin idlaamaan samalle
kasalle aktiivia kanavia.

> vaikka siten, että serveriltä toiselle datan ei tarvitsisikaan
> välttämättä kulkea UTF-8-muodossa vaan se olisi mahdollista siirtää
> myös alkuperäisessä muodossa. Tämä vaatisi toki kunkin viestin yhteyteen
> tiedon käytetystä merkistöstä, mikä ei kyllä sinänsä olisi ongelma
> sekään.

Paitsi että sitten jos servereiden välinenkin merkistö voi olla mitä
sattuu, mutkistuu merkistömuunnos entisestään. Täytyykin olla valmiudet
muuntaa mistä tahansa mihin tahansa. Tämähän on käytännössä se muunnos,
jota Irssi joutuu tekemään.

> kuuluu ammattilaisille, tavallisella käyttäjällä kaiken pitäisi toimia
> mahdollisimman vähällä säädöllä.

Tästä olemme ehdottomasti samaa mieltä - siksi toivonkin että vaihto
UTF-8:iin tapahtuu mahdollisimman nopeasti.

Paremmat clientit osaavat jo toimia oikein (ääkköset näkyvät merkistöstä
riippumatta) ihan defaulttina tai charsetin vaihdolla UTF-8:ksi. Irssi
0.8.10 on sellainen vaihtoehto, joka vain toimii. Ei vaadi käyttäjältä
mitään muuta kuin /upgrade-komennon, kunhan ylläpito ensin saa sen
päivitettyä koneisiin. Joissain clienteissä autodetectointi toimii vain
jos puhuu itse UTF-8:a ulospäin. Siksi monet ovat odotelleet "lupaa"
merkistön vaihtoon ja nyt siis päivämääräksi on lopultakin saatu tuo
2006-01-01 sovittua.

Bottomline on se että käyttäjät ovat kuitenkin tottuneet softapäivityk-
siin, eikä tuosta vaihdosta tule sellaisia ongelmia kuin esität.

> Milloin olen vaatinut _ehdottoman täydellistä_ taaksepäin
> yhteensopivuutta? Toki mitä parempi yhteensopivuus, sitä hienompi

Esitit jossain aiemmassa viestissäsi tähän threadiin että ratkaisun tulisi
olla sellainen ettei mikään nykyisin käytössä olevista merkeistä hajoa.
Mielestäni tuo on täydellisen yhteensopivuuden vaatimista (tietyllä
alueella), vastapainona sille että tyydyttäisiin UTF-8:n tarjoamaan
ASCII-yhteensopivuuteen. Ongelmaksihan tuo vaatimus - kuten joku jo
esittikin - muodostuu koska muilla on erilaisia käsityksiä siitä mitä
niiden ylemmän puoliskon 8-bittisten merkkien tulisi tarkoittaa.

Myöskään ASCII-koodaukset (kuten UTF-7 tai ISO-2022-JP) eivät ole täysin
ongelmattomia, koska niiden escape-sequencet saattavat esiintyä tekstissä
vahingossa. Lisäksi pitkällä aikavälillä ne aiheuttavat ongelmia, jos
yläbiteissä saa kuitenkin kirjoitella mitä tahansa, koska softan pitäisi
tätä tukea. Nykytilanne on käsittääkseni se että juurikaan mikään clientti
ei tällaista edes tue (voi valita vain yhden merkistön kerrallaan).

Serverillä tehtyyn muunnokseen taasen liittyi näitä tässä mainittuja ongelmia.

- Tronic -

Mikko Järvinen

unread,

Dec 20, 2005, 2:25:44 AM12/20/05

Lasse Kärkkäinen / Tronic <troni...@trn.iki.fi> wrote:
> Translitterointi vaatii kuitenkin kaikkien merkkien ja -yhdistelmien
> ymmärtämisen ja nimenomaan tämä on se raskas operaatio. Serverin pitäisi

> esimerkiksi ymmärtää korvata ? merkkijonolla EUR¹, jos vastaanottajan

Hupaisasti joudumme puhumaan kysymysmerkistä, koska itse harrastan
vielä latin-ykköstä...

Eipä tuo nyt täysin välttämätöntä ole. Jos joku käyttää edelleen
kahdeksanbittistä merkistöä, kaiketi kyse on siitä, että ei sitten ole
hirveästi tarvettakaan mennä sen yli. Esim. suomalaisilla kanavillahan
on kyse on enimmäkseen noin kuudesta merkistä [äöäÄÖÅ], joiden
hajoaminen aiheuttaa skismaa, muista ei liene niin väliksi.

--
Mikko Järvinen - ech at iki dot fi - http://www.iki.fi/ech/

Aslak Sundberg

unread,

Dec 20, 2005, 5:03:41 AM12/20/05

"Jukka K. Korpela" <jkor...@cs.tut.fi> wrote:

>> Jos mä kirjoittaisin nyysseihin sellaista tekstiä, jossa on merkkejä,
>> jotka löytyy UTF-8:sta muttei ISO-8859-1:stä eikä ISO-8859-15:sta, niin
>> sitten käyttäisin varmaan UTF-8:aa.
>

>Varmaankin. Mutta kuten on useaan kertaan UTF-8-ketjuissa todettu, todellinen
>tarve ISO-8859-1:n ulkopuolisten merkkien käyttöön on huomattavan pieni
>niistä aiheutuviin ongelmiin verrattuna.

Po. _minun_mielestäni_ todellinen tarve....

Sillä utf8:n asiaa edistävien tahojen näkemys on varmasti
erilainen joten ei sinunkaan kannata esittää
henkilökohtaisia mielipiteitäsi minään yleisenä totuutena.

>hierarkiassa on omat sääntönsä siitä, mitä sopii käyttää. Sfnetissä
>ISO-8859-1 jne.)

Po. hierarkiassa on omat _suosituksensa_ siitä, mitä sopii
käyttää. Sfnetissä

Kun sinun sanoistasi ei tuo susitus miksikään säännöski
muutu.

Antti Alhonen

unread,

Dec 20, 2005, 6:55:22 AM12/20/05

Pahoitteluni, että tämän viestin ääkköset eivät kaikille välttämättä
näy. Oli pakko lähettää UTF-8:na, koska Thunderbirdin bugin takia
ei pysty muuna lähettämään enkä tähän hätään viitsi ohjelmaakaan
vaihtaa. Sellaista tämä UTF-8:aan siirtyminen on :).

Lasse Kärkkäinen / Tronic wrote:

> Ei tätä muutosta suinkaan suoraan vain lähdetty ajamaan läpi, vaan kyllä
> ne muutkin vaihtoehdot on tutkittu. Erityisesti tuen saaminen
> serveripuolelle on usein noussut esille, samoin kuin muut mahdolliset
> koodaustavat (esim. UTF-7 ja UCS-4), sekä BOM:n käyttö sekä muut
> merkistöidentifierit, jotka voitaisiin lisätä ilman serveritukea.

Jaa että ne vaihtoehdot on tutkittu. Ihan täydellisesti kaikki. Ettei
suinkaan vaihtoehto_ja_ ole tutkittu?

Vaan missäs näitä on tutkittu? Puhut siihen sävyyn kuin tietäisit
näistä tutkimuksista, joten lähteet esiin. Vai onkohan kyse näistä
samoista uskonlahkoista, joissa Vapahtajan tulemisen päivä 1. 1. 2006 on
myös laskettu :-)?

> Olet toistuvasti esittänyt että lisämerkeillä ei ole mitään käyttöä (99.9
> prosentille käyttäjistä). Viitsisitkö siis kertoa miten esität
> ISO-8859-1:llä ääntämisohjeita?

No tässä on kyse juuri siitä 0,01 prosentista. Itse olen käynyt
useitakin keskusteluja kielistä. Tarvetta ei ole ollut ilmaista
kielitieteellisen tarkkoja ääntämismerkkejä, vaan nämä merkit
ovat minulle riittäneet. Mallini ei toki mitenkään estä niitä, joille
nämä merkit eivät riitä, vaihtamasta UTF-8:aan. Sikäli sotket tässä
nyt aika tehokkaasti sanomiani asioita keskenään. Tämä
keskustelunhaarahan tuli juuri halusta tarjota teille kaikki
mahdollisuudet UTF-8:n käyttöön häiritsemättä perusirkkaajia ja meitä,
jotka emme halua (tässä asiassa) säätää, kun on parempaakin tekemistä.

Parempihan se on, että 0,01% säätää (omasta tahdostaan!) ja 99,9%:lla
toimii säätämättä kuin että joka ainoa säätää. Tämä tuntuu olevan
hankala ymmärtää.

< leikattu Unicode-esimerkki ääntämismerkeistä. >

Thunderbirdin oletusasetuksina käyttämä fontti näyttää nuo merkit
niin epäselvänä, että heti ei meinannut tunnistaa niitä. Syy: tää
on se Intternetti. Tämä ei ole kirja. Liian pieni fontti. Sama
tulee varmasti vastaan IRC:ssäkin helposti. (Tämä ei liity suoranaisesti
aiheeseen, voisinhan "kätevästi" vaihtaa fonttia, kunhan yritän
palauttaa sinua takaisin maanpinnalle. Se kaikki, mitä voi lukea
tieteellisistä julkaisuista, ei välttämättä ole kätevää sisältöä
irkissä.)

> hankalaa. Tällaisen luulisi olevan useinkin tarpeellista erityisesti
> meille marginaalikielen edustajille.

Mitä marginaalikieltä edustat? Itse olen tullut höpiseeksi japanin
kielestä ja sen rakenteista. Olen pärjännyt mainiosti ilman Unicodea.
Täytyy tietysti varautua henkisesti oman maailmankuvan romahtamiseen,
esim. siihen, että sh voi tarkoittaa suhuässää ja kaikki ei menekään
niin kuin tieteessä on. IRC != tiede. (Maa kutsuu taas.)

> Translitterointi vaatii kuitenkin kaikkien merkkien ja -yhdistelmien
> ymmärtämisen ja nimenomaan tämä on se raskas operaatio. Serverin pitäisi

Ilmeisesti et ole ohjelmointia niin paljon harjoittanut, että
esimerkiksi käsite "look-up table" olisi tuttu. Merkistömuunnos ei vaadi
mielestäni mitään "etsintää" eikä "ymmärtämistä", vaan ainoastaan
suoraan indeksoitavat muunnostaulukot. Jos olet toista mieltä,
perustele toki, miksi look-up-taulukoita ei voisi suoraan indeksoida,
olenhan voinut oikeastikin unohtaa jonkin seikan, merkistömuunnoksia
kun en suoranaisesti ole koskaan itse koodannut.

> Lisäksi ne perusmerkitkin voi esittää
> useammalla eri tavalla, esim. ä = a+¨ (combining characters), joka tuo
> odottamattomia uusia vaihtoehtoja.

Minulle ei tuota ongelmia keksiä, miten ä-kirjain muodostetaan. Mutta
olenkin maan pinnalla tässä asiassa.

> PID USER PR NI VIRT RES SHR S %CPU %MEM TIME+ COMMAND
> 6620 tronic 20 0 64680 35m 2692 S 0.3 28.7 891:12.50 irssi

Vähän paha, kun vertailukohta, eli ilman recodea toimiva irssi, puuttuu.

> CPU-ajallaan Irssi (tämä siis 0.8.10 ja c:llä kirjoitettu recode, ei
> mikään scripti) on kevyesti kärjessä, ohittaen mm. sähköpostiserverin ja
> spammifiltteröinnin (yli kertaluokan ero). Itse en kuitenkaan omassa

Eipä olisi ainoa asia, jossa irssi bugaa ja/tai on huonosti toteutettu.
*köh arpajaismodet köh*.

> Paitsi että sitten jos servereiden välinenkin merkistö voi olla mitä
> sattuu, mutkistuu merkistömuunnos entisestään.

Ei välttämättä mitä sattuu. Asian voisi hoitaa niinkin, että se olisi
joko UTF-8 tai "raakadata". Tämä raakadata-vaihtoehto tyydyttämään
niitä, jotka haluavat säilyttää datan varmasti ennallaan. Tällaisessa
tilanteessa vastapäässä ei välttämättä sitten tehtäisikään muunnoksia.

>>kuuluu ammattilaisille, tavallisella käyttäjällä kaiken pitäisi toimia
>>mahdollisimman vähällä säädöllä.
>
> Tästä olemme ehdottomasti samaa mieltä - siksi toivonkin että vaihto
> UTF-8:iin tapahtuu mahdollisimman nopeasti.

Jotta joka ainoa joutuu säätämään. Puhut ristiin. Sitä paitsi sinä
tässä tunnut vaativan täydellistä yhteensopivuutta kaikkien
harvinaisempienkin merkkien (ääntämysmerkit, muiden kielten merkit
ym.) välillä. Tällaista yhteensopivuutta ei edes UTF-8 automaattisesti
säätämättä tuo. Ongelmakohtana ovat nimittäin fontit. Niiden kanssa
joutuu enemmän tai vähemmän säätämään myös tulevaisuudessa.

> Irssi 0.8.10 on sellainen vaihtoehto, joka vain toimii.

Uskaltaisikohan sitä kanavaoperaattorikin jo käyttää viemättä jokaista
komentoa varmuuden vuoksi /quotella :). IRC-operaattorin hommista myös
huonoja kokemuksia Irssin kanssa.

> merkistön vaihtoon ja nyt siis päivämääräksi on lopultakin saatu tuo
> 2006-01-01 sovittua.

Minäkin voin tässä ja nyt sopia, että 21. 5. 2007 jokainen vaihtaa
webbiselaimen fonttinsa punaiseksi vilkkuvaksi kaunokirjoitukseksi.

Eri asia sitten, onko tällä "sopimuksella" mitään arvoa. Maa kutsuu.

Toisaalta voin odottaa myös Jeesuksen toista tulemista jonain tiettynä
laskettuna päivänä. Silloin minua kutsuttaisiin adventistiksi.

> Bottomline on se että käyttäjät ovat kuitenkin tottuneet softapäivityk-
> siin, eikä tuosta vaihdosta tule sellaisia ongelmia kuin esität.

Ai? Mites ne perusirkkaajat? Unohdat ne kokonaan. Totta kai esimerkiksi
tätä keskustelua seuraavat ovat kaikki enemmän tai vähemmän tekniikasta
ja säätämisestä kiinnostuneita. Unohdat ne tyypit, jotka vain haluavat
irkata. Useimmiten vieläpä mIRC:llä. Sitä paitsi jopa "ei vois vähemmän
kiinnostaa" -massateinejäkin kiinnostaa ääkkösten näkyvyys. En
mielelläni soisi, että peruskoululaiset teinit rupeavat luopumaan ä:n ja
ö:n käytöstä ja siirtymään a:han ja o:hon - sen takia, että jotkut
"asiantuntijoina" itseään pitävät haluavat leikkiä toisten merkistöillä.

> Esitit jossain aiemmassa viestissäsi tähän threadiin että ratkaisun
tulisi
> olla sellainen ettei mikään nykyisin käytössä olevista merkeistä hajoa.

"Jossain aiemmassa viestissä" esitin jotain hassua. Missähän näin
sanoin? Olisi ollut aika omituinen toive, koska miten edes määrittelisin
"kaikki nykyisin käytössä olevat merkit", koska nytkin on todella
sekakäytössä Suomessa n. kolme eri merkistöä.

Jos et vielä tajunnut, kyse on niinkin yksinkertaisesta asiasta, että
IRC-keskusteluun tarvittavien merkkien täytyy olla taaksepäin
yhteensopivat. Ei sen neljäsosamerkin. Mutta niiden ääkkösten.

--
Antti Alhonen.

Lasse Kärkkäinen / Tronic

unread,

Dec 20, 2005, 8:58:45 AM12/20/05

> näy. Oli pakko lähettää UTF-8:na, koska Thunderbirdin bugin takia

Ominaisuus ;)

> No tässä on kyse juuri siitä 0,01 prosentista. Itse olen käynyt

Mistäs olet prosenttisi keksinyt? Mainitse toki lähteesi niin katsotaan
josko kaivaisin logeista myös niitä keskusteluja muista vaihtoehdoista.

Ihan turha sinänsä kummankaan lähteitään tuossa lähteä kaivamaan, sillä se
ei todellakaan vie keskustelua tippaakaan eteenpäin. Mainittakoot että
tämä threadi tulee jatkossa olemaan yksi niistä keskusteluista, joihin
viittaan.

> useitakin keskusteluja kielistä. Tarvetta ei ole ollut ilmaista
> kielitieteellisen tarkkoja ääntämismerkkejä, vaan nämä merkit
> ovat minulle riittäneet. Mallini ei toki mitenkään estä niitä, joille

Ääntämisohjeita tarvitaan siihen että osaa ääntää sanan kielellä jossa
kirjoitettu asu ei suoraan vastaa ääntämistä. Siksi otin esimerkiksi tuon
englanninkielisen sanan. IPA-aakkosten lukeminen opetetaan tietääkseni
edelleen jo ala-asteella ja niillä asian esittäminen nyt vaan on
käytännöllistä. Äläkä nyt enää viitsi esittää mitään Stetson-Harrison-
prosentteja tähän.

> Mitä marginaalikieltä edustat? Itse olen tullut höpiseeksi japanin

Suomea. En osaa ääntää kaikkia valtakielten sanoja ilman ääntämisohjeita,
siksi kyselen niitä ajoittain muilta. Silloin kun minulla on käytettävissä
sanakirja, vastailen usein myös muiden vastaaviin kyselyihin.

> Ilmeisesti et ole ohjelmointia niin paljon harjoittanut, että
> esimerkiksi käsite "look-up table" olisi tuttu. Merkistömuunnos ei vaadi
> mielestäni mitään "etsintää" eikä "ymmärtämistä", vaan ainoastaan

Muunnos 8-bittisestä UTF-8:ksi onnistuu triviaalisti pienellä lookup
tablella. Vastakkainen muutos ei onnistu. Kerron sinulle puolestani hyvin
lyhyesti Unicodesta taustoittaakseni ongelmaa.

UTF-8:lla voidaan koodata UCS-arvoja (Unicode-merkkikoodeja) siten että
yhdestä UCS:stä tulee 1-4 oktetin mittainen jono UTF-8:a. Tämän koodauksen
purkaminen on triviaalia (vaatii hiukan bittitason operaatioita) ja
tuloksena saadaan koneen muistiin esim. UCS-4:ää, jossa jokaista UCS-arvoa
vastaa muistissa 32-bittinen unsigned integer.

Tässä kohtaa ilmeisesti tekisit taas lookup tablen, jolla saadaan nuo
UCS:t muunnettua halutulle merkistölle. Ikävä kyllä asia ei ole niin
helppo, kun tehdään oikeaa merkistömuunnosta.

Tässä kohtaa tarvitaan sitä tietokantaa, kun pitää tutkia että olisiko
saatu UCS-koodi itse asiassa combining char, eikä yksittäinen merkki. Jos
näin on niin pitää tutkia millaista kombinaatiota ollaan tekemässä ja
sitten toimia sen mukaan. Sitä että miten tämä oikeasti on
Unicode-kirjastoissa tehty, en tiedä, mutta operaatio ei kuitenkaan
missään tapauksessa ole niin helppo että vain yksittäisestä lookup
tablesta voitaisiin katsoa oikea merkki. Ehkä se hoituu pienehköllä
logiikkahärvelillä ja isolla kasalla lookup tableja.

> Jotta joka ainoa joutuu säätämään. Puhut ristiin. Sitä paitsi sinä

Ei joudu. Shelleissä on suoraan asennettu asiaa tukevat clientit. Monissa
clienteissä on defaulttina UTF-8. Webchat¹ defaultoi UTF-8:lle. Jokainen
mIRC-käyttäjä (ja heitähän IRC:n käyttäjistä on edelleen ylivoimainen
enemmistö, luokkaa 90 %) kyllä joutuu säätämään, mutta sille nyt vaan ei
voi mitään.

¹) En ole palvelun nimestä varma, mutta kuitenkin ainakin jossain määrin
suosittu tapa käyttää IRCnetiä.

> säätämättä tuo. Ongelmakohtana ovat nimittäin fontit. Niiden kanssa
> joutuu enemmän tai vähemmän säätämään myös tulevaisuudessa.

Ikäväähän se on ettei kaikilla ole kunnollisia fontteja. Tosin tämä koskee
jopa ASCII-merkkejä, jotka näkyvät monilla Linux-distroilla vakiona
karsean huonosti.

> Ai? Mites ne perusirkkaajat? Unohdat ne kokonaan. Totta kai esimerkiksi
> tätä keskustelua seuraavat ovat kaikki enemmän tai vähemmän tekniikasta
> ja säätämisestä kiinnostuneita. Unohdat ne tyypit, jotka vain haluavat
> irkata. Useimmiten vieläpä mIRC:llä. Sitä paitsi jopa "ei vois vähemmän

Nämäkin henkilöt osaavat kyllä asentaa Windowsiinsa next-next-next-finish-
ohjelmiaan. Siten se mIRCcikin todennäköisesti on asennettu. Jos ei muuten
osaa, mutta osaa ircata, niin tulkoot #UTF-8:lle, jossa asia kyllä
neuvotaan niin kädestä pitäen kuin on tarpeen. Lupaan että se vaatii
vähemmän käyttäjän aikaa kuin merkistöistä käytävä flamesota.

> Jos et vielä tajunnut, kyse on niinkin yksinkertaisesta asiasta, että
> IRC-keskusteluun tarvittavien merkkien täytyy olla taaksepäin
> yhteensopivat. Ei sen neljäsosamerkin. Mutta niiden ääkkösten.

Älä viitsi ajatella noin suppeissa kuvioissa. Virolaisilla on omat
näkemyksensä siitä minkä merkkien täytyy olla taaksepäin yhteensopivia.
Venäläisillä omansa. No, etköhän saanut ideasta kiinni. Nuo eri
toivomukset ovat keskenään ristiriitaisia, eikä yhteensopivuutta ole
mahdollista toteuttaa ilman merkistökonversioita jossain kohtaa
järjestelmää. Tämähän tosin on aivan selvää sinulle ja siksi ehdotatkin
asian hoitamista serveripuolella. Minä puolestani - kuten tiedettyä -
olen nähnyt pienemmäksi pahaksi luopua täydellisen yhteensopivuuden
vaatimuksesta siihen liittyvien hetkellistä säätöä huomattavasti
suurempien haittojen vuoksi.

Pidän tätä asiaa loppuun käsiteltynä nyt esillä olleiden pointtien osalta
(huomasit varmaan myös etten vastannut läheskään kaikkeen). Saatan toki
silti vielä vastata threadiin, jos joku esittää uusia ajatuksia.

- Tronic -

Antti Alhonen

unread,

Dec 20, 2005, 9:34:16 AM12/20/05

Lasse Kärkkäinen / Tronic wrote:

>>näy. Oli pakko lähettää UTF-8:na, koska Thunderbirdin bugin takia
> Ominaisuus ;)

Itse asiassa veikkaisin, että bugi, sillä ohjelma sanoo että klikkaa
peruuta ja valitse sitten toinen merkistö. No, näinhän voi tehdä ja
valita sen toisen merkistön, kuten ohjelma neuvoo, mutta silti se
kysyy aina uudestaan :). Varmaan tuossa olisi ollut tarkoitus
pistää jokin muuttuja kertomaan, että tuohon on jo kerran klikattu
peruuta. - Tai jotain vastaavaa. Fiksuinhan olisi kolminäppäiminen
dialogi, jossa voisi suoraan valita, muunnetaanko vai ei.

>>No tässä on kyse juuri siitä 0,01 prosentista. Itse olen käynyt
>
> Mistäs olet prosenttisi keksinyt? Mainitse toki lähteesi niin katsotaan
> josko kaivaisin logeista myös niitä keskusteluja muista vaihtoehdoista.

Hatusta, mutta et voi kiistää, etteikö suuruusluokka olisi oikein.
Pointin kannalta on yhdentekevää, vaikka se olisi "jopa" 1%. Lähteenä
valitettavasti vain omat kokemukset muutamilta IRC-kanavilta, joissa
ehkä yhteensä luokkaa parisataa eri henkilöä, eikä kertaakaan tarvetta
merkeille, joihin UTF-8:aa olisi tarvittu.

> Ihan turha sinänsä kummankaan lähteitään tuossa lähteä kaivamaan, sillä se
> ei todellakaan vie keskustelua tippaakaan eteenpäin. Mainittakoot että

Siinä missä tämä minun höpötykseni on vain oman näkemyksen esittämistä
ja sikäli aika "arvotonta", sinä esitit asioita ikään kuin jokin
standardointilautakuntaan verrattavissa oleva taho olisi asioita
tutkinut. Samaan tapaan ilmaisit, että on selvästi "päätetty" jokin
yleinen siirtymispäivä. Tällaisen käsityksen sain tekstisi sävystä.
Siksi ne lähteet olisivat oleellista. Tietenkin jos kyseessä on vain
jokin ihan satunnainen IRC-kanava, siis jokin tähän verrattavissa
oleva jutustelu, en sitä lähdetietoa tarvitse, turha kaivella logeja.

> tämä threadi tulee jatkossa olemaan yksi niistä keskusteluista, joihin
> viittaan.

Toki tähän voi viitata, muttei sitä kannata sitten väittää miksikään
"päätökseksi siirtyä johonkin päivänä x". Vaan pikemminkin esimerkkinä
yhdestä merkistösodasta.

> Ääntämisohjeita tarvitaan siihen että osaa ääntää sanan kielellä jossa
> kirjoitettu asu ei suoraan vastaa ääntämistä.

Niin, jos halutaan hoitaa asia täysin eksaktisti. Tällaiseen on
kuitenkin paljon parempia lähteitä kuin IRC. IRC:ssä tulee
jutusteltua kavereiden kanssa. Harva edes täysin korrektisti
osaa niitä merkkejä. Toki jossain piirissä voidaan osata, mutta
kuten sanottua, silloin olisi helppo ottaa tarpeen vaatiessa
se UTF-8 käyttöön, ei pakottaa kaikille. Tämä menee jankkaukseksi.

Luullet, että yritän osoittaa ääntämismerkkejä tarpeettomiksi. Yritän
osoittaa niitä vain hyvin harvoin tarvituksi, niin harvoin, että sen
takia ei tarvitse koko hemmetin IRC:tä pakkosiirtää vaan on järkevämpää
pistää siirtymisen edut ja haitat puntariin ja tehdä päätös sillä
perusteella.

> englanninkielisen sanan. IPA-aakkosten lukeminen opetetaan tietääkseni
> edelleen jo ala-asteella ja niillä asian esittäminen nyt vaan on

Meille ei varsinaisesti opetettu ala-asteella, yläasteella eikä
lukiossa. Toki niitä vähitellen oppi, kun kirjoissa niitä merkintöjä
käytettiin. Jokainen kirja tuntui tosin käyttävän hieman erityylisiä
merkintöjä saman asian ilmaisemiseen.

> käytännöllistä. Äläkä nyt enää viitsi esittää mitään Stetson-Harrison-
> prosentteja tähän.

-50 % ALE.

>>Mitä marginaalikieltä edustat? Itse olen tullut höpiseeksi japanin
>
> Suomea. En osaa ääntää kaikkia valtakielten sanoja ilman ääntämisohjeita,
> siksi kyselen niitä ajoittain muilta.

Ja muut haluaisivat kaivaa merkistöohjelmat esiin ja rakennella
foneettisista merkeistä taideteoksen? Kyllä näitäkin tyyppejä on,
mutta aika hemmetin harvassa. Kuten sanottu, silloinhan sitä UTF-8:aa
voisi käyttää. Ei oletusarvoisesti joka puolella.

> Tässä kohtaa tarvitaan sitä tietokantaa, kun pitää tutkia että olisiko
> saatu UCS-koodi itse asiassa combining char, eikä yksittäinen merkki. Jos
> näin on niin pitää tutkia millaista kombinaatiota ollaan tekemässä ja
> sitten toimia sen mukaan. Sitä että miten tämä oikeasti on

Eikö ihan sama ongelma ole edessä kaiken tekstin renderöinnissäkin? Ja
nopeasti tuntuvat renderöityvän isotkin tekstimäärät hitaammallakin
koneella. Eli kai tähän on jokin fiksukin ratkaisu. En enempää
yritä arvailla, kun en minäkään Unicode-kirjastojen toimintaa tunne.

>>Jotta joka ainoa joutuu säätämään. Puhut ristiin. Sitä paitsi sinä
>
> Ei joudu. Shelleissä on suoraan asennettu asiaa tukevat clientit.

Jaa on vai? En minä ole kuullut mistään mystisestä jutusta nimeltä
shell joka päivittyy automaattisesti. Jonkunhan ne softat täytyy
asentaa. Näitä "shellejä" (joilla tarkoittanet joitain
Unix-/Linux-palvelimia, joita saa käyttää irssin screenissä
pyörittämiseen) on tsiljardi kappaletta. Sitä paitsi suurin osa irkkaa
ihan graafisella ohjelmalla, yleensä vielä mIRCillä...

> Monissa
> clienteissä on defaulttina UTF-8. Webchat¹ defaultoi UTF-8:lle.

Webchat ei niin ikään ole mikään yksittäinen palvelu, kuten ei
shellikään. Webchateja on todella monia, joista jokin muistaakseni
todella suolsi UTF-8:aa ulos. (Sekään ei VÄLTTÄMÄTTÄ ole ko. webchatin
tekijöiden tietoinen valinta, vaan asetus saattaa välittyä ties mitä
kautta. Esim. ko. serverille päivitetty uusi käyttöjärjestelmä, jossa
eri oletusmerkistö, eivätkä ylläpitäjät ole säätäneet sitä webirkkiään.
En arvaile enempää kun en tiedä.)

> Jokainen
> mIRC-käyttäjä (ja heitähän IRC:n käyttäjistä on edelleen ylivoimainen
> enemmistö, luokkaa 90 %) kyllä joutuu säätämään, mutta sille nyt vaan ei
> voi mitään.

Voipas: ei tehdä mitään väkisinsiirtymistä vaan hoidetaan asian kuten
asiat on tapana hoitaa - käytetyn standardin yhteydessä ilmoitetaan,
mitä standardia on käytetty. Eli merkistötieto IRC:hen. Tai toinen
vaihtoehto: jos ei pystytä siirtymään, ei sitten siirrytä ollenkaan
ja sotketa nyt toimivaa järjestelmää. Mutta tämä on taas saman
vanhan asian jankkausta eikä muutu mihinkään.

> Älä viitsi ajatella noin suppeissa kuvioissa. Virolaisilla on omat
> näkemyksensä siitä minkä merkkien täytyy olla taaksepäin yhteensopivia.
> Venäläisillä omansa. No, etköhän saanut ideasta kiinni.

Ja siksi muunnosjärjestelmään täytyisi koodatakin tuki muillekin
kielille kuin suomelle.

> Tämähän tosin on aivan selvää sinulle ja siksi ehdotatkin
> asian hoitamista serveripuolella.

Juurikin näin. Hyvä että edes joku tajuaa :).

> Pidän tätä asiaa loppuun käsiteltynä nyt esillä olleiden pointtien osalta

Kiitos samoin.

--
Antti Alhonen.

Jukka K. Korpela

unread,

Dec 20, 2005, 10:17:36 AM12/20/05

Aslak Sundberg <aslak.s...@grund.se> wrote:

>>Varmaankin. Mutta kuten on useaan kertaan UTF-8-ketjuissa todettu,
>>todellinen tarve ISO-8859-1:n ulkopuolisten merkkien käyttöön on
>>huomattavan pieni niistä aiheutuviin ongelmiin verrattuna.
>
> Po. _minun_mielestäni_ todellinen tarve....

Puhu sinä vain omista mielipiteistäsi.

> Sillä utf8:n asiaa edistävien tahojen näkemys on varmasti
> erilainen joten ei sinunkaan kannata esittää
> henkilökohtaisia mielipiteitäsi minään yleisenä totuutena.

Tosiasiat eivät muutu pelkiksi mielipiteiksi mielipiteiksi sillä, että joku
esittää mielipiteen, että ne ovat pelkkiä mielipiteitä.

Minä nimittäin oikeasti tiedän, mitä UTF-8 ja ISO-8859-1 ovat ja missä niitä
tarvitaan ja voi käyttää. En lakkaa hämmästelemästä sitä, miten vähän ihmiset
yleisesti tuntevat näitä asioita - ja miten vähän tämä estää heitä
muodostamasta ja julistamasta mielipiteitään.

>>hierarkiassa on omat sääntönsä siitä, mitä sopii käyttää. Sfnetissä
>>ISO-8859-1 jne.)
>
> Po. hierarkiassa on omat _suosituksensa_ siitä, mitä sopii
> käyttää. Sfnetissä

Säännöt eivät muutu miksikään siitä, että haluat kutsua niitä suosituksiksi.

> Kun sinun sanoistasi ei tuo susitus miksikään säännöski
> muutu.

Mitähän sekoilet? Sepustelusi taso on selinmäinen, ja crosspostasit
vastauksesi asiattomasti, vaikka jatkot oli asetettu oikeaan ryhmään.
Väität osoitettasi .se-loppuiseksi mutta postaat suomalaisen palvelimen
kautta; tämä on toki mahdollinen yhdistelmä, mutta yhdessä muiden oireiden
kanssa, ja ottaen huomioon ettet ole aiemmin kirjoittanut sfnetiin mitään
ainakaan tuolla nimellä, näytät vahvasti selin-trollilta.

(Jatkot uudestaan korjattu oikeaan ryhmään.)

Tämän tietysti mainitsen vain siltä varalta, että et olisikaan selin-trolli
vaan vain kokematon ja osaamaton sfnetin käytössä. Jälkimmäisessä tapauksessa
sinun kannattaisi opiskella sfnetin käytön alkeita ennen enempää
kirjoittelua.

--
Yucca, http://www.cs.tut.fi/~jkorpela/

Aslak Sundberg

unread,

Dec 20, 2005, 11:21:49 AM12/20/05

Leo Hirvonen

unread,

Dec 20, 2005, 11:25:27 AM12/20/05

"Jukka K. Korpela" <jkor...@cs.tut.fi> wrote:

>Aslak Sundberg <aslak.s...@grund.se> wrote:
>
>>>Varmaankin. Mutta kuten on useaan kertaan UTF-8-ketjuissa todettu,
>>>todellinen tarve ISO-8859-1:n ulkopuolisten merkkien käyttöön on
>>>huomattavan pieni niistä aiheutuviin ongelmiin verrattuna.
>>
>> Po. _minun_mielestäni_ todellinen tarve....
>
>Puhu sinä vain omista mielipiteistäsi.

Niin teen. Ja tee sinäkin.

>Tosiasiat eivät muutu pelkiksi mielipiteiksi sillä, että joku

>esittää mielipiteen, että ne ovat pelkkiä mielipiteitä.

Millä sinut saisi tuon tajuamaan. Etenkin sen puolen, että
sinun mielipiteesi eivät muutu tosiasioiksi vaikka kuinka
koetat ne sellaisina esittää. Tai esiintyä jonkilaisena
"asiantuntijana".

>Minä nimittäin oikeasti tiedän, mitä UTF-8 ja ISO-8859-1 ovat ja missä niitä

po _luulet_ tietäväsi. Mitä nyt esimekiksi tiedät minun
tarpeistani? Tai kenenkään muun kuin omista tarpeistasi.
Luulla kyllä saatat yhtä sun toista.

>> Po. hierarkiassa on omat _suosituksensa_ siitä, mitä sopii
>> käyttää. Sfnetissä
>
>Säännöt eivät muutu miksikään siitä, että haluat kutsua niitä suosituksiksi.

Eivätkä suosituksen säännöiksi sillä että sinä toivoisit
niin olevan.

Timo Halen

unread,

Dec 29, 2005, 11:48:47 PM12/29/05

Lasse Kärkkäinen / Tronic wrote:

> IRC-clienteissä on tukea
> UTF-8:lle ollut jo vuosikaudet, mutta tämä UTF-8:n autodetectointi, joka
> sallii pehmeämmän siirtymän, on uudempi ominaisuus (Irssissä vasta pari
> vuotta, mIRCille puoli vuotta - ajat muistinvaraisina arvioina, eli hihasta).

Ja irssin ensimmäinen stable versio jossa kyseinen ominaisuus on
tottelee numeroa 0.8.10 julkaistiin joulukuun 11 päivä. mIRCiin se on
saatavilla karkkipurkkascriptillä, eli vaatii epämääräisen scriptin
hakua jostain ja moisen asentelua.

Sami Kuhmonen

unread,

Jan 10, 2006, 11:25:08 PM1/10/06

Antti Alhonen wrote:
> Suomen Huippu wrote:
>
>> Ei kyllä ä- ja ö-kirjaimiakaan välttämättä TARVITSE käyttää. Kyllähän
>> aika
>> hyvin saa tekstistä selvää, vaikka ne puuttuisikin. Ihan humpuukia
>> tuollaiset erikoismerkit.
>
> Mitään ideaa osallistua keskusteluun trollaamalla, jos ei tajua yhtään,
> mistä on puhuttu?
>
> Tiedoksi, että tällä hetkellä ä ja ö toimivat irkissä täysin
> moitteettomasti. Mutta ethän voi tietää, jos et ole irkissä käynyt. Nyt
> tiedät senkin.

Ai toimivat vai? Niin jos käytetään sopivaa merkistöä, kuten useampi on
maininnut. Jostain syystä eivät toimi monella eri merkistöä käyttävällä.

Ja jostain syystä minä käytän mieluummin muita kommunikaatiovälineitä
kommunikointiin muutaman ystäväni kanssa, satumme nääs kirjoittelemaan
sekä venäjää, sloveniaa, eestiä, ruotsia, englantia että suomea ja
jostain syystä tämä kovasti hehkuttamasi (kai sitten jotenkin
taikaiskusta näiden kahden välillä vaihtuva?) ISO-8859-1(5) ei oikein
tähän riitä. Tai sitten olen tyhmä ja kerrot miten tällä esitetään
kaikki tarvitsemani merkit?

Se, että suurin osa ei tarvitse UTF-8:a ei tarkoita että se olisi turha.
Kyllä itsekin olen sitä mieltä, että suurimmassa osassa tapauksia se on
turha ja ne jotka päättivät tunkea Linux-distrot "unicode-aikaan" vain
vaihtamalla koodaustavan ja korjaamatta softia ovat idiootteja. Olisihan
se silti kivaa päästä irkissäkin jo viime vuosituhannelle, vaikka siihen
tuskin päästään tällä vuosikymmenellä selvästikään.

Ihmetyttää vain miksi hyökkäät noin vahvasti tätä asiaa vastaan, muilla
ei näytä noin kauheita antipatioita olevan yhtä merkistöä kohtaan...

--
Sami Kuhmonen

Antti Alhonen

unread,

Jan 15, 2006, 4:21:10 PM1/15/06

Sami Kuhmonen wrote:
> kommunikointiin muutaman ystäväni kanssa, satumme nääs kirjoittelemaan
> sekä venäjää, sloveniaa, eestiä, ruotsia, englantia että suomea ja

Mikäänhän ei estä teitä käyttämästä UTF-8-merkistökoodausta. Mitä
ilmeisemmin käytette jotain nykyaikaista IRC-ohjelmaa, jossa on UTF-8-
tuki. Näissä ohjelmissa lienee yleensä myös mahdollisuus valita
merkistöt kanavakohtaisesti. Kun sovitte kanavallenne yhteiseksi
merkistökoodaukseksi UTF-8:n, kaikki on hyvin eikä teidän tarvitse
rikkoa koko muuta IRC:tä.

> Se, että suurin osa ei tarvitse UTF-8:a ei tarkoita että se olisi turha.

Hyvä havainto. Turhaan täällä sitä meuhkaat, koska kukaan ei täällä
olekaan väittänyt UTF-8:n olevan turha.

> turha ja ne jotka päättivät tunkea Linux-distrot "unicode-aikaan" vain
> vaihtamalla koodaustavan ja korjaamatta softia ovat idiootteja.

Ja UTF-8:n suoltaminen _yleisesti_ IRC:hen tajuamatta, mitä siitä
seuraa, kuuluu tähän kategoriaan. Se osoittaa myös aikamoista
suhteellisuudentajuttomuutta.

> Ihmetyttää vain miksi hyökkäät noin vahvasti tätä asiaa vastaan, muilla

En hyökkää itse merkistökoodausta enkä Unicodea vastaan (UTF-8 on mainio
esimerkiksi www-sivuilla), hermostuttaa vain tahallinen häiriköinti eli
UTF-8-sotkun suoltaminen IRC-kanavilla, joilla ilman muuta suurimmalla
osalla irkkaajista nämä merkit eivät oikein näy, ilman todellista
tarvetta.

http://hrst.serveftp.net/kirjoituksia/unicode-irc.html - tässä vielä
hianossa HTML-muodossa joitakin pointtejani, joita täällä hieman
aikaisemmin sivusinkin.

--
Antti Alhonen.

0 new messages