Google Groups no longer supports new Usenet posts or subscriptions. Historical content remains viewable.
Dismiss

Tekstiviestit ja "unicode"

297 views
Skip to first unread message

Baggie

unread,
Nov 4, 2006, 6:00:35 AM11/4/06
to
Tämön päivän Hesarissa oli sivulla B9 omituinen
tarina siitä, että esim. espanjaksi kirjoitettujen
tekstiviestien kirjainmäärät kaksinkertaistuvat
aksenttimerkkien takia.

Jutussa väitettiin että tekstiviestistandardi on
sellainen, että merkistä käytössä on vain seitsemän
bittiä ja jos käyttää sellaista merkkiä, joka ei mahdu
128 merkin joukkoon, koko merkistö muutetaan 16-bittiseksi
(itse asiassa kai 14-bittiseksi). Tämän seurauksena
tekstiviestin maksimikoko putoaa 80 merkkiin.

Kiinalaisilla tekstiviesti on aina vain max 80 merkkiä,
koska kiinalaisten kirjoitusmerkkien koodit eivät mahdu
edes kahdeksaan bittiin, mahtaneeko mahtua 14 bittiinkään.
Kiinan kielen kohdalla asia on selvä.

Kummallista jutussa oli se, että viestin kahdentuminen
tapahtuu espanjalaisten ń ja ó ja į -merkeillä, sekä
vain tietyillä kännyköillä (esim. Nokian 1100 ja 2600).
Hesarin jutussa ilmiön oli huomannut joku Espanjassa
asuva suomalainen, jonka tekstiviestilasku oli ollut
yllättävän iso, Espanjassa tekstiviestit kun maksavat
70 centtiä ja suuri osa niistä oli lähtenyt kahdessa
osassa eli hintaa oli kertynyt 1,4 euroa per viesti.

Kokeilin omalla Nokian 6103:llani eikä siinä merkkien
kaksinkertaistumista aiheuttanut muut kuin islantilaisten
poikkiviivallinen D-kirjain, virolainen Õ -kirjainkin
tuotti vain 7-bittiä.

Lehdessä spekuloitiin, että jotkut puhelimet muuttavat
aksentilliset merkit aksentittomiksi silloin, kun viestin
pituus ylittää 70 merkkiä. Tällöin vastaanottaja ei näe
aksenttimerkkejä, vaikka kirjoittaja luulee niitä
käyttäneensä.

Minusta juttu oli hyvin kummallinen. 128 merkkiä riittää
aika pitkälle, sillä perus-ASCII-merkistö vaatii vain
96 merkkiä ja tekstiviesteissä ASCIIn kontrollikoodeille
varatut 32 merkkiä voidaan aivan hyvin käyttää ääkkösten
ja aksentillisten merkkien esittämiseen.

Hieman myös ihmetyttää, ettei tekstiviestistandardissa
ole escape-merkkiä, jolla voitaisiin yksittäiset
erikoismerkit koodata kahdella 7-bitin merkillä. Eli
yksikin standardimerkistöön kuulumaton merkki kahdentaa
tekstiviestin merkkimäärän.

Tietääkö joku, mikä on totuus eli miten aksentilliset
merkit koodataan tekstiviesteissä? Miten esim. tsekin-,
puolan- tai unkarinkieliset tekstiviestit koodataan ja
mikä on niiden maksimipituus (merkkiä/viesti) ? Entä
venäjä?
--
Baggie

"Tarpeeksi korkea tietämättömyyden taso saa kaiken teknologian
näyttämään taikuudelta." - Wakboth, 19.4.2006

pic

unread,
Nov 4, 2006, 6:26:20 AM11/4/06
to
Baggie kirjoitti:

> Tämön päivän Hesarissa oli sivulla B9 omituinen
> tarina siitä, että esim. espanjaksi kirjoitettujen
> tekstiviestien kirjainmäärät kaksinkertaistuvat
> aksenttimerkkien takia.
>
> Jutussa väitettiin että tekstiviestistandardi on
> sellainen, että merkistä käytössä on vain seitsemän
> bittiä ja jos käyttää sellaista merkkiä, joka ei mahdu
> 128 merkin joukkoon, koko merkistö muutetaan 16-bittiseksi
> (itse asiassa kai 14-bittiseksi). Tämän seurauksena
> tekstiviestin maksimikoko putoaa 80 merkkiin.
>
> Kiinalaisilla tekstiviesti on aina vain max 80 merkkiä,
> koska kiinalaisten kirjoitusmerkkien koodit eivät mahdu
> edes kahdeksaan bittiin, mahtaneeko mahtua 14 bittiinkään.
> Kiinan kielen kohdalla asia on selvä.
>
> Kummallista jutussa oli se, että viestin kahdentuminen
> tapahtuu espanjalaisten ñ ja ó ja á -merkeillä, sekä

Ainakin € merkki vie tilaa joissakin Nokialaisissa enemmän kuin yhden
merkin.

Helppohan tuo on kokeilla, € merkkiä käytettyäni ja viestiä
lähettäessäni, puhelin ilmoitti että "viesti ei mahdu yhteen viestiin".
Tämä silloin, kun olin laittanut täydet 160 merkkiä ja yksi niistä
merkeistä oli juuri €.

Puhelinhan ilmoittaa muutenkin että "viesti lähetetään useammassa
osassa", ainakin Nokialaisissa. Siitä vain kokeilemaan, missä raja tulee
vastaan. Rahaa ei kulu, koska viestiä ei tuossa vaiheessa vielä lähetetä.

Baggie

unread,
Nov 4, 2006, 7:35:20 AM11/4/06
to
Sat, 04 Nov 2006 13:26:20 +0200, pic kirjutas:

>Ainakin € merkki vie tilaa joissakin Nokialaisissa
>enemmän kuin yhden merkin.

Kappas vaan, niinpä tekee minullakin, 6103:ssa.
Mutta euron merkki ei tee kaikista viestin merkeistä
kaksitavuisia kuten islantilainen D -kirjain. Eli
siis escape-merkki on käytössä. Mitkä merkit ovat
escape-koodattuja ja mitkä laukaisevat koko viestin
kahdentumisen?

Mistähän löytäisi SMS:n merkkien koodausstandardin?
URL?
--
Baggie

"Ymmärtäväisellä on viisaus kasvojensa edessä,
mutta tyhmän silmät kiertävät maailman rantaa"

Asko Ikävalko

unread,
Nov 4, 2006, 10:32:47 AM11/4/06
to
Baggie wrote:
> Jutussa väitettiin että tekstiviestistandardi on
> sellainen, että merkistä käytössä on vain seitsemän
> bittiä ja jos käyttää sellaista merkkiä, joka ei mahdu
> 128 merkin joukkoon, koko merkistö muutetaan 16-bittiseksi
> (itse asiassa kai 14-bittiseksi). Tämän seurauksena
> tekstiviestin maksimikoko putoaa 80 merkkiin.

Kyllä mun puhelin on aina lähettänyt 160 merkin pituisia SMS-viestejä,
vaikka seassa olisi skandejakin. Ainakaan standardin mukaisesta 7 bit
ASCII-taulukosta ei löydy skandeja, joten tuon teoriasi mukaan kaikki
skandeja sisältävät viestit pitäisi olla 80 merkkiin rajoitettuja?

-Asko

Tatu Nieminen

unread,
Nov 4, 2006, 10:56:06 AM11/4/06
to
Baggie wrote:
> Tämön päivän Hesarissa oli sivulla B9 omituinen
> tarina siitä, että esim. espanjaksi kirjoitettujen
> tekstiviestien kirjainmäärät kaksinkertaistuvat
> aksenttimerkkien takia.
>
> Jutussa väitettiin että tekstiviestistandardi on
> sellainen, että merkistä käytössä on vain seitsemän
> bittiä ja jos käyttää sellaista merkkiä, joka ei mahdu
> 128 merkin joukkoon, koko merkistö muutetaan 16-bittiseksi
> (itse asiassa kai 14-bittiseksi). Tämän seurauksena
> tekstiviestin maksimikoko putoaa 80 merkkiin.
>

standardin mukainen 7-bittinen merkkiavaruus on luultavasti tässä
http://www.dreamfabric.com/sms/default_alphabet.html

Tekstiviesti on 160 merkkiä 7-bittisiä merkkejä, 140 tavua. Eli kun merkistö
laajenee 16 bittisiin on jäljellä 70 merkkiä.

http://www.dreamfabric.com/sms/

--
------ ex falso sequitur quodlibet -------
-- epätodesta voi päätellä mitä tahansa --
Tatu Nieminen niemin...@hotmail.com

Baggie

unread,
Nov 4, 2006, 1:08:43 PM11/4/06
to
Sat, 4 Nov 2006 17:56:06 +0200, "Tatu Nieminen" kirjutas:

>standardin mukainen 7-bittinen merkkiavaruus on luultavasti tässä
>http://www.dreamfabric.com/sms/default_alphabet.html
>
>Tekstiviesti on 160 merkkiä 7-bittisiä merkkejä, 140 tavua. Eli kun merkistö
>laajenee 16 bittisiin on jäljellä 70 merkkiä.
>
>http://www.dreamfabric.com/sms/

Jokin tässä nyt mättää edelleen, sillä noista ei löytynyt euron
merkkiä joka 6103:sta löytyy (syö kaksi 7-bittistä) eikä ó:ta
eikä ú:ta, jotka molemmat ovat espanjan kirjaimia ja löytyvät
myös 6103 syöden vain 7 bittiä. Tsekin hattupääkirjaimet puuttuvat
kokonaan. Sen sijaan escape-merkki löytyy, muttei mitään selitystä
mitä sen takaa. Kreikan kirjaimet standarditaulukossa vaikuttavat
melko hassuilta, kun ei niitä puhelimestani löydy. Luulisi, että
tekstiviestien merkkisetti olisi valittavissa kielen mukaan, eli
kreikkalaiset merkit käyttöön vain jos kirjoittaa kreikkaa.

Luulisin, että standardia on laajennettu tuon webbisivun jälkeen.
Mikähän standardinumero Nokialla on käytössä ja miksi islannin
D-kirjain puuttuu koodisivun laajennuksesta, vaikka islanti
löytyy puhelimeni T9-tekstinsyöttökielistä? Islantilaiset ei
varmaan tykkää, jos joutuvat kirjoittamaan vain 70-merkkisiä
SMS-viestejä.

Me

unread,
Nov 4, 2006, 1:55:07 PM11/4/06
to
"Baggie" <mka...@pp.inet.fish.invalid> wrote in message
news:0ejpk2lv1ra07m62p...@4ax.com...

Ei kai se 7-bitin merkistö juuri tuosta www-referenssistä ole muuttunut,
uudempi versio löytyy kyllä 23.038:sta:
http://www.3gpp.org/ftp/Specs/latest/Rel-7/23_series/

Veikkaan että noihin ó & ú -merkkeihin selitys on se että ne syövät vain 7
bittiä kun ne lähetetään o & u -merkkeinä. Sinänsä hämäävää UI:lta että
merkit voi kirjoittaa viestiin tuossa esittämässäsi muodossa eikä puhelin
kerro mitään siitä että ne lähtevätkin "yksinkertaistettuna". En pysty
testaamaan 6103:lla mutta toisella Nokialaisella ainakin noin.

En ymmärtänyt sitä escape-ongelmaa. Itse löysin tuosta merkistöstä
euro-merkin (sehän on lisätty SMS-merkistöön jälkikäteen eivätkä kaikki
vanhimmat puhelimet sitä tunnista). Eli euro-merkki esimerkkinä syntyy
escape merkillä "1B" ja perään "65" (hex).


Ari Wuolle

unread,
Nov 4, 2006, 1:56:31 PM11/4/06
to
Baggie <mka...@pp.inet.fish.invalid> writes:

> Sen sijaan escape-merkki löytyy, muttei mitään selitystä
> mitä sen takaa.

Kyllähän tuossa taulukossa on esitelty kymmenen erilaista
escape-yhdistelmällä saatavaa merkkiä. Esim. euro onnistuu
tekstiviesteissä yhdistelmällä Esc e.

http://www.dreamfabric.com/sms/default_alphabet.html

> Kreikan kirjaimet standarditaulukossa vaikuttavat melko hassuilta,
> kun ei niitä puhelimestani löydy.

Niin, ei löydy näppäimistöstä, mutta puhelimen fontista kyllä. Jo
ammoisina aikoina tuli läheteltyä Siemens S4:lla kreikkalaisia
aakkosia Nokia 2110 ja 2010 puhelimiin. Näkyivät siellä aivan hyvin.

Huomaa että GSM-merkistössä on ainoastaan isot kreikkalaiset
aakkoset. Jos haluaa kirjoittaa kreikkaa myös pienillä aakkosilla,
puhelin vaihtaa Unicodelle (eli 70 merkkiä/viesti).

Ari Wuolle

Baggie

unread,
Nov 4, 2006, 4:24:02 PM11/4/06
to
04 Nov 2006 20:56:31 +0200, Ari Wuolle kirjutas:

>Kyllähän tuossa taulukossa on esitelty kymmenen erilaista
>escape-yhdistelmällä saatavaa merkkiä. Esim. euro onnistuu
>tekstiviesteissä yhdistelmällä Esc e.

Jep näin on, huomasin nuo escape-merkit sekunnin kuluttua
send-napin painamisesta.

Edelleen ihmetyttää se, että voin kirjoittaa Hugo Chávez
tai Juan Perón ilman merkkien kahdentumista, vaikka acute-a
ja acute-o puuttuvat merkistöstä. Ja tietysti surettaa
islantilaisten puolesta, kun heillä näyttäisi olevan
mahdollisuus vain 70 merkin sanomiin.
--
Baggie

Aserejé, ja deje tejebe tude jebere sebiunouba
majabi an de bugui an de buididipí /Las Ketchup/

Me

unread,
Nov 5, 2006, 3:02:39 AM11/5/06
to
"Baggie" <mka...@pp.inet.fish.invalid> wrote in message
news:7bppk2ts7rqdtbu8u...@4ax.com...

> 04 Nov 2006 20:56:31 +0200, Ari Wuolle kirjutas:
>
>>Kyllähän tuossa taulukossa on esitelty kymmenen erilaista
>>escape-yhdistelmällä saatavaa merkkiä. Esim. euro onnistuu
>>tekstiviesteissä yhdistelmällä Esc e.
>
> Jep näin on, huomasin nuo escape-merkit sekunnin kuluttua
> send-napin painamisesta.
>
> Edelleen ihmetyttää se, että voin kirjoittaa Hugo Chįvez

> tai Juan Perón ilman merkkien kahdentumista, vaikka acute-a
> ja acute-o puuttuvat merkistöstä. Ja tietysti surettaa
> islantilaisten puolesta, kun heillä näyttäisi olevan
> mahdollisuus vain 70 merkin sanomiin.
> --
> Baggie
>
> Aserejé, ja deje tejebe tude jebere sebiunouba
> majabi an de bugui an de buididipķ /Las Ketchup/
>
Tuossa kyllä ehdotin ratkaisua mysteeriisi Arin postausta aiemmin.

Sen Islannin merkistön takia kuitenkin lähdin uudelleen kirjoittelemaan. Se
alkuperäinen SMS-merkistö on kyllä suunniteltu "eurooppalaisille kielille"
sillä ajatuksella että GSM otettaisiin niinkin laajalti käyttöön. Ja tässä
kohtaa ei tarkoitettu juuri muuta kuin läntisiä Euroopan maita. Islantia
insinöörien olisi kyllä luullut ajattelevan, olihan Islanti NMT:ssä mukana
ja varma GSM:n käyttöönottaja.

En lähtenyt speksiä kahlaamaan mutta standardi vaikuttaisi tunnistavan
"alkuperäisinä" kielinä seuraavat:


Bits 3..0 indicate the language:


0000 German


0001 English


0010 Italian


0011 French


0100 Spanish


0101 Dutch


0110 Swedish


0111 Danish


1000 Portuguese


1001 Finnish


1010 Norwegian


1011 Greek


1100 Turkish


1101 Hungarian

1110 Polish


1111 Language unspecified

Vasta (oletettavasti, ekspertit kertokoot tarkemmin) myöhemmässä
laajennuksessa on Islanti mukana:
0000 Czech

0001 Hebrew

0010 Arabic

0011 Russian

0100 Icelandic

0101..1111 Reserved for other languages using the GSM 7 bit
default alphabet, with unspecified handling at the MS

Oletettavasti tässä vaiheessa Islanninkin erikoismerkit on katsottu hoituvan
Unicodella, jos eivät perusmerkistöllä pärjäile.

Osaat kielen taitajana varmaan kommentoida kuinka oleellisia nuo 7-bitin
merkistöstä puuttuvat islantilaiskirjaimet ovat ymmärrettävän viestin
kirjoittamisen kannalta? Eihän muidenkaan kielien kaikkia erikoismerkkejä
ole 7-bitin merkistöön millään saatu mahtumaan, kyllä tuossa on tarvinnut
lähteä siitä että eksoottisia merkkejä ei oteta mukaan jos kieltä pystyy
ymmärrettävästi kirjoittamaan/lukemaan perusmerkistöllä.

Nuo escape merkit eivät ole olleet mukana alusta asti. Siinä esimerkkinä
Saksan kaksois-s, saksalainen osaa kyllä lukea sanan jos erikoismerkki "on
avattu" kahdeksi s-kirjaimeksi. Myöhemmin se on kuitenkin tuotu mukaan
samoin kuin muutama mm. tanskalaisten käyttämä erikoismerkki. Islannin
painoarvo ei varmaan ole ihan samaa luokkaa kuin Saksan, kuulisin silti
mielelläni kieliasiantuntijan kommentteja tuohon perusmerkistön sopivuuteen
islantilaisille.


Olli

unread,
Nov 5, 2006, 3:02:03 AM11/5/06
to
pic wrote:

> Puhelinhan ilmoittaa muutenkin että "viesti lähetetään useammassa
> osassa", ainakin Nokialaisissa. Siitä vain kokeilemaan, missä raja
> tulee vastaan. Rahaa ei kulu, koska viestiä ei tuossa vaiheessa vielä
> lähetetä.

Ongelma ei suinkaan aina ole se, että lähettäisi moniosaisen viestin
tietämättään. Kun esime. 6630:n bluetooth-näppiksellä kirjoittaa 2-3 viestin
pituisen tarinan, se voikin olla laskutuspituudeltaan 5-6 viestiä. Lähettäjä
kyllä tietää pituuden, mutta näiden erikoismerkkien paikallistaminen on yhtä
tuskaa. Ne eivät näy mitenkään, joten aika joka näppiksellä säästettiin
tuhrautuu huonolla tuurilla muutamaankin kertaan näiden erikoismerkkien
paikallistamiseen ja poistamiseen. Niitä nimittäin lähtee näppikseltä
todella helposti.

Olli


Me

unread,
Nov 5, 2006, 5:35:36 AM11/5/06
to
"Olli" <orko...@nic.fi> wrote in message
news:1Ug3h.45597$mX5....@reader1.news.jippii.net...

Ongelmahan on se että muut merkit eivät tyypillisesti näytä käyttäjälle
ollenkaan monenako viestinä kirjoitettu SMS lähtee.

Jos kirjoitat 2-3 viestin mittaisen tarinan niin se lähtee 2-3 viestin
mittaisena. Tarkoitat varmaan että jos kirjoittaa 2-3 * 160 merkkiä, voi
tämä tarina vaatiakin vaikka 6 erillistä SMS viestiä.

Kyllä ne erikoismerkit aika selkeitä on tunnistaa ja helppo oppia sen joka
noita joutuu paljon käyttämään. Helpointa ehkä oppia niin että vähän
erikoisemman merkin kirjoittaessaan katsoo paljonko se merkki/viestilaskuri
muuttuu (siis esim. 6630:ssa jossa sen välittömästi näkee ruudulta).
Helpompi tuossa kohtaa keksiä mikä on erikoismerkki ja mikä ei kuin se että
niitä lähtee jälkikäteen yksittäin kokeilemaan.

Toisaalta kovin oleellista ei ole tunnistaa mitkä merkit kuuluvat siihen
escape-laajennukseen kun nuo kuitenkin kuluttavat vain kahden 7-bittisen
merkin tilan. Oleellista on huomata milloin siirrytään unicodeen jonka
jälkeen kaikki merkit vievät 16 bittiä.

Jos on tällä tarkkuudella kiinnostunut aiheesta ja kirjoittelee noita
erikoismerkillisiä (en välttämättä tarkoita erityisen merkillisiä ;-)
viestejä niin kannattaisi tutustua siihen SMS merkistöön joka tämänkin
threadin linkistä löytyi.


Ari Wuolle

unread,
Nov 5, 2006, 5:52:36 AM11/5/06
to
Baggie <mka...@pp.inet.fish.invalid> writes:

> Edelleen ihmetyttää se, että voin kirjoittaa Hugo Chávez
> tai Juan Perón ilman merkkien kahdentumista, vaikka acute-a

Oletko kokeillut lähettää viestin eteenpäin?

Puhelin saattaa riisua aksentit lennosta. Asetin E70:n suppeaan
merkistöön ja lähetin yllämainitut nimet 6310:aan. Siellä ne näkyvät
muodossa Hugo Chavez ja Juan Peron, eikä edes datakaapelilla viestiä
luettaessa välistä löytynyt esim. Esc-merkkejä.

Kaikista hämäävintä on että lähetetetyt-kansioon E70 tallentaa viestin
kirjoitetussa, ei lähetetyssä muodossa. 6310 toimii taas niin että jos
kirjotan áó niin ne muunnetaan jo viestiä tallennettaessa ao:ksi.

Laajalla merkistöllä E70 lähetti viestin Unicodella - ja yllättäen
6310 vanhus osaa näyttää viestin, vaikka sillä ei pystykään
lähettämään Unicode-viestejä!

Ari Wuolle

Jarkko Setälä

unread,
Nov 5, 2006, 6:37:07 AM11/5/06
to
On Sun, 05 Nov 2006 08:02:39 GMT, "Me" <n...@net.org> wrote in message
<zUg3h.42198$_k2.7...@news2.nokia.com>

>...painoarvo ei varmaan ole ihan samaa luokkaa kuin Saksan, kuulisin silti

>mielelläni kieliasiantuntijan kommentteja tuohon perusmerkistön sopivuuteen
>islantilaisille.

Vain ns. eth ja Thon -konsonantit tuottavat islannissa ongelmia. Edh
täällä jo mainittiinkin, että jopa omalla 6670:llani se tipauttaa
viestin 70merkkiseksi jo yhden edhin jälkeen.

Sen sijaan muut erikoismerkit tehdään lyömällä niihin akuuttiaksentit,
eli á (au) oó (ou´) ú (suomen u-äännettä vastaava, tavallinen u vastaa
lähinnä ruotsin u-äännettä), í (etisempi i, tavallinen i tarkoittaa
vähän taaempana ääntyvää i-äännettä), ý (ääntyy i-äänteenä, sama
sääntö kuin i-kirjainten kanssa). Sen sijaan ns. ai-vokaalimerkistä en
ole varma, kun olen tehnyt islantia vain pistekirjoituksella, että
käyttävätkö jopa samaa merkkiä kuin meidän ä. Myös thonille saattaa
olla yleisesti hyväksytty kirjainyhdistelmä, jolla se korvataan,
(samaan tapaan, kuin saksan kaksois-s korvataan kahdella ässällä).

Yritin tavoitella yhtä islantilaista kaveriani, mutta enpä saanut
kiinni vielä, joten nuo kaksi konsonanttia sekä ai jäävät nyt vähän
pimentoon, mutta jatkan, kunhan saan valmiiksi tiedusteluni, samaten,
kuin sen, että mitkä ovat islantilaisten tekstarikäytännöt, kun niiden
merkistö kerta tuollainen vähän hankala on.

Ja mitä merkkien näkymiseen tulee, testailimme juuri tuon
islantilaiskaverini kanssa hänen nimellään jossa on ú keskellä, että
mitä minulle tapahtuu lähettäjänä, ja näkyvätkö puhelimissa OK.
6670:sta lähti yhtenä viestinä, ja sekä hänen jossain
yksinkertaisemmassa puhelimessa ja suomalaismiehensä uudemmassa
nokialaisessa merkit näkyivät oikein, eli ei tapahtunut sitä
aksenttien poisheittämistä, mistä täälläkin puhuttiin.

Eli näin!

---Jacke---

>

Me

unread,
Nov 5, 2006, 8:51:10 AM11/5/06
to
"Jarkko Setälä" <jar...@eiroskaa.setala.fi> wrote in message
news:t6irk2tcik2fc4of6...@4ax.com...

Tässä on vielä jotain hämärää. Ymmärrän kyllä että perusmerkistöön
kuulumaton ú lähtee oikein ja näkyy oikein vastaanottajalla mutta vain jos
viesti on lähetetty unicodena. Eli oletko oikeasti sitä mieltä että se ú oli
yksiosaisessa viestissä jossa oli lähemmäs 160 merkkiä? Ettei vain viestissä
ollut joku muu erikoismerkki joka sai puhelimen käyttämään unicodea, silloin
vaan yhtenä SMS-viestinä ei tekstiä olisi mahtunut noin paljoa, yksi lyhyt
viesti silti tietenkin olisi voinut mennä yhtenä SMS-viestinä.

Tuo perusmerkistö sisältääkin joukon meille eksoottisia kirjaimia,
esimerkiksi se u toisensuuntaisella häkkyrällä: ù

Tuota standardia tankkaamalla en ainakaan itse keksi miten joku Nokialainen
voisi lähettää 7-bitin perusmerkistön ulkopuolisen (extension merkit
kuuluvat perusmerkistöön) merkin käyttämättä unicodea. Jos joku osaa laittaa
hyvän teknisen selityksen tähän niin sitten varmaan uskon.

Testailin vielä omalla Nokiallani, jos lähetän viestin jossa on tuo ú-merkki
ja muutama samannäköinen niin viesti tulee perille 7-bitin perusmerkistölle
konvertoituna (eli puhelin korvaa nuo erikoiset merkit 7-bitin merkistöllä,
ja omanikin jättää lähetettyjen kansioon viestin eri muodossa kuin
vastaanottaja sen näkee kuten Wuolle taisi kuvata). Jos laitan noita
ú-merkkejä ja vastaavia sekä yhden "vielä erikoisemman" merkin mukaan niin
että puhelin siirtyy unicodeen, sitten myös tuo ú-merkki menee sellaisenaan
perille, tietenkin.


Ja kiitokset tuosta islannin kielen oppitunnista.


Jaakko Leinonen

unread,
Nov 6, 2006, 2:55:19 AM11/6/06
to
On 2006-11-04, Baggie <mka...@pp.inet.fish.invalid> wrote:
>
> Tämön päivän Hesarissa oli sivulla B9 omituinen
> tarina siitä, että esim. espanjaksi kirjoitettujen
> tekstiviestien kirjainmäärät kaksinkertaistuvat
> aksenttimerkkien takia.
>
> Jutussa väitettiin että tekstiviestistandardi on
> sellainen, että merkistä käytössä on vain seitsemän
> bittiä ja jos käyttää sellaista merkkiä, joka ei mahdu
> 128 merkin joukkoon, koko merkistö muutetaan 16-bittiseksi
> (itse asiassa kai 14-bittiseksi). Tämän seurauksena
> tekstiviestin maksimikoko putoaa 80 merkkiin.
[...]

Olisi näemmä pitänyt postata tännekin se vastaus, jonka HS:n
toimittaja sai [editoin kuitenkin hieman]: :)

SMS on määritelty speksissä 3GPP TS 23.040 (Technical realization of
Short Message Service) ja se kertoo, että käytettävät merkistöt
määritellään speksissä 3GPP TS 23.038 (Alphabets and language-
specific information).

23.038:ssa sanotaan, että mahdollisia merkistöjä on kolme: GSM 7 bit,
8 bit ja UCS2 (16 bit), joista GSM 7 bit on oletusmerkistö. Eri
merkistöistä sanotaan sanatarkasti näin: [TP-UD = User data, viestin
teksti; MS = Mobile Station, puhelin]

GSM 7 bit default alphabet indicates that the TP-UD is coded
from the GSM 7 bit default alphabet given in clause 6.2.1. When
this character set is used, the characters of the message are
packed in octets as shown in clause 6.1.2.1.1, and the message
can consist of up to 160 characters. The GSM 7 bit default
alphabet shall be supported by all MSs and SCs offering the
service. If the GSM 7 bit default alphabet extension mechanism
is used then the number of displayable characters will reduce
by one for every instance where the GSM 7 bit default alphabet
extension table is used. 8-bit data indicates that the TP-UD
has user-defined coding, and the message can consist of up to
140 octets.

UCS2 character set indicates that the TP-UD has a UCS2 coded
message, and the message can consist of up to 140 octets, i.e.
up to 70 UCS2 characters. The General notes specified in clause
6.1.1 override any contrary specification in UCS2, so for
example even in UCS2 a <CR> character will cause the MS to
return to the beginning of the current line and overwrite any
existing text with the characters which follow the <CR>.

When a message is compressed, the TP-UD consists of the GSM 7
bit default alphabet or UCS2 character set compressed message,
and the compressed message itself can consist of up to 140
octets in total.

Jokainen GSM-puhelin tukee ainakin GSM 7 bit -merkistöä ja sen lisäksi
se voi vapaasti tukea myös muita speksissä mainittuja merkistöjä.
Speksi ei kuitenkaan ota kantaa siihen millä tasolla muita merkistöjä
pitää tukea, joten tuki ja käytettävissä olevat merkit voivat
vaihdella mielivaltaisesti valmistajasta ja mallista toiseen.

Havaitsemasi toiminto on siis täysin speksin mukainen ja toimii juuri
niinkuin pitääkin. Syöttämä merkki ei kuulu GSM 7 bit -merkistöön,
joten puhelin vaihtaa koodaukseksi UCS2:n (joka on tarkasti ottaen
ISO/IEC 10646). Tällöin viestin maksimi merkkimäärä on 70 ja pidemmät
viestit jaetaan useampiin viesteihin.

--j

Panu Tuominen

unread,
Nov 6, 2006, 7:33:21 AM11/6/06
to
"Ari Wuolle" <iuugwfm8var....@internettiin.com> wrote in message
news:uveluj...@internettiin.com...

> Laajalla merkistöllä E70 lähetti viestin Unicodella - ja yllättäen
> 6310 vanhus osaa näyttää viestin, vaikka sillä ei pystykään
> lähettämään Unicode-viestejä!

Jopa vanha kunnon 6110 ja sen aikaiset "ensimmäiset graafisen näytön
nokialaiset" osaavat näyttää/edelleenlähettää UCS-2 viestejä, vaikka niitä
ei voi ko. puhelimilla luoda eikä muokata. Toki ne merkit, joita puhelin ei
tue, niin näkyvät "neliöinä".

BTW. UCS-2-koodausta käytettiin silloisissa Nokia-puhelimissa myös
länsieurooppalaisen tekstin lähettämiseen, sillä se mahdollisti vilkkuvan
tekstin lisäämisen viestiin: silloiset (DCT3) Nokia-puhelimet käyttivät
sisäisesti merkkikoodia 1 vilkkuvan tekstin aloittamiseen/lopettamiseen ja
UCS-2-muotoisissa viesteissä puhelin mäppäsi UCS-2-koodit 0...255 suoraan
sisäisille merkkikoodeilleen 0...255. Eli UCS-2-merkki 0x0001 viestissä
mahdollisti vilkkuvan tekstin käytön (ja 0x0000 viestin loppuosan
piilottamisen, koska siitä muodostui C-kielestä tuttu loppu-NUL
merkkijonolle). - Yhden viestin maksimipituus lyheni näitä käytettäessä
tietenkin 70 merkkiin.

-- Panu, "FlashMSG"


Baggie

unread,
Nov 7, 2006, 10:37:06 PM11/7/06
to
Sun, 05 Nov 2006 13:37:07 +0200, Jarkko Setälä kirjutas:

>6670:sta lähti yhtenä viestinä, ja sekä hänen jossain
>yksinkertaisemmassa puhelimessa ja suomalaismiehensä uudemmassa
>nokialaisessa merkit näkyivät oikein, eli ei tapahtunut sitä
>aksenttien poisheittämistä, mistä täälläkin puhuttiin.

Eipä niitä tarvitsekaan heittää pois, jos viestin pituus on
alle 70 merkkiä. Kokeilkaa 81 merkkiä pitkillä viesteillä!
Ja muistakaa tarkastaa, montako viestiä lähti!
--
Baggie

You can be wrong, as long as you're thoughtful

Me

unread,
Nov 8, 2006, 3:11:13 AM11/8/06
to
"Baggie" <mka...@pp.inet.fish.invalid> wrote in message
news:i0k2l21scludicsqk...@4ax.com...
Mitä puhelinta käytit Baggie?

Oma uudehko Nokialaiseni lähettää viestin "uúų" (siis vain kolme merkkiä)
muodossa "uuų", ja lähetettyjen kansiossa näkyy viesti "uúų".
Jos laitan viestiin mukaan yhden "aidon unocode-merkin" niin sitten nuo
väkäs-merkit lähtevät kaikki "oikein".

Oliskohan logiikkana pyrkimys välttää unicodea kun ihan kaikki
vastaanottajat sitä kuitenkaan eivät osaa?


Robert Hampf

unread,
Nov 8, 2006, 9:00:09 AM11/8/06
to
Baggie hélt þessu fram:

> Edelleen ihmetyttää se, että voin kirjoittaa Hugo Chávez
> tai Juan Perón ilman merkkien kahdentumista, vaikka acute-a
> ja acute-o puuttuvat merkistöstä. Ja tietysti surettaa
> islantilaisten puolesta, kun heillä näyttäisi olevan
> mahdollisuus vain 70 merkin sanomiin.

Minua surettaa se kun kirjoitan islantia niin tekstistä tulee erittäin
vaikeaselkoista. Kun esimerkiksi kirjoitan 3220:lla nimen "Þórður" se
tulee saman mallin puhelimeen perille muodossa "woreur". Eli puhelimessa
on kyllä islannin sanakirja mutta sitä ei voi käyttää.

rh


Sovelias

unread,
Nov 8, 2006, 10:36:57 AM11/8/06
to

"Robert Hampf" <rha...@abo.fi.spamlaust.svaedi> kirjoitti > Minua surettaa
se kun kirjoitan islantia niin tekstistä tulee erittäin

> vaikeaselkoista. Kun esimerkiksi kirjoitan 3220:lla nimen "Þórður" se
> tulee saman mallin puhelimeen perille muodossa "woreur". Eli puhelimessa
> on kyllä islannin sanakirja mutta sitä ei voi käyttää.

Muistan ehkä väärin, mutta muistelen että tuossakin koneessa on asetuksissa
mahdollisuus vaikuttaa merkistöön.

0 new messages