Googlen käännösohjelma ja suomi

Jukka K. Korpela

unread,

May 10, 2008, 2:16:40 AM5/10/08

to

This text has been translated into Google's translation of the Finnish
language has been added recently, and in silence.

I wonder why Google has brought to the public translation, which is
clearly lower than in the field of art. You see, right now, translation
generally able to even identify Report in simple cases.

Ohjelma tekee myös täysin päättömiä virheitä, kuten sivulause-sanan
kääntäminen sanalla "Report". Miten tällainen raakile voi päästä
karkuun?

The programme will also be fully päättömiä errors, such as the
Report-word translation of the word "Report". How would such a raakile
can not escape?

http://translate.google.com/translate_t?sl=fi&tl=en

***

Tämä teksti on käännetty Googlen käännösohjelmalla, jonka
kielivalikoimaan suomi on lisätty hiljattain ja hiljaisesti.

Ihmettelenpä, miksi Google on tuonut julkisuuteen käännösohjelman, joka
on selvästi heikompi kuin alan tekniikan taso. Kyllähän nykyisin sentään
käännösohjelmissa yleensä osataan edes tunnistaa sivulauseet
yksinkertaisissa tapauksissa.

Ohjelma tekee myös täysin päättömiä virheitä, kuten sivulause-sanan
kääntäminen sanalla "Report". Miten tällainen raakile voi päästä
karkuun?

--
Jukka K. Korpela ("Yucca")
http://www.cs.tut.fi/~jkorpela/

Jukka K. Korpela

unread,

May 10, 2008, 2:39:06 AM5/10/08

to

This text has been translated into Google's translation of the Finnish
language has been added recently, and in silence.

I wonder why Google has brought to the public translation, which is
clearly lower than in the field of art. You see, right now, translation
generally able to even identify Report in simple cases.

The programme will also be fully päättömiä errors, such as the

Jukka Kohonen

unread,

May 11, 2008, 11:10:17 AM5/11/08

to

"Jukka K. Korpela" <jkor...@cs.tut.fi> writes:
>Ihmettelenpä, miksi Google on tuonut julkisuuteen käännösohjelman, joka
>on selvästi heikompi kuin alan tekniikan taso.

Jaa-a, mikähän se alan tekniikan taso on kovin erityyppisten, eri
kielikuntiin kuuluvien kielten välisessä kääntämisessä?

Kääntäminen indoeurooppalaisten kielten kesken on kai sujunut
googlelaisten mielestä niin hyvin ja helposti, että ovat ajatelleet
suomen menevän samalla metodilla noin vaan.

Jos olet suomen kielen puhuja, voit olla ehkä eri mieltä.
=
If you are a Spanish-language speaker, you can not possibly disagree.

--
Jukka....@iki.fi
* Parempi kyy povessa kuin kymmenen poskella.

Jukka K. Korpela

unread,

May 12, 2008, 2:05:39 AM5/12/08

to

Scripsit Jukka Kohonen:

> "Jukka K. Korpela" <jkor...@cs.tut.fi> writes:
>> Ihmettelenpä, miksi Google on tuonut julkisuuteen käännösohjelman,
>> joka on selvästi heikompi kuin alan tekniikan taso.
>
> Jaa-a, mikähän se alan tekniikan taso on kovin erityyppisten, eri
> kielikuntiin kuuluvien kielten välisessä kääntämisessä?

Suomen ja englannin välisessä kääntämisessä taso on parempi kuin Googlen
ohjelmassa.

Käännetäänpäs "Mikähän on alan tekniikan taso?"

Google: "What is the field of art?"

Sunda.fi: "What is the level of the technique of the field?"

Sundan käännös on kömpelö mutta kertoo ajatuksen oikein. Google on
kokonaan hukannut sanan "taso" ja tuottanut lauseen, joka tarkoittaa
aivan muuta kuin alkuperäinen.

> Kääntäminen indoeurooppalaisten kielten kesken on kai sujunut
> googlelaisten mielestä niin hyvin ja helposti, että ovat ajatelleet
> suomen menevän samalla metodilla noin vaan.

En tiedä, mikä on perusmetodiikka ja missä määrin siinä on puutteita,
mutta toteutus on lievästi sanottuna hutiloitu.

> Jos olet suomen kielen puhuja, voit olla ehkä eri mieltä.
> =
> If you are a Spanish-language speaker, you can not possibly disagree.

Siinäpä juuri sitä hutilointia. Kielen nimen kääntyminen väärin johtunee
vain "sanakirjan" virheestä, mutta kun virhe on nimessä "suomi", se
kertoo paljon testaamisesta. Lauseen merkityksen kääntyminen päälaelleen
voi olla oire itse metodiikan virheestä: ohjelma säveltää jostain
negaation.

Jukka Kohonen

unread,

May 12, 2008, 2:54:19 AM5/12/08

to

"Jukka K. Korpela" <jkor...@cs.tut.fi> writes:
>Suomen ja englannin välisessä kääntämisessä taso on parempi kuin Googlen
>ohjelmassa.

>- -

>Sundan käännös on kömpelö mutta kertoo ajatuksen oikein.

Kiitos, en tiennytkään tuosta Sundasta. Sen taustalla on ilmeisesti
ihan oikeaa lingvististä analyysityötä ja sen perusteella viritettyä
säännöstöä.

Googlen käännöskonehan perustuu sen sijaan ns. tilastolliseen
kääntämiseen: syötetään ohjelmalle valtava kasa kaksikielistä
tekstiaineistoa, ja ohjelma (karkeasti ottaen) oppii, mitkä sanat
peräkkäin kielessä A vastaavat mitäkin sanoja peräkkäin kielessä B.

Metodi ehkä toimii kohtuullisesti, kun kielet A ja B ovat läheistä
sukua (esim. lausekerakenne samantapainen ja sanoille löytyy usein
läheiset vastineet).

>> Jos olet suomen kielen puhuja, voit olla ehkä eri mieltä.
>> =
>> If you are a Spanish-language speaker, you can not possibly disagree.
>
>Siinäpä juuri sitä hutilointia. Kielen nimen kääntyminen väärin johtunee
>vain "sanakirjan" virheestä,

Itse asiassa tämäkin lienee metodista johtuva systemaattinen virhe.
Opetusaineistossa lienee tapauksia, joissa kielen nimi vaihtuu tyyliin
"Suomenkieliset käyttöohjeet" <=> "Instructions in English", ja kun
tilastollinen käännöshärveli ei ymmärrä sanojen merkityksistä mitään,
niin sehän oppii tuon "vastaavuuden".

Samantapaista ilmiötä pohdiskellaan Language Logissa. Esim. keskellä
saksankielistä tekstiä oleva "Made in Austria" kääntyy englanniksi
"Made in USA" ja ranskaksi "Made in France"!
<http://itre.cis.upenn.edu/~myl/languagelog/archives/005485.html>
<http://itre.cis.upenn.edu/~myl/languagelog/archives/005491.html>

Jukka Kohonen

unread,

May 12, 2008, 4:49:03 AM5/12/08

to

koh...@cc.helsinki.fi (Jukka Kohonen) writes:
>Itse asiassa tämäkin lienee metodista johtuva systemaattinen virhe.
>Opetusaineistossa lienee tapauksia, joissa kielen nimi vaihtuu tyyliin

>"Suomenkieliset käyttöohjeet" <=> "Instructions in English" ...

Ja sama englanniksi:

In fact, this method is probably due to a systematic error.
Teaching materials will be cases in which the language of the
name change of style, "Using the movie" <=> "Instructions in
English:" ...

"Using the movie" paljastaa aika paljon opetusaineistosta.

Ensimmäisessä virkkeessä näkyy, miten Googlen metodi kompastelee
tilanteissa, joissa kielten lauserakenteet poikkeavat toisistaan:
sinänsä melko sopivia sanoja pannaan peräkkäin, mutta järjestys seuraa
orjallisesti lähtökieltä, jolloin merkitys vaihtuu.

metodista johtuva virhe
Google: method due to an error
Sunda: mistake caused by the method

EU:n vaatimukset täyttävä laite
Google: The EU that meets the requirements of the device
Sunda: Device which meets the demands of the EU

valtameren rannalla sijaitseva kaupunki
Google: Ocean beach located in the city
Sunda: town which is located on the shore of the ocean

Jukka K. Korpela

unread,

May 12, 2008, 6:10:37 AM5/12/08

to

Scripsit Jukka Kohonen:

> Googlen käännöskonehan perustuu sen sijaan ns. tilastolliseen
> kääntämiseen: syötetään ohjelmalle valtava kasa kaksikielistä
> tekstiaineistoa, ja ohjelma (karkeasti ottaen) oppii, mitkä sanat
> peräkkäin kielessä A vastaavat mitäkin sanoja peräkkäin kielessä B.

Vie nyt viimeisetkin illuusioni... mutta kyllä se sentään jonkinlaista
analyysiakin tekee ja selvästikin tunnistaa päätteitä. Tosin lopputulos
on useinkin posketon:

"Niitä on loma-asunnoissammekin."
=>
"They are holiday homes."

Tuossa on sentään tunnistettu yhdyssanan osat ja useita päätteitä, mutta
niistä on toisaalta käännöksen synteesissä läikytetty iso osa maahan ja
samalla väännetty merkitys ihan vääräksi. Tämähän on tavallaan pahempaa
kuin surullisenkuuluisat sana sanalta -käännökset (we are => me aari),
koska tässä tapauksessa tulos on kielellisesti moitteeton lause, jonka
merkitys vain on aivan toinen kuin lähtötekstin.

Mutta mikähän selittäisi tämän:

"Käännä tämä suomeksi."
=>
"Translate this and psychiatry."

Kristian Mäki

unread,

May 13, 2008, 1:50:10 AM5/13/08

to

On May 12, 1:10 pm, "Jukka K. Korpela" <jkorp...@cs.tut.fi> wrote:
> Mutta mikähän selittäisi tämän:
>
> "Käännä tämä suomeksi."
> =>
> "Translate this and psychiatry."

Tai sen, että käännös riippuu isoista kirjaimista ja pisteistä:

"Käännä tämä suomeksi." => "Translate this and psychiatry."

"Käännä tämä suomeksi" => "Translate this psychiatry"
"käännä tämä suomeksi." => "translate it in English."
"käännä tämä suomeksi" => "translate it in English"
"Käännä tämä suomeksi.." => "Translate this in English .."

Harri Laine

unread,

May 13, 2008, 8:42:10 AM5/13/08

to

Jukka Kohonen kirjoitti:

> Ensimmäisessä virkkeessä näkyy, miten Googlen metodi kompastelee
> tilanteissa, joissa kielten lauserakenteet poikkeavat toisistaan:
> sinänsä melko sopivia sanoja pannaan peräkkäin, mutta järjestys
> seuraa orjallisesti lähtökieltä, jolloin merkitys vaihtuu.

Mielenkiintoista. Mutta ehkä asia lanseerattu varhaisessa vaiheessa,
jotta G. herättäisi huomiota ja syntyisi keskustelua tai ihan vain
piruuttaan? Entä onko ajateltavissa, että metodia voisi verrata
pitkään iteraatioketjuun tai pikkulapsen monta vuotta kestävään
kielenoppimiseen, joka lopulta johtaa parempaan tulokseen? Onko
käännösohjelman egolla myös superego joka vähitellen sosiaalistaa sen
antamaan muiden oikeana pitämiä käännöksiä. Voisiko pelkkä jatkuva
käännösmassan pureskelu opettaa sitä kääntämään oikein vaikkapa tuon
Sundan tasoisesti, vai tarvittaisiinko aktiivinen palautekanava
opettajaksi?

--
Harri
Tuhansien järvien maa
Thousands of lakes in March

Mika Pirhonen

unread,

May 13, 2008, 11:11:07 AM5/13/08

to

Harri Laine kirjoitti:

>> Ensimmäisessä virkkeessä näkyy, miten Googlen metodi kompastelee
>> tilanteissa, joissa kielten lauserakenteet poikkeavat toisistaan:
>

> Mielenkiintoista. Mutta ehkä asia lanseerattu varhaisessa vaiheessa,
> jotta G. herättäisi huomiota ja syntyisi keskustelua tai ihan vain
> piruuttaan? Entä onko ajateltavissa, että metodia voisi verrata pitkään
> iteraatioketjuun tai pikkulapsen monta vuotta kestävään
> kielenoppimiseen, joka lopulta johtaa parempaan tulokseen? Onko
> käännösohjelman egolla myös superego joka vähitellen sosiaalistaa sen
> antamaan muiden oikeana pitämiä käännöksiä. Voisiko pelkkä jatkuva
> käännösmassan pureskelu opettaa sitä kääntämään oikein vaikkapa tuon
> Sundan tasoisesti, vai tarvittaisiinko aktiivinen palautekanava
> opettajaksi?

Kun käännöksen päälle vie hiiren kohdistimen, tulee esille alkuperäinen
teksti ja ehdotus/kehotus ehdottaa parempaa käännöstä. Siitä klikatessa
aukeaa teksti-ikkuna, johon mielestään paremman käännöksen saa syöttää.

--
Mika

Valvo aina pienten lasten syömistä.
- BaBy:CarrOTS - miniPOrKKanOiTa iLman LiSäaineiTa -pakkauksen seloste

Mika Pirhonen

unread,

May 13, 2008, 11:18:24 AM5/13/08

to

Kristian Mäki kirjoitti:

>> Mutta mikähän selittäisi tämän:
>> "Käännä tämä suomeksi."

>> "Translate this and psychiatry."
>
> Tai sen, että käännös riippuu isoista kirjaimista ja pisteistä:
> "Käännä tämä suomeksi." => "Translate this and psychiatry."
> "Käännä tämä suomeksi" => "Translate this psychiatry"
> "käännä tämä suomeksi." => "translate it in English."
> "käännä tämä suomeksi" => "translate it in English"
> "Käännä tämä suomeksi.." => "Translate this in English .."

<http://translate.google.fi/translate?hl=fi&sl=en&u=http://www.bbc.co.uk/cult/hitchhikers/guide/trillian.shtml&sa=X&oi=translate&resnum=2&ct=result&prev=/search%3Fq%3Dtricia%2Btrillian%26hl%3Dfi%26sa%3DG>

"The Guide" => "The Guide"
"Guide to the Guide" => "Guide to opas"

Melkoista soopaahan tuo käännös toki muutenkin on:

"Tricia McMillian (Trillian to her friends) is a highly trained
astrophysicist and keeper of white mice ."
"Tricia McMillian (Trillian hänen ystäviensä) on hyvin koulutettu
astrophysicist ja pitäjän valkoista hiirillä.

"Born on Earth , she met a guy at a fancy dress party who turned out to
be from another planet."
"Syntynyt Earth, hän tapasi kaverin, joka fancy leninki osapuolen jotka
osoittautui toiselta planeetalta."
"He eventually turned out to be her boyfriend, Zaphod Beeblebrox."
"Hän lopulta osoittautui hänen boyfriend, Zaphod Beeblebrox."

Tomi Jaskari

unread,

May 13, 2008, 11:54:29 AM5/13/08

to

Mika Pirhonen <tuskin.ku...@hotmail.com> kirjoitti Tue, 13 May 2008
18:11:07 +0300:

>> antamaan muiden oikeana pitämiä käännöksiä. Voisiko pelkkä jatkuva
>> käännösmassan pureskelu opettaa sitä kääntämään oikein vaikkapa tuon
>> Sundan tasoisesti, vai tarvittaisiinko aktiivinen palautekanava
>> opettajaksi?

> Kun käännöksen päälle vie hiiren kohdistimen, tulee esille alkuperäinen
> teksti ja ehdotus/kehotus ehdottaa parempaa käännöstä. Siitä klikatessa
> aukeaa teksti-ikkuna, johon mielestään paremman käännöksen saa syöttää.

Tervemenoa Googlen palkattomaksi ohjelmoijaksi! Kyllä tilastollinen metodi
on metodina täysin toimimaton niinkin kompleksisen asian kuin
kielenkääntämisen työkaluksi.

--
/*. Käytössä Opera 9.xx: http://www.opera.com/
O>'O________________________________________________
Homepage: http://www.kolumbus.fi/tomijaskari/

Mika Pirhonen

unread,

May 13, 2008, 11:55:10 AM5/13/08

to

Jukka K. Korpela kirjoitti:

>>> Ihmettelenpä, miksi Google on tuonut julkisuuteen käännösohjelman,
>>> joka on selvästi heikompi kuin alan tekniikan taso.

> Suomen ja englannin välisessä kääntämisessä taso on parempi kuin Googlen
> ohjelmassa.
> Käännetäänpäs "Mikähän on alan tekniikan taso?"
> Google: "What is the field of art?"
> Sunda.fi: "What is the level of the technique of the field?"

> Siinäpä juuri sitä hutilointia. Kielen nimen kääntyminen väärin johtunee
> vain "sanakirjan" virheestä, mutta kun virhe on nimessä "suomi", se
> kertoo paljon testaamisesta. Lauseen merkityksen kääntyminen päälaelleen
> voi olla oire itse metodiikan virheestä: ohjelma säveltää jostain
> negaation.

<http://translate.google.fi/translate?hl=fi&sl=en&u=http://wordsmith.org/awad/wordlist.html&sa=X&oi=translate&resnum=5&ct=result&prev=/search%3Fq%3Dword%2Blist%26hl%3Dfi%26sa%3DG>

"Today's Word" => "Päivän sana"
"Yesterday's Word" => "Eilinen Word"
"catch-as-catch-can" => "saalis-as-catch voi"

"eighty-six" => "kahdeksaakymmentäviittä kuusi"
"fourth wall" => "neljäsosa seinään"

"hole-in-the-wall" => "Hole-in-the-Wallissa"
"dyed-in-the-wool" => "värjätty-in-the-villa"
"down-at-the-heel" => "alas-at-kantapää"
"achilles' heel" => "Achilles' heel"

"dingle" => "Kerava"
"dunkirk" => "DUNKERQUE"
"ha-ha" => "Ha-ha"
"strangelove" => "dr. Outolempi"

"hail-fellow-well-met" => "rae-stipendiaatti-hyvin-täyttyvät"
"hugger-mugger" => "Sportster-mugger"

T.K.

unread,

May 13, 2008, 1:27:07 PM5/13/08

to

Jukka K. Korpela kirjoitti:

>
> Tämä teksti on käännetty Googlen käännösohjelmalla, jonka
> kielivalikoimaan suomi on lisätty hiljattain ja hiljaisesti.
>
> Ihmettelenpä, miksi Google on tuonut julkisuuteen käännösohjelman, joka
> on selvästi heikompi kuin alan tekniikan taso. Kyllähän nykyisin sentään
> käännösohjelmissa yleensä osataan edes tunnistaa sivulauseet
> yksinkertaisissa tapauksissa.
>
> Ohjelma tekee myös täysin päättömiä virheitä, kuten sivulause-sanan
> kääntäminen sanalla "Report". Miten tällainen raakile voi päästä
> karkuun?
>
>

Kalevalakin transformoituu Googlen kääntämänä jonkinlaiseksi hybridiksi
neolyriikaksi:

Mieleni minun tekevi,
aivoni ajattelevi
lähteäni laulamahan,
saa'ani sanelemahan,
sukuvirttä suoltamahan,
lajivirttä laulamahan.

I am, I do,
The brains of people who think
From the source to sing,
Saa'ani dictate,
Sukuvirttä suoltamahan,
Lajivirttä to sing.

Jukka Kohonen

unread,

May 13, 2008, 2:38:45 PM5/13/08

to

"Jukka K. Korpela" <jkor...@cs.tut.fi> writes:

>Mutta mikähän selittäisi tämän:
>
>"Käännä tämä suomeksi."
>=>
>"Translate this and psychiatry."

Ei siihen välttämättä mitään erityistä "selitystä" ole - jossain
opetusaineistossa on vain sattunut olemaan rinnakkain virkkeet, joissa
suomenkielinen on päättynyt "suomeksi." ja englanninkielinen "and
psychiatry." Aineisto on kai peräisin käsin tehdyistä käännöksistä ja
kääntäjä on tuossa sattumalta nähnyt sopivaksi muuttaa sanajärjestystä
tai virkejakoa. Ilmeisesti tilastollisen metodin parametrit on
säädetty liian herkiksi niin, että se oppii liian vähästä aineistosta
"säännönmukaisuuksia".

Suomen paikkakunnat sentään sujuvat erinomaisesti: Rovaniemi, Tornio,
Imatra, Kauniainen, Kerava, Hämeenlinna, Jyväskylä, Maarianhamina,
Raisio, Paimio, Ähtäri, Alavus, Tornio, Ruovesi, Kouvola. Niin, ja
Hamina.

= Finland, after the localities are going extremely well: Prachuap
Khiri Khan, Sanghar, Bogor, Craigavon, Guntur, Bhubaneswar, Brighton,
Lapu-Lapu, Richards Bay, Niagara Falls, Airdrie, Ardara, Taegu,
Newtownabbey, Las Pinas. Oh, and Ein Mahel.

Jukka K. Korpela

unread,

May 20, 2008, 2:10:53 AM5/20/08

to

Scripsit Harri Laine:

> Jukka Kohonen kirjoitti:
>
>> Ensimmäisessä virkkeessä näkyy, miten Googlen metodi kompastelee
>> tilanteissa, joissa kielten lauserakenteet poikkeavat toisistaan:
>> sinänsä melko sopivia sanoja pannaan peräkkäin, mutta järjestys
>> seuraa orjallisesti lähtökieltä, jolloin merkitys vaihtuu.
>
> Mielenkiintoista. Mutta ehkä asia lanseerattu varhaisessa vaiheessa,
> jotta G. herättäisi huomiota ja syntyisi keskustelua tai ihan vain
> piruuttaan?

Kyllähän Google lanseeraa kokeellisia palveluita paljonkin, ja niistä
suurin osa kuolee pois. Tämä on kuitenkin eri tason asia, koska käännös
tuottaa hyvin usein kielellisesti oikeita tai suunnilleen oikeita
virkkeitä, joiden sisältö on aivan muuta kuin lähtötekstin, ja tämän
havaitsee varsin nopeassakin testauksessa.

> Entä onko ajateltavissa, että metodia voisi verrata
> pitkään iteraatioketjuun tai pikkulapsen monta vuotta kestävään
> kielenoppimiseen, joka lopulta johtaa parempaan tulokseen?

Sitähän automaattisen kielenkääntämisen kehittely jossain mielessä on,
mutta tässä ilmeisesti perustekniikat ovat liian alkeellisia ja
yksipuolisia. Ymmärtääkseni alan asiantuntijat ovat aika yksimielisiä
siitä, että kääntämiseen on monta lähestymistapaa mutta hyvään tulokseen
pyrittäessä päädytään kuitenkin eri tapojen yhdistelyyn (sekoitussuhteet
tietysti vaihtelevat).

Juttuni aiheesta on tänään 20.5. Hesarissa sivulla D 2 ja oli jo (tosin
eri kuvan kera) eilisessä "verkko-Hesarissa" ja on edelleen osoitteessa
http://www.hs.fi/ulkomaat/artikkeli/Google+soomentaa+v%C3%A4h%C3%A4n+miten+sattuu/1135236474644
jota kautta löytyy myös lukijoiden kommentteja. Niissä sanotaan vastaan
sen verran vahvasti, että juttu oli ilmeisen tarpeellinen: ihmisille
syntyy todella ruusuisia käsityksiä palvelusta, jos he sattuvat tekemään
vain yksinkertaisia kokeiluja (eivätkä osaa lähtötekstiä tarpeeksi
ymmärtääkseen, että asia on päälaellaan?).

H. Markus Lang

unread,

May 21, 2008, 10:36:07 AM5/21/08

to

Mika Pirhonen wrote:

> Kun käännöksen päälle vie hiiren kohdistimen, tulee esille alkuperäinen
> teksti ja ehdotus/kehotus ehdottaa parempaa käännöstä. Siitä klikatessa
> aukeaa teksti-ikkuna, johon mielestään paremman käännöksen saa syöttää.

Tässäkin voi piillä outojen käännösten selitys: ihmiset syöttävät
tahallaan (ilkivaltaisesti, kiusamielellä) jotain "hupaisaa", ja ohjelma
ottaa kaiken täydestä kuin väärän rahan.

-----------------------------
ml...@elisanet.fi
http://www.elisanet.fi/mlang/