I wonder why Google has brought to the public translation, which is
clearly lower than in the field of art. You see, right now, translation
generally able to even identify Report in simple cases.
Ohjelma tekee myös täysin päättömiä virheitä, kuten sivulause-sanan
kääntäminen sanalla "Report". Miten tällainen raakile voi päästä
karkuun?
The programme will also be fully päättömiä errors, such as the
Report-word translation of the word "Report". How would such a raakile
can not escape?
http://translate.google.com/translate_t?sl=fi&tl=en
***
Tämä teksti on käännetty Googlen käännösohjelmalla, jonka
kielivalikoimaan suomi on lisätty hiljattain ja hiljaisesti.
Ihmettelenpä, miksi Google on tuonut julkisuuteen käännösohjelman, joka
on selvästi heikompi kuin alan tekniikan taso. Kyllähän nykyisin sentään
käännösohjelmissa yleensä osataan edes tunnistaa sivulauseet
yksinkertaisissa tapauksissa.
Ohjelma tekee myös täysin päättömiä virheitä, kuten sivulause-sanan
kääntäminen sanalla "Report". Miten tällainen raakile voi päästä
karkuun?
--
Jukka K. Korpela ("Yucca")
http://www.cs.tut.fi/~jkorpela/
I wonder why Google has brought to the public translation, which is
clearly lower than in the field of art. You see, right now, translation
generally able to even identify Report in simple cases.
The programme will also be fully päättömiä errors, such as the
Jaa-a, mikähän se alan tekniikan taso on kovin erityyppisten, eri
kielikuntiin kuuluvien kielten välisessä kääntämisessä?
Kääntäminen indoeurooppalaisten kielten kesken on kai sujunut
googlelaisten mielestä niin hyvin ja helposti, että ovat ajatelleet
suomen menevän samalla metodilla noin vaan.
Jos olet suomen kielen puhuja, voit olla ehkä eri mieltä.
=
If you are a Spanish-language speaker, you can not possibly disagree.
--
Jukka....@iki.fi
* Parempi kyy povessa kuin kymmenen poskella.
> "Jukka K. Korpela" <jkor...@cs.tut.fi> writes:
>> Ihmettelenpä, miksi Google on tuonut julkisuuteen käännösohjelman,
>> joka on selvästi heikompi kuin alan tekniikan taso.
>
> Jaa-a, mikähän se alan tekniikan taso on kovin erityyppisten, eri
> kielikuntiin kuuluvien kielten välisessä kääntämisessä?
Suomen ja englannin välisessä kääntämisessä taso on parempi kuin Googlen
ohjelmassa.
Käännetäänpäs "Mikähän on alan tekniikan taso?"
Google: "What is the field of art?"
Sunda.fi: "What is the level of the technique of the field?"
Sundan käännös on kömpelö mutta kertoo ajatuksen oikein. Google on
kokonaan hukannut sanan "taso" ja tuottanut lauseen, joka tarkoittaa
aivan muuta kuin alkuperäinen.
> Kääntäminen indoeurooppalaisten kielten kesken on kai sujunut
> googlelaisten mielestä niin hyvin ja helposti, että ovat ajatelleet
> suomen menevän samalla metodilla noin vaan.
En tiedä, mikä on perusmetodiikka ja missä määrin siinä on puutteita,
mutta toteutus on lievästi sanottuna hutiloitu.
> Jos olet suomen kielen puhuja, voit olla ehkä eri mieltä.
> =
> If you are a Spanish-language speaker, you can not possibly disagree.
Siinäpä juuri sitä hutilointia. Kielen nimen kääntyminen väärin johtunee
vain "sanakirjan" virheestä, mutta kun virhe on nimessä "suomi", se
kertoo paljon testaamisesta. Lauseen merkityksen kääntyminen päälaelleen
voi olla oire itse metodiikan virheestä: ohjelma säveltää jostain
negaation.
Kiitos, en tiennytkään tuosta Sundasta. Sen taustalla on ilmeisesti
ihan oikeaa lingvististä analyysityötä ja sen perusteella viritettyä
säännöstöä.
Googlen käännöskonehan perustuu sen sijaan ns. tilastolliseen
kääntämiseen: syötetään ohjelmalle valtava kasa kaksikielistä
tekstiaineistoa, ja ohjelma (karkeasti ottaen) oppii, mitkä sanat
peräkkäin kielessä A vastaavat mitäkin sanoja peräkkäin kielessä B.
Metodi ehkä toimii kohtuullisesti, kun kielet A ja B ovat läheistä
sukua (esim. lausekerakenne samantapainen ja sanoille löytyy usein
läheiset vastineet).
>> Jos olet suomen kielen puhuja, voit olla ehkä eri mieltä.
>> =
>> If you are a Spanish-language speaker, you can not possibly disagree.
>
>Siinäpä juuri sitä hutilointia. Kielen nimen kääntyminen väärin johtunee
>vain "sanakirjan" virheestä,
Itse asiassa tämäkin lienee metodista johtuva systemaattinen virhe.
Opetusaineistossa lienee tapauksia, joissa kielen nimi vaihtuu tyyliin
"Suomenkieliset käyttöohjeet" <=> "Instructions in English", ja kun
tilastollinen käännöshärveli ei ymmärrä sanojen merkityksistä mitään,
niin sehän oppii tuon "vastaavuuden".
Samantapaista ilmiötä pohdiskellaan Language Logissa. Esim. keskellä
saksankielistä tekstiä oleva "Made in Austria" kääntyy englanniksi
"Made in USA" ja ranskaksi "Made in France"!
<http://itre.cis.upenn.edu/~myl/languagelog/archives/005485.html>
<http://itre.cis.upenn.edu/~myl/languagelog/archives/005491.html>
Ja sama englanniksi:
In fact, this method is probably due to a systematic error.
Teaching materials will be cases in which the language of the
name change of style, "Using the movie" <=> "Instructions in
English:" ...
"Using the movie" paljastaa aika paljon opetusaineistosta.
Ensimmäisessä virkkeessä näkyy, miten Googlen metodi kompastelee
tilanteissa, joissa kielten lauserakenteet poikkeavat toisistaan:
sinänsä melko sopivia sanoja pannaan peräkkäin, mutta järjestys seuraa
orjallisesti lähtökieltä, jolloin merkitys vaihtuu.
metodista johtuva virhe
Google: method due to an error
Sunda: mistake caused by the method
EU:n vaatimukset täyttävä laite
Google: The EU that meets the requirements of the device
Sunda: Device which meets the demands of the EU
valtameren rannalla sijaitseva kaupunki
Google: Ocean beach located in the city
Sunda: town which is located on the shore of the ocean
> Googlen käännöskonehan perustuu sen sijaan ns. tilastolliseen
> kääntämiseen: syötetään ohjelmalle valtava kasa kaksikielistä
> tekstiaineistoa, ja ohjelma (karkeasti ottaen) oppii, mitkä sanat
> peräkkäin kielessä A vastaavat mitäkin sanoja peräkkäin kielessä B.
Vie nyt viimeisetkin illuusioni... mutta kyllä se sentään jonkinlaista
analyysiakin tekee ja selvästikin tunnistaa päätteitä. Tosin lopputulos
on useinkin posketon:
"Niitä on loma-asunnoissammekin."
=>
"They are holiday homes."
Tuossa on sentään tunnistettu yhdyssanan osat ja useita päätteitä, mutta
niistä on toisaalta käännöksen synteesissä läikytetty iso osa maahan ja
samalla väännetty merkitys ihan vääräksi. Tämähän on tavallaan pahempaa
kuin surullisenkuuluisat sana sanalta -käännökset (we are => me aari),
koska tässä tapauksessa tulos on kielellisesti moitteeton lause, jonka
merkitys vain on aivan toinen kuin lähtötekstin.
Mutta mikähän selittäisi tämän:
"Käännä tämä suomeksi."
=>
"Translate this and psychiatry."
Tai sen, että käännös riippuu isoista kirjaimista ja pisteistä:
"Käännä tämä suomeksi." => "Translate this and psychiatry."
"Käännä tämä suomeksi" => "Translate this psychiatry"
"käännä tämä suomeksi." => "translate it in English."
"käännä tämä suomeksi" => "translate it in English"
"Käännä tämä suomeksi.." => "Translate this in English .."
> Ensimmäisessä virkkeessä näkyy, miten Googlen metodi kompastelee
> tilanteissa, joissa kielten lauserakenteet poikkeavat toisistaan:
> sinänsä melko sopivia sanoja pannaan peräkkäin, mutta järjestys
> seuraa orjallisesti lähtökieltä, jolloin merkitys vaihtuu.
Mielenkiintoista. Mutta ehkä asia lanseerattu varhaisessa vaiheessa,
jotta G. herättäisi huomiota ja syntyisi keskustelua tai ihan vain
piruuttaan? Entä onko ajateltavissa, että metodia voisi verrata
pitkään iteraatioketjuun tai pikkulapsen monta vuotta kestävään
kielenoppimiseen, joka lopulta johtaa parempaan tulokseen? Onko
käännösohjelman egolla myös superego joka vähitellen sosiaalistaa sen
antamaan muiden oikeana pitämiä käännöksiä. Voisiko pelkkä jatkuva
käännösmassan pureskelu opettaa sitä kääntämään oikein vaikkapa tuon
Sundan tasoisesti, vai tarvittaisiinko aktiivinen palautekanava
opettajaksi?
--
Harri
Tuhansien järvien maa
Thousands of lakes in March
>> Ensimmäisessä virkkeessä näkyy, miten Googlen metodi kompastelee
>> tilanteissa, joissa kielten lauserakenteet poikkeavat toisistaan:
>
> Mielenkiintoista. Mutta ehkä asia lanseerattu varhaisessa vaiheessa,
> jotta G. herättäisi huomiota ja syntyisi keskustelua tai ihan vain
> piruuttaan? Entä onko ajateltavissa, että metodia voisi verrata pitkään
> iteraatioketjuun tai pikkulapsen monta vuotta kestävään
> kielenoppimiseen, joka lopulta johtaa parempaan tulokseen? Onko
> käännösohjelman egolla myös superego joka vähitellen sosiaalistaa sen
> antamaan muiden oikeana pitämiä käännöksiä. Voisiko pelkkä jatkuva
> käännösmassan pureskelu opettaa sitä kääntämään oikein vaikkapa tuon
> Sundan tasoisesti, vai tarvittaisiinko aktiivinen palautekanava
> opettajaksi?
Kun käännöksen päälle vie hiiren kohdistimen, tulee esille alkuperäinen
teksti ja ehdotus/kehotus ehdottaa parempaa käännöstä. Siitä klikatessa
aukeaa teksti-ikkuna, johon mielestään paremman käännöksen saa syöttää.
--
Mika
Valvo aina pienten lasten syömistä.
- BaBy:CarrOTS - miniPOrKKanOiTa iLman LiSäaineiTa -pakkauksen seloste
>> Mutta mikähän selittäisi tämän:
>> "Käännä tämä suomeksi."
>> "Translate this and psychiatry."
>
> Tai sen, että käännös riippuu isoista kirjaimista ja pisteistä:
> "Käännä tämä suomeksi." => "Translate this and psychiatry."
> "Käännä tämä suomeksi" => "Translate this psychiatry"
> "käännä tämä suomeksi." => "translate it in English."
> "käännä tämä suomeksi" => "translate it in English"
> "Käännä tämä suomeksi.." => "Translate this in English .."
"The Guide" => "The Guide"
"Guide to the Guide" => "Guide to opas"
Melkoista soopaahan tuo käännös toki muutenkin on:
"Tricia McMillian (Trillian to her friends) is a highly trained
astrophysicist and keeper of white mice ."
"Tricia McMillian (Trillian hänen ystäviensä) on hyvin koulutettu
astrophysicist ja pitäjän valkoista hiirillä.
"Born on Earth , she met a guy at a fancy dress party who turned out to
be from another planet."
"Syntynyt Earth, hän tapasi kaverin, joka fancy leninki osapuolen jotka
osoittautui toiselta planeetalta."
"He eventually turned out to be her boyfriend, Zaphod Beeblebrox."
"Hän lopulta osoittautui hänen boyfriend, Zaphod Beeblebrox."
>> antamaan muiden oikeana pitämiä käännöksiä. Voisiko pelkkä jatkuva
>> käännösmassan pureskelu opettaa sitä kääntämään oikein vaikkapa tuon
>> Sundan tasoisesti, vai tarvittaisiinko aktiivinen palautekanava
>> opettajaksi?
> Kun käännöksen päälle vie hiiren kohdistimen, tulee esille alkuperäinen
> teksti ja ehdotus/kehotus ehdottaa parempaa käännöstä. Siitä klikatessa
> aukeaa teksti-ikkuna, johon mielestään paremman käännöksen saa syöttää.
Tervemenoa Googlen palkattomaksi ohjelmoijaksi! Kyllä tilastollinen metodi
on metodina täysin toimimaton niinkin kompleksisen asian kuin
kielenkääntämisen työkaluksi.
--
/*. Käytössä Opera 9.xx: http://www.opera.com/
O>'O________________________________________________
Homepage: http://www.kolumbus.fi/tomijaskari/
>>> Ihmettelenpä, miksi Google on tuonut julkisuuteen käännösohjelman,
>>> joka on selvästi heikompi kuin alan tekniikan taso.
> Suomen ja englannin välisessä kääntämisessä taso on parempi kuin Googlen
> ohjelmassa.
> Käännetäänpäs "Mikähän on alan tekniikan taso?"
> Google: "What is the field of art?"
> Sunda.fi: "What is the level of the technique of the field?"
> Siinäpä juuri sitä hutilointia. Kielen nimen kääntyminen väärin johtunee
> vain "sanakirjan" virheestä, mutta kun virhe on nimessä "suomi", se
> kertoo paljon testaamisesta. Lauseen merkityksen kääntyminen päälaelleen
> voi olla oire itse metodiikan virheestä: ohjelma säveltää jostain
> negaation.
"Today's Word" => "Päivän sana"
"Yesterday's Word" => "Eilinen Word"
"catch-as-catch-can" => "saalis-as-catch voi"
"eighty-six" => "kahdeksaakymmentäviittä kuusi"
"fourth wall" => "neljäsosa seinään"
"hole-in-the-wall" => "Hole-in-the-Wallissa"
"dyed-in-the-wool" => "värjätty-in-the-villa"
"down-at-the-heel" => "alas-at-kantapää"
"achilles' heel" => "Achilles' heel"
"dingle" => "Kerava"
"dunkirk" => "DUNKERQUE"
"ha-ha" => "Ha-ha"
"strangelove" => "dr. Outolempi"
"hail-fellow-well-met" => "rae-stipendiaatti-hyvin-täyttyvät"
"hugger-mugger" => "Sportster-mugger"
>
> Tämä teksti on käännetty Googlen käännösohjelmalla, jonka
> kielivalikoimaan suomi on lisätty hiljattain ja hiljaisesti.
>
> Ihmettelenpä, miksi Google on tuonut julkisuuteen käännösohjelman, joka
> on selvästi heikompi kuin alan tekniikan taso. Kyllähän nykyisin sentään
> käännösohjelmissa yleensä osataan edes tunnistaa sivulauseet
> yksinkertaisissa tapauksissa.
>
> Ohjelma tekee myös täysin päättömiä virheitä, kuten sivulause-sanan
> kääntäminen sanalla "Report". Miten tällainen raakile voi päästä
> karkuun?
>
>
Kalevalakin transformoituu Googlen kääntämänä jonkinlaiseksi hybridiksi
neolyriikaksi:
Mieleni minun tekevi,
aivoni ajattelevi
lähteäni laulamahan,
saa'ani sanelemahan,
sukuvirttä suoltamahan,
lajivirttä laulamahan.
I am, I do,
The brains of people who think
From the source to sing,
Saa'ani dictate,
Sukuvirttä suoltamahan,
Lajivirttä to sing.
Ei siihen välttämättä mitään erityistä "selitystä" ole - jossain
opetusaineistossa on vain sattunut olemaan rinnakkain virkkeet, joissa
suomenkielinen on päättynyt "suomeksi." ja englanninkielinen "and
psychiatry." Aineisto on kai peräisin käsin tehdyistä käännöksistä ja
kääntäjä on tuossa sattumalta nähnyt sopivaksi muuttaa sanajärjestystä
tai virkejakoa. Ilmeisesti tilastollisen metodin parametrit on
säädetty liian herkiksi niin, että se oppii liian vähästä aineistosta
"säännönmukaisuuksia".
Suomen paikkakunnat sentään sujuvat erinomaisesti: Rovaniemi, Tornio,
Imatra, Kauniainen, Kerava, Hämeenlinna, Jyväskylä, Maarianhamina,
Raisio, Paimio, Ähtäri, Alavus, Tornio, Ruovesi, Kouvola. Niin, ja
Hamina.
= Finland, after the localities are going extremely well: Prachuap
Khiri Khan, Sanghar, Bogor, Craigavon, Guntur, Bhubaneswar, Brighton,
Lapu-Lapu, Richards Bay, Niagara Falls, Airdrie, Ardara, Taegu,
Newtownabbey, Las Pinas. Oh, and Ein Mahel.
> Jukka Kohonen kirjoitti:
>
>> Ensimmäisessä virkkeessä näkyy, miten Googlen metodi kompastelee
>> tilanteissa, joissa kielten lauserakenteet poikkeavat toisistaan:
>> sinänsä melko sopivia sanoja pannaan peräkkäin, mutta järjestys
>> seuraa orjallisesti lähtökieltä, jolloin merkitys vaihtuu.
>
> Mielenkiintoista. Mutta ehkä asia lanseerattu varhaisessa vaiheessa,
> jotta G. herättäisi huomiota ja syntyisi keskustelua tai ihan vain
> piruuttaan?
Kyllähän Google lanseeraa kokeellisia palveluita paljonkin, ja niistä
suurin osa kuolee pois. Tämä on kuitenkin eri tason asia, koska käännös
tuottaa hyvin usein kielellisesti oikeita tai suunnilleen oikeita
virkkeitä, joiden sisältö on aivan muuta kuin lähtötekstin, ja tämän
havaitsee varsin nopeassakin testauksessa.
> Entä onko ajateltavissa, että metodia voisi verrata
> pitkään iteraatioketjuun tai pikkulapsen monta vuotta kestävään
> kielenoppimiseen, joka lopulta johtaa parempaan tulokseen?
Sitähän automaattisen kielenkääntämisen kehittely jossain mielessä on,
mutta tässä ilmeisesti perustekniikat ovat liian alkeellisia ja
yksipuolisia. Ymmärtääkseni alan asiantuntijat ovat aika yksimielisiä
siitä, että kääntämiseen on monta lähestymistapaa mutta hyvään tulokseen
pyrittäessä päädytään kuitenkin eri tapojen yhdistelyyn (sekoitussuhteet
tietysti vaihtelevat).
Juttuni aiheesta on tänään 20.5. Hesarissa sivulla D 2 ja oli jo (tosin
eri kuvan kera) eilisessä "verkko-Hesarissa" ja on edelleen osoitteessa
http://www.hs.fi/ulkomaat/artikkeli/Google+soomentaa+v%C3%A4h%C3%A4n+miten+sattuu/1135236474644
jota kautta löytyy myös lukijoiden kommentteja. Niissä sanotaan vastaan
sen verran vahvasti, että juttu oli ilmeisen tarpeellinen: ihmisille
syntyy todella ruusuisia käsityksiä palvelusta, jos he sattuvat tekemään
vain yksinkertaisia kokeiluja (eivätkä osaa lähtötekstiä tarpeeksi
ymmärtääkseen, että asia on päälaellaan?).
> Kun käännöksen päälle vie hiiren kohdistimen, tulee esille alkuperäinen
> teksti ja ehdotus/kehotus ehdottaa parempaa käännöstä. Siitä klikatessa
> aukeaa teksti-ikkuna, johon mielestään paremman käännöksen saa syöttää.
Tässäkin voi piillä outojen käännösten selitys: ihmiset syöttävät
tahallaan (ilkivaltaisesti, kiusamielellä) jotain "hupaisaa", ja ohjelma
ottaa kaiken täydestä kuin väärän rahan.
-----------------------------
ml...@elisanet.fi
http://www.elisanet.fi/mlang/