Google Groups no longer supports new Usenet posts or subscriptions. Historical content remains viewable.
Dismiss

translator google

63 views
Skip to first unread message

M.M.

unread,
Apr 10, 2012, 4:58:27 PM4/10/12
to
Cześć

Zaskakuje mnie (pozytywnie) jakość automatycznego tłumaczenia
przez translator google. Gdybym miał coś takiego zrobić, to w
chwili obecnej nie wiedziałby nawet jak się za to zabrać. Mam
kilka pytań w związku z tym:
1) Czy wie ktoś chociaż w przybliżeniu jak były przygotowane dane uczące?
2) Jakim algorytmem to mogło być uczone?
3) Jakiej jakości są inne translatory? Słyszałem że są lepsze.

Z góry dziękuję i pozdrawiam.


--
Wysłano z serwisu Usenet w portalu Gazeta.pl -> http://www.gazeta.pl/usenet/

Maciej Pilichowski

unread,
Apr 11, 2012, 1:51:23 AM4/11/12
to
On Tue, 10 Apr 2012 20:58:27 +0000 (UTC), "M.M."
<mariott...@gazeta.pl> wrote:

>1) Czy wie kto¶ chociaż w przybliżeniu jak były przygotowane dane ucz±ce?

Materialy dwujezyczne, np. te same ksiazki, tylko ze w jezykach.

>2) Jakim algorytmem to mogło być uczone?

Tlumaczenie statystyczne AFAIK.

milego dnia, hej
--
Moja wyprzedaz wszystkiego: ksiazki, plyty, filmy.
http://garaz.pl.hostingasp.pl/

Marek Borowski

unread,
Apr 11, 2012, 11:57:25 AM4/11/12
to
On 2012-04-10 22:58, M.M. wrote:
> Cześć
>
> Zaskakuje mnie (pozytywnie) jakość automatycznego tłumaczenia
> przez translator google. Gdybym miał coś takiego zrobić, to w
> chwili obecnej nie wiedziałby nawet jak się za to zabrać. Mam
> kilka pytań w związku z tym:
> 1) Czy wie ktoś chociaż w przybliżeniu jak były przygotowane dane uczące?
> 2) Jakim algorytmem to mogło być uczone?
> 3) Jakiej jakości są inne translatory? Słyszałem że są lepsze.
>
Google ma na tyle potezna infrastukture ze moze mapowac zdania 1:1. Ale
to IMO.

Pozdrawiam

Marek

mari...@gazeta.skasuj-to.pl

unread,
Apr 11, 2012, 6:45:48 PM4/11/12
to
Maciej Pilichowski <Pilichowski.M...@gmail.com> napisał(a):

> On Tue, 10 Apr 2012 20:58:27 +0000 (UTC), "M.M."
> <mariott...@gazeta.pl> wrote:
>
> >1) Czy wie ktoÂś chociaĹź w przybliĹźeniu jak byĹ y przygotowane dane uczÂące?
>
> Materialy dwujezyczne, np. te same ksiazki, tylko ze w jezykach.

>
> >2) Jakim algorytmem to mogĹ o byÄ uczone?
>
> Tlumaczenie statystyczne AFAIK.
Czyli raczej metody bayesowe niż grafy decyzyjne albo sztuczne sieci
neuronowe?
Pozdrawiam

M.M.

unread,
Apr 11, 2012, 6:45:59 PM4/11/12
to
Maciej Pilichowski <Pilichowski.M...@gmail.com> napisał(a):

> On Tue, 10 Apr 2012 20:58:27 +0000 (UTC), "M.M."
> <mariott...@gazeta.pl> wrote:
>
> >1) Czy wie ktoÂś chociaĹź w przybliĹźeniu jak byĹ y przygotowane dane uczÂące?
>
> Materialy dwujezyczne, np. te same ksiazki, tylko ze w jezykach.

>
> >2) Jakim algorytmem to mogĹ o byÄ uczone?
>
> Tlumaczenie statystyczne AFAIK.
Czyli raczej metody bayesowe niż grafy decyzyjne albo sztuczne sieci
neuronowe?
Pozdrawiam



Maciej Pilichowski

unread,
Apr 12, 2012, 1:08:37 AM4/12/12
to
On Wed, 11 Apr 2012 17:57:25 +0200, Marek Borowski
<ma...@a.borowski.com> wrote:

>Google ma na tyle potezna infrastukture ze moze mapowac zdania 1:1.

Co to jest mapowanie zdania 1:1?

Maciej Pilichowski

unread,
Apr 12, 2012, 1:09:36 AM4/12/12
to
On Wed, 11 Apr 2012 22:45:59 +0000 (UTC), " M.M."
<mari...@gazeta.SKASUJ-TO.pl> wrote:

>> Tlumaczenie statystyczne AFAIK.
>Czyli raczej metody bayesowe niż grafy decyzyjne albo sztuczne sieci
>neuronowe?

Oznacza to, ze raczej duze zbiory danych + statystyki a nie metody
regulowe (czyli klasyczny rozbior zdania, lokalna translacja, etc).

Paweł Kierski

unread,
Apr 12, 2012, 1:28:25 AM4/12/12
to
W dniu 2012-04-12 07:08, Maciej Pilichowski pisze:
> On Wed, 11 Apr 2012 17:57:25 +0200, Marek Borowski
> <ma...@a.borowski.com> wrote:
>
>> Google ma na tyle potezna infrastukture ze moze mapowac zdania 1:1.
>
> Co to jest mapowanie zdania 1:1?

Pewnie chodziło o pamiętanie tłumaczeń całych fraz. Załatwia to
w większości przypadków kontekst, jak np. "Czołg ma gąsienicę."...
Ups! Tu akurat Google translator zawodzi 8-) Nawet alternatywnie nie
podpowiada "track", choć w liczbie mnogiej ("gąsienice") już daje sobie
radę.

--
Paweł Kierski
ne...@pkierski.net

Roman W

unread,
Apr 12, 2012, 3:11:16 AM4/12/12
to
On Thursday, April 12, 2012 6:09:36 AM UTC+1, Maciej Pilichowski wrote:
> On Wed, 11 Apr 2012 22:45:59 +0000 (UTC), " M.M."
> <mari...@gazeta.SKASUJ-TO.pl> wrote:
>
> >> Tlumaczenie statystyczne AFAIK.
> >Czyli raczej metody bayesowe niż grafy decyzyjne albo sztuczne sieci
> >neuronowe?
>
> Oznacza to, ze raczej duze zbiory danych + statystyki a nie metody
> regulowe (czyli klasyczny rozbior zdania, lokalna translacja, etc).

"Litwo, ojczyzno moja" Google tlumaczy na "Litwo, my country", wiec chyba
ich baza nie jest zbyt rozbudowana ;-)

RW

Tomek Banach

unread,
Apr 12, 2012, 6:55:58 AM4/12/12
to
Z kategorii śmieszne tłumaczenia - http://tinyurl.com/7kudk2u

Sprawdziłem teraz już poprawiono.

--
Tomek

M.M.

unread,
Apr 13, 2012, 3:50:51 AM4/13/12
to
Tomek Banach <banciur_...@banciur.org> napisał(a):

> Z kategorii Ĺ mieszne tĹ umaczenia - http://tinyurl.com/7kudk2u
>
> SprawdziĹ em teraz juĹź poprawiono.

Zawsze najbardziej ciekawy byłem jakby takie programy działały, gdyby
dysponowano danymi uczącymi mniej/więcej takimi jakimi teraz się
dysponuje, ale za to jakby algorytm samouczący miał do dyspozycji
ogromne moce obliczeniowe, np. 10^1000 razy szybszy procesor niż
dzisiejszy najszybszy.

Pozdrawiam

Borneq

unread,
Apr 15, 2012, 5:33:02 AM4/15/12
to
Użytkownik "Maciej Pilichowski" <Pilichowski.M...@gmail.com>
napisał w wiadomości news:4t6ao71mplin1t6dp...@4ax.com...
>>1) Czy wie ktos chociaż w przybliżeniu jak były przygotowane dane uczace?
>
> Materialy dwujezyczne, np. te same ksiazki, tylko ze w jezykach.

Tu trzeba by znalezc po pierwsze duzo meterialow w wielu jezykach, a po
drugie ludzkie tlumaczenia nie sa slowo w slowo. Jak zachowac
synchronizacje, jesli nawet w tluamczeniu przyjmie sie ze kazde zdanie
tlumaczone jest na zdanie to w samym zdaniu slowa w jednym i drugim jezyku
moga miec inna kolejnosc, wtedy jak to moze dzialac?


Maciej Pilichowski

unread,
Apr 17, 2012, 1:34:09 AM4/17/12
to
On Sun, 15 Apr 2012 11:33:02 +0200, "Borneq"
<bor...@antyspam.hidden.pl> wrote:

>Tu trzeba by znalezc po pierwsze duzo meterialow w wielu jezykach,

Dla google'a to nie jest problem.

>a po
>drugie ludzkie tlumaczenia nie sa slowo w slowo. Jak zachowac
>synchronizacje, jesli nawet w tluamczeniu przyjmie sie ze kazde zdanie
>tlumaczone jest na zdanie to w samym zdaniu slowa w jednym i drugim jezyku
>moga miec inna kolejnosc, wtedy jak to moze dzialac?

Wujek Google odpowiada "statistical machine translation knight"

Borneq

unread,
May 28, 2012, 4:49:15 AM5/28/12
to
U�ytkownik "M.M." <mariott...@gazeta.pl> napisa� w wiadomo�ci
news:jm26tj$a6p$1...@inews.gazeta.pl...
> 1) Czy wie kto� chocia� w przybli�eniu jak by�y przygotowane dane ucz�ce?
> 2) Jakim algorytmem to mog�o by� uczone?
> 3) Jakiej jako�ci s� inne translatory? S�ysza�em �e s� lepsze.
>
> Z g�ry dzi�kuj� i pozdrawiam.
http://pl.wikipedia.org/wiki/T%C5%82umaczenie_statystyczne

http://www.staff.amu.edu.pl/~inveling/pdf/Marcin_Junczys-Dowmunt_inve16.pdf
http://www.knsg.ukw.edu.pl/konferencje_prezentacje/lingwistyka_komputerowa/lingwistyka_komputerowa.ppt
http://code.google.com/p/giza-pp/

Nie wiem, sk�d mo�na wzi�� r�wnoleg�� baz� danych z t�umaczeniem, jest na
przyk�ad korpus j�zyka poskiego http://korpus.pl/index.php?page=poliqarp
ale jedynie sam j�zyk polski

Arkadiusz Dymek

unread,
May 28, 2012, 5:20:56 AM5/28/12
to
W dniu 5/28/2012 10:49 AM, Borneq wrote:
> Użytkownik "M.M." <mariott...@gazeta.pl> napisał w wiadomości
> news:jm26tj$a6p$1...@inews.gazeta.pl...
>> 1) Czy wie ktoś chociaż w przybliżeniu jak były przygotowane dane uczące?
>> 2) Jakim algorytmem to mogło być uczone?
>> 3) Jakiej jakości są inne translatory? Słyszałem że są lepsze.
>>
>> Z góry dziękuję i pozdrawiam.
> Nie wiem, skąd można wziąć równoległą bazę danych z tłumaczeniem, jest
> na przykład korpus języka poskiego http://korpus.pl/index.php?page=poliqarp
> ale jedynie sam język polski

Np. ogromne bazy tłumaczeń UE:
http://langtech.jrc.ec.europa.eu/DGT-TM.html

Pozdrawiam,
Arkadesh

Borneq

unread,
May 28, 2012, 5:39:10 AM5/28/12
to
Użytkownik "Arkadiusz Dymek" <adr...@nie.bedzie> napisał w wiadomości
news:4fc34381$1...@news.home.net.pl...
> Np. ogromne bazy tłumaczeń UE:
> http://langtech.jrc.ec.europa.eu/DGT-TM.html

Znalazłem niezłą stronę z llinkami
http://clip.ipipan.waw.pl/LRT
gdzie mamy "Parallel corpora"
jest http://opus.lingfil.uu.se/index.php z ogromną ilością podzieloną
tematycznie
http://langtech.jrc.it/JRC-Acquis.html - europejskie, obrobione

Pozdr

0 new messages