Гуглопереводчик

40 views
Skip to first unread message

Oleg Urzhumtsev

unread,
Apr 10, 2013, 1:29:16 PM4/10/13
to micr...@googlegroups.com, kesw-...@googlegroups.com, mathlinguistics
Пишу, в основном, для Ротуки, но кому-то тоже может быть интересно.
 
В общем, есть явное подозрение, что они разделили языковую модель на две части - глоссарий (перевод слов) и токенозависимую грамматику (построение фразы в зависимости от конкретных словоформ).
 
В общем, для пары русского с любым другим языком качество пострадало.
Что особенно печально - после отхода от модели памяти перевода ("куча заведомо верных переводов, их надо автоматически порезать на релевантные куски и потом склеить") построение фразы заметно пострадало.
Это заметно по тому, что интерфейс переводчика перестал предлагать ввести "свой" вариант (видимо, грамматическая модель слишком кривая и трудно обучаемая), хоть в переводе сайтов эта функция ещё осталась, а также по появлению оффлайнового недопереводчика для Android весьма приличного размера (порядка 150 Мб на язык - по-моему, для статистической модели это прекрасно).
Оттуда, кстати, можно файлы моделей потырить и попробовать применить у себя.
 
Это всего лишь мысли, поэтому если у кого-нибудь есть подтверждение (а лучше - опровержение) - с удовольствием почитаю пруфлинки :)

--
:)
Cheers,
Urzhumtsev Oleg

Yury Katkov

unread,
Apr 10, 2013, 1:32:04 PM4/10/13
to kesw-...@googlegroups.com
Олег, я совсем не понял, о чем ты сейчас говорил.
-----
Yury Katkov, WikiVote



2013/4/10 Oleg Urzhumtsev <dar...@gmail.com>:
> --
> Вы получили это сообщение, поскольку подписаны на группу kesw-school.
>
> Чтобы отказаться от подписки на эту группу и перестать получать из нее
> сообщения, отправьте электронное письмо на адрес
> kesw-school...@googlegroups.com.
> Подробнее о функциях можно узнать на странице
> https://groups.google.com/groups/opt_out.
>
>

Oleg Urzhumtsev

unread,
Apr 10, 2013, 1:36:19 PM4/10/13
to kesw-...@googlegroups.com
Про языковую модель, применённую в Google Translate и о том, что она, видимо, изменилась несколько месяцев назад.
 
По крайней мере, в мире машинного перевода Google был образцом чисто статистической модели перевода, со всеми вытекающими плюсами и минусами.

2013/4/10 Yury Katkov <katkov...@gmail.com>

Dmitry Mouromtsev

unread,
Apr 10, 2013, 2:40:13 PM4/10/13
to kesw-...@googlegroups.com, micr...@googlegroups.com, mathlinguistics
Олег, похоже ты прав. Действительно, результат перевода стал хуже. Даже с простыми вещами теперь есть проблемы. Раньше этого не замечал. Но мои наблюдения на уровне ощущений. Пруфа не дам :(

10.04.2013, в 21:29, Oleg Urzhumtsev написал(а):

Oleg Urzhumtsev

unread,
Apr 10, 2013, 3:07:17 PM4/10/13
to kesw-...@googlegroups.com, micr...@googlegroups.com, mathlinguistics
У меня есть пруф по переводу на лето 2011 года (переведённые гуглом с английского и испанского два небольших корпуса), а также, кажется, разный перевод для онлайн-переводчика на translate.google.com и перевода вебсайтов (у меня для одного и того же текста разные варианты получились; вряд ли это контекст так сильно повлиял).

Мне интересно было бы почитать какие-нибудь публикации или техдоки на тему. 
Впрочем, гугл и поддержка пользователей... Привыкли уже.

2013/4/10 Dmitry Mouromtsev <d.mur...@gmail.com>

Mihalkova Elena

unread,
Apr 11, 2013, 5:06:47 AM4/11/13
to kesw-...@googlegroups.com, micr...@googlegroups.com, mathlinguistics
у них вроде бы год-два назад был большой вброс корпусов документов евросоюза в базу данных. так что с 2011 годом уже точно бесполезно сравнивать. ну и потом эта кнопочка желтая по выбору юзером предпочтительного варианта тоже же ж меняет статистику - я тут както переводила списки юридических документов - в течение двух суток предпочтительный вариант для "свод законов РФ" точно раза два поменялся в смысле расстановки артиклей и расшифровки аббревиатуры.
а может они просто реально в корпус чето такое добавили что им сбило например в каких-то стилях перевод?
или просто краудсорсинг так действует?
ПС. я вроде до сих пор довольна гугл-транслейтом :)


11 апреля 2013 г., 1:07 пользователь Oleg Urzhumtsev <dar...@gmail.com> написал:



--
С уважением,
Елена Михалькова

Oleg Urzhumtsev

unread,
Apr 11, 2013, 5:17:35 AM4/11/13
to kesw-...@googlegroups.com
Кнопочка есть, но теперь она выбирает один перевод из пяти-семи предложенных, плюс можно переставить фрагменты фразы местами.
Ввести свой перевод слова или всего предложения теперь нельзя.

Условно, "You must kidding me" переводится как "Вы должны шутить меня" или "Вы, должно быть, шутите меня". Это дурацкое "меня" теперь не убрать и не предложить нормальный вариант.
Старый гугл был прекрасен тем, что даже близко не понимал структуру языка, ему было всё равно, на каком языке текст, он просто обучался на корпусе. Теперь модель стала сложнее, но одновременно гораздо менее гибкой.

2013/4/11 Mihalkova Elena <evro...@gmail.com>

Lesha Lomalkin

unread,
Apr 11, 2013, 7:00:15 AM4/11/13
to kesw-...@googlegroups.com, micr...@googlegroups.com, mathlinguistics
С точки зрения безопасности не совсем правильно применять действие кнопочки выбора предпочтительной фразы, нажатой одним пользователем для всей базы, т.к. в этом случае появляется интересная возможность попортить им всю базу. В то же время не учитывать то, что выбирают пользователи - тоже как-то не правильно. Возможно имело место что-то подобное, после чего было принято решение убрать данный функционал.

P.S. Обсуждаемые изменения затронули только пару русский-английский или еще какие-то языки?

11 апреля 2013 г., 13:06 пользователь Mihalkova Elena <evro...@gmail.com> написал:



--
С уважением, Lesha Lomalkin

Oleg Urzhumtsev

unread,
Apr 11, 2013, 7:04:01 AM4/11/13
to kesw-...@googlegroups.com
Лёш, ну статистика же. Один перевод принимается во внимание, но если есть 10000 других и при этом они последовательны - то твоё изменение принято во внимание не будет. С другой стороны, когда в базе всего три перевода и ещё три человека добавят новый - новый будет принят во внимание.

Это вообще не проблема, т.к. в параллельных документах такие забавные варианты перевода могут попасться (особенности контекста, переводчика или косяки системы). Собственно, в этом и был основной прикол старого гуглопереводчика.

2013/4/11 Lesha Lomalkin <in...@lomalkin.ru>

Lesha Lomalkin

unread,
Apr 11, 2013, 7:12:07 AM4/11/13
to kesw-school
Ну бот-сети же, Олег. Делается на раз-два. Это же очень дешево сейчас.


11 апреля 2013 г., 15:04 пользователь Oleg Urzhumtsev <dar...@gmail.com> написал:

Oleg Urzhumtsev

unread,
Apr 11, 2013, 7:18:16 AM4/11/13
to kesw-...@googlegroups.com
Научить переводчик переводить "Russia won the game" как "Россия проиграла игру", конечно. :)

Кстати, такие ошибки сейчас вроде бы должны исключиться; я примеры уже подзабыл, к сожадению, протестировать не могу.

2013/4/11 Lesha Lomalkin <in...@lomalkin.ru>

Mihalkova Elena

unread,
Apr 11, 2013, 7:40:25 AM4/11/13
to kesw-...@googlegroups.com
а еще они могли тупо поменять алгоритм выравнивания корпусов - он разный для разных языков/групп языков, так что можно найти те языки, где не было изменений - те, например, которые не очень популярны и по которым мало ресерча делается.


11 апреля 2013 г., 17:18 пользователь Oleg Urzhumtsev <dar...@gmail.com> написал:

Антон Андреичев

unread,
Apr 12, 2013, 6:19:17 AM4/12/13
to kesw-...@googlegroups.com
Обама прав, Путин не прав. 

Думаю, что все примеры, которые были на слуху, могли поправить и вручную, за столько - то лет.

--
С уважением, 
Антон Андреичев

Мои контакты:
Телефон:  +7 (909) 584-76-36
Почта, чат (jabber): anton.a.a...@gmail.com
Skype: tonik.obozhouse
ICQ:  439-999-746
Вконтакт: http://vk.com/mrtonik



11 апреля 2013 г., 15:18 пользователь Oleg Urzhumtsev <dar...@gmail.com> написал:

Lesha Lomalkin

unread,
Apr 12, 2013, 6:47:52 AM4/12/13
to kesw-school

Если и вручную, то все равно кто-то это должен делать. Ты же знаешь, есть куча SEO-примеров на эту тему, развлекаются специалисты)

12.04.2013 14:19 пользователь "Антон Андреичев" <anton.a.a...@gmail.com> написал:

Oleg Urzhumtsev

unread,
Apr 12, 2013, 6:48:03 AM4/12/13
to kesw-...@googlegroups.com
Точные примеры не помнишь? Я с удовольствием проверю)

P.S. Я скорее поверю, что гугл изменил алгоритм перевода вообще, чем в то, что что-то поправили руками.
Там же роботы работают.

2013/4/12 Антон Андреичев <anton.a.a...@gmail.com>

Lesha Lomalkin

unread,
Apr 12, 2013, 6:51:05 AM4/12/13
to kesw-school

Олег, они протухают как только попадают в паблик, ты же знаешь это, и перевод тут не причем, просто из смежной области - этакий интернет-вандализм.

12.04.2013 14:48 пользователь "Oleg Urzhumtsev" <dar...@gmail.com> написал:

Oleg Urzhumtsev

unread,
Apr 12, 2013, 7:00:19 AM4/12/13
to kesw-...@googlegroups.com, micr...@googlegroups.com
Ну не скажи, про Путина и Обаму года полтора гулял и не протухал, я только забыл точную формулировку на английском :(

Да. Слишком много поменялось.
У меня в корпусе за лето 2011 http://translate.google.com/#en/ru/You%20must%20kidding%20me переводится как "Да ты шутишь!", а сейчас вы видите, что происходит.
Но "Putin is to blame" / "Obama is to blame" переводятся одинаково.

Так что есть серьёзные основания полагать, что в нынешнем онлайновом и оффлайновом (для Android) переводчиках алгоритмы одинаковые.

Жаль. Промт теперь снова переводит ощутимо лучше, причём заслуга Промта в этом минимальна - он просто не умер за прошедшие два года.

2013/4/12 Lesha Lomalkin <in...@lomalkin.ru>

Mihalkova Elena

unread,
Apr 12, 2013, 7:16:07 AM4/12/13
to kesw-...@googlegroups.com
 "вообще поменяли алгоритм" конечно вряд ли, но что-то могли
про "шутить" - я вчера проверяла, когда ты привел этот пример, было "шутите", "шутишь" - вторым вариантом. значит статистика нажимания желтых кнопочек таки действует.
точно чето с корпусами:
Obama is to blame - (Обама) (в этом виноват)
Putin is to blame - (Путин виноват)
Lena is to blame - (Лена) (виноват) - никакой морфологией не пахнет :)


12 апреля 2013 г., 16:48 пользователь Oleg Urzhumtsev <dar...@gmail.com> написал:

Oleg Urzhumtsev

unread,
Apr 12, 2013, 7:35:18 AM4/12/13
to kesw-...@googlegroups.com
Лена, я в первом письме писал, почему есть ощущение про "вообще".
Раньше он был большим, распараллеленным и вообще работал в единственном экземпляре.
Где-то в ноябре мне удалось достать Google Translator Offline для Android. переводчик для ER весил меньше 500 Мб и работал точно так же, как онлайновый.

Поэтому возникло ощущение, что старую чисто статистическую модель, в которой обучение было интегрировано в процесс работы, убрали, и применили двухуровневую модель, в которой в процессе работы обучаются только коэффициенты для вариантов перевода, а структура фразы забита во вторую часть модели. 
Зачем это сделано - понятно, ибо старая модель хранит _все возможные_ предложения, когда-либо переведённые, и тратит кучу времени на поиск правильного варианта. Она работает не со словами и предложениями, а с кусками текста.

Новая модель работает со структурой фраз, вытащенных из старой модели, и глоссариями (автоматическими словарями), вытащенными, видимо, с помощью закрытого в 2008 году Google Sets.

Главное достоинство - относительная прозрачность, простота и нетребовательность к ресурсам: на моём недопланшете локальный Google Translate работает заметно быстрее, чем запущенный на более быстром компе Промт.

2013/4/12 Mihalkova Elena <evro...@gmail.com>

Mihalkova Elena

unread,
Apr 12, 2013, 7:45:50 AM4/12/13
to kesw-...@googlegroups.com
ну ок. пардон за флуд тогда :)


12 апреля 2013 г., 17:35 пользователь Oleg Urzhumtsev <dar...@gmail.com> написал:

Oleg Urzhumtsev

unread,
Apr 12, 2013, 7:46:49 AM4/12/13
to kesw-...@googlegroups.com
Нет-нет, спасибо большое!
Ты что-то узнала, а я убедился, что не упустил вроде бы детали в своей гипотезе.

Хотелось бы услышать мнение других.

2013/4/12 Mihalkova Elena <evro...@gmail.com>

Dmitry Mouromtsev

unread,
Apr 19, 2013, 6:40:30 AM4/19/13
to kesw-...@googlegroups.com
У них еще одна сомнительная фича появилась - при попытке набирать в русском окне латиницей происходит автоматическая транслитерация. В окне перевода разумеется лажа. Правда если включить виртуальную клаву, то вреде эта функция отключается.

12.04.2013, в 15:46, Oleg Urzhumtsev написал(а):
Reply all
Reply to author
Forward
0 new messages