Вчера нашёл стеммер от яндекса
(http://company.yandex.ru/technologies/mystem/), и сделал для него
небольшую обёртку на руби: https://github.com/dmitry/yandex_mystem
Есть ещё множество разработок, но все они, в основном, на C++ и закрытые.
2012/1/9 Nash Bridges <pleasese...@gmail.com>:
> https://github.com/eveel/jetspade-wiki/blob/master/Home.md
> сам сервис лежит, но можно покопаться в исходниках
>
> --
> --
> Данное сообщение отправлено Вам, так как Вы являетесь подписчиком группы "RubyOnRails to russian" на группах Google.
> FAQ группы находится по адресу: http://ru.wikibooks.org/wiki/RubyFAQ
>
> Для того, чтобы отправить сообщение в эту группу, пошлите его по адресу
> ror...@googlegroups.com
> Чтобы отменить подписку на эту группу, отправьте сообщение по адресу: ror2ru-un...@googlegroups.com
> Дополнительные варианты находятся на странице группы http://groups.google.com/group/ror2ru?hl=ru
--
Dmitry Polushkin
2012/1/9 Nash Bridges <pleasese...@gmail.com>:
> https://github.com/eveel/jetspade-wiki/blob/master/Home.md
> сам сервис лежит, но можно покопаться в исходниках
>
На самом деле, если не смущает потеря производительности на вызове
бинаря mystem c перенаправлением IO-потоков и последующим разбором его
выхлопа -- то это хорошее решение: несмотря на релиз mystem примерно в
2003 году, он остаётся одним из лучших морфологических анализаторов
русского языка.
Не нужно бояться словарей. Из-за богатства морфологии (особенностей
словоизменения и словообразования) нашего языка оказывается
невозможным построить автоматический анализатор, способный работать
без словаря. Например, тот же mystem хранит словарь внутри бинарника.
Собственно, в то время, когда мне нужен был морфологический
анализатор, я переписал pymorphy на Ruby. Проблема в том, что pymorphy
-- переписанный на Python анализатор AOT [1], который не так хорош, как
mystem. Метод mystem описан в работе <<Морфологический анализ и
гипотезы о неизвестных словах в Лас-Вегасе>> [2] и мне хочется
реализовать это дело в myaso.
Сейчас ситуация следующая:
1) я использую словари AOT, поскольку они неплохи и доступны;
2) для преобразования их в более <<мясной>> вид (Tokyo Cabinet Table
Database) используется myasorubka;
3) прямо сейчас myaso умеет только анализировать словарные слова в
соответствии со статьёй про mystem, а также имеет мегаудобную штуку
для работы с грамматическими характеристиками (в принципе, мои
требования он покрывает на 80%);
4) я недавно подал заявку на грант в УрО РАН именно для развития
myaso, и если дадут добро, то у меня будет большее желание сделать его
гораздо лучше (то есть, примерно на 20% круче).
[1]: http://aot.ru/docs/sokirko/Dialog2004.htm
[2]: http://download.yandex.ru/company/iseg-las-vegas.pdf
On 9 янв, 12:47, Dmitry Polushkin <dmitry.polush...@gmail.com> wrote:
> Посмотрел, всё очень сильно завязано на словарях... надо что б проект ожил.
>
> 2012/1/9 Nash Bridges <pleasesendmeas...@gmail.com>:
https://github.com/eveel/myaso
https://github.com/eveel/myasorubka
Если вообще интересна тема обработки естественного языка, то фил фри
ту контакт ми по адресам на http://eveel.ru :)
Если топикстартеру нужен именно стеммер, то Snowball, скорее всего,
устроит.
Салют,
я написал неплохой уже анализатор латыни, скоро выложу. Но довольно
медленный. Приходится запоминать результат в базе, и не выполнять
анализ каждый раз. Я сравниваю результат с двумя существующими уже
анализаторами (на rspec) - c Words Уитеккера и c Персеем с thufts.edu
(онлайн). Совпадение заведомо больше 90%, близко к 100.
И доведу до ума анализатор древнегреческого в этом году тоже. Хочется
сделать и русский тоже на том же принципе. Ну и санскрит тоже нужен
обязательно.
Но сейчас меня очень интересуют синтаксические анализаторы. Вот их нет.
--
М.
Доступых синтаксических анализаторов русского языка практически не
существует. В общем виде — это адская задача, которая для нашего языка
вряд ли будет решена в ближайшем будущем, если я ничего не пропустил.
Опять же, есть AOT [1], но он работает не очень клёво.
[1]: http://aot.ru/docs/synan.html
On 9 янв, 15:05, Michael Bykov <m.by...@gmail.com> wrote:
> 9 января 2012 г. 12:21 пользователь Dmitry A. Ustalov <dmi...@eveel.ru> написал:
>
>
>
>
>
>
>
>
>
> > Snowball —- это чистый стеммер (коты → кот), который не выполняет
> > анализ слова. Морфологический анализатор помимо этого ещё и определяет
> > грамматические характеристики слова (коты → лемма "кот", имя
> > существительное, множественное число, и так далее).
>
> > Если топикстартеру нужен именно стеммер, то Snowball, скорее всего,
> > устроит.
>
> > On 9 янв, 14:16, Julik Tarkhanov <julian.tarkha...@gmail.com> wrote:
> >> Ребя так был же портированный snowball stemmer нет?
>
> >> On 9 jan. 2012, at 09:13, "Dmitry A. Ustalov" <dmi...@eveel.ru> wrote:
>
> >> > Привет, я автор myaso.
>
> > --
> > --
> > Данное сообщение отправлено Вам, так как Вы являетесь подписчиком группы "RubyOnRails to russian" на группах Google.
> > FAQ группы находится по адресу:http://ru.wikibooks.org/wiki/RubyFAQ
>
> > Для того, чтобы отправить сообщение в эту группу, пошлите его по адресу
> > ror...@googlegroups.com
> > Чтобы отменить подписку на эту группу, отправьте сообщение по адресу: ror2ru-un...@googlegroups.com
> > Дополнительные варианты находятся на странице группыhttp://groups.google.com/group/ror2ru?hl=ru
>
> Салют,
>
> я написал неплохой уже анализатор латыни, скоро выложу. Но довольно
> медленный. Приходится запоминать результат в базе, и не выполнять
> анализ каждый раз. Я сравниваю результат с двумя существующими уже
> анализаторами (на rspec) - c Words Уитеккера и c Персеем с thufts.edu
> (онлайн). Совпадение заведомо больше 90%, близко к 100.
>
> И доведу до ума анализатор древнегреческого в этом году тоже. Хочется
> сделать и русский тоже на том же принципе. Ну и санскрит тоже нужен
> обязательно.
>
> Но сейчас меня очень интересуют синтаксические анализаторы. Вот их нет.
>
> --
> М.
>
> http://diglossa.ru
> xmpp://m.by...@jabber.ru
> Если не секрет, то зачем нужен анализатор латыни и древнегреческого?
> Есть описание моделей и алгоритмов?
Для читать по гречески. В частности, для http://ru.diglossa.org, посмотрите.
Описание я постараюсь сделать к 1 февраля, к конференции
"Свободное ПО в образовании" в Переславле-Залесском.
Но могу и не успеть, тогда чуть позже. Я перевел диглоссу на кауч с
рельсов, и закопался немного. На рельсах плохо работать, когда все в
деревьях, а кауч как родной.
Я вам напишу, как только описание будет готово и API доступно. Русский
мне тоже нужен.
А если кто-то хочет помочь в работе с морфологией санскрита, пишите,
нужны бы добровольцы.
--
М.
Конечно, спрос на сервис есть, мне не хватает времени. Мои локальные
нужды он удовлетворяет, и если хочется помочь с открытым анализатором
myaso [1] -- я буду просто дичайше благодарен, например. Вообще,
плотнее за него взяться я думал со следующей недели.
[1]: Web-сервис http://myaso.eveel.ru лежал на момент написания
сообщения, и будет поднят в понедельник, 15 января с.г.
Кстати, мне таки дали грант на это дело: http://plove.eveel.ru/2012/01/20/morphological-grant,
так что скоро более-менее зашевелюсь.
--
--
Данное сообщение отправлено Вам, так как Вы являетесь подписчиком группы "RubyOnRails to russian" на группах Google.
FAQ группы находится по адресу: http://ru.wikibooks.org/wiki/RubyFAQ
Для того, чтобы отправить сообщение в эту группу, пошлите его по адресу
ror...@googlegroups.com
Чтобы отменить подписку на эту группу, отправьте сообщение по адресу: ror2ru-un...@googlegroups.com
Дополнительные варианты находятся на странице группы http://groups.google.com/group/ror2ru?hl=ru
Выбор облачной среды диктуется не отношением к языку программирования,
но более политическими мотивами. В нашем институте люди работают за
гранты, и если грант по OpenNebula был в нашей стране получен кем-то
ещё, то у себя локально это дело протолкнуть проще. Ну и в конце
концов, это вполне неплохая система, хоть и со своими закидонами.
Тут за оффтоп админы ругаются? Если да, то контакты мои у тебя должны
иметься. :)
On 22 янв, 19:28, Dmitry Polushkin <dmitry.polush...@gmail.com> wrote: