есть кто живой в рассылке, и куда подевался пожидаев?

3 views
Skip to first unread message

Тимофей Игнатов

unread,
Apr 7, 2025, 3:57:52 AM4/7/25
to luwrain-...@googlegroups.com
всем привет. уже долгое время в нашей рассылке полное молчание. никто не пишет, все куда-то исчезли. решил всёже написать, справиться, не всё равно всё-таки. друзья, давайте, если кто ещё здесь, и кто желает, естественно, проведём небольшую перекличку. также обеспокоил тот факт, что исчез с радаров михаил пожидаев. во вконтакте он был последний раз аж шестого января. михаил сергеевич, куда вы подевались? друзья, в общем, кто ещё здесь, и кто желает, откликнитесь пожалуйста! всем крепкого здоровья, добра, счастья, любви и мира! :-)

Александр Паньшин

unread,
Apr 7, 2025, 4:13:37 AM4/7/25
to 'Ivan' via luwrain-users-ru
Ага есть. Михаила давно не слышно, но в ТГ его контакт бы активен сегодня. Последние правки кода на по luwrain 10 месяцев назад.

пн, 7 апр. 2025 г., 10:57 Тимофей Игнатов <tim...@yandex.ru>:
всем привет. уже долгое время в нашей рассылке полное молчание. никто не пишет, все куда-то исчезли. решил всёже написать, справиться, не всё равно всё-таки. друзья, давайте, если кто ещё здесь, и кто желает, естественно, проведём небольшую перекличку. также обеспокоил тот факт, что исчез с радаров михаил пожидаев. во вконтакте он был последний раз аж шестого января. михаил сергеевич, куда вы подевались? друзья, в общем, кто ещё здесь, и кто желает, откликнитесь пожалуйста! всем крепкого здоровья, добра, счастья, любви и мира! :-)

--
Вы получили это сообщение, поскольку подписаны на группу luwrain-users-ru.

Чтобы отменить подписку на эту группу и больше не получать от нее сообщения, отправьте письмо на электронный адрес luwrain-users-...@googlegroups.com.
Чтобы посмотреть обсуждение, перейдите по ссылке https://groups.google.com/d/msgid/luwrain-users-ru/1463591744012667%40mail-sendbernar-production-main-73.klg.yp-c.yandex.net.

yuniks

unread,
Apr 8, 2025, 1:09:30 AM4/8/25
to Тимофей Игнатов
Hello Тимофей,
Monday, April 7, 2025, 10:57:47 AM, you wrote:

ТИ> в общем, кто ещё здесь, и кто желает, откликнитесь пожалуйста!

Живые то есть, но эхотаг, похоже, скорее мёртв, чем жив.
--
Best regards,
yuniks

Бердников Александр

unread,
Apr 9, 2025, 1:35:24 AM4/9/25
to luwrain-...@googlegroups.com
Привет всем.

Действительно рассылка стихла видимо за ненадобностью.
Вики точно не работает.
Я попытался в тележную группу для незрячих по линуксу бросить ссылку на
сборку rhvoice.

В телеге есть канал Михаил Пожидаев и группа luwrain.
Не знаю он или нет пишет в телегу.

08.04.2025 8:09, yuniks пишет:

Михаил Войцеховский

unread,
Apr 9, 2025, 10:26:42 PM4/9/25
to luwrain-...@googlegroups.com
В своем канале тележном  Михаил пишет относительно регулярно. Я так понимаю у него сейчас много преподавательской и научной работы. Что с луврайном -я не знаю.

ср, 9 апр. 2025 г. в 10:35, Бердников Александр <yav...@yandex.ru>:
--
Вы получили это сообщение, поскольку подписаны на группу luwrain-users-ru.

Чтобы отменить подписку на эту группу и больше не получать от нее сообщения, отправьте письмо на электронный адрес luwrain-users-...@googlegroups.com.
Чтобы посмотреть обсуждение, перейдите по ссылке https://groups.google.com/d/msgid/luwrain-users-ru/415f975d-07b0-486b-82d9-b47d5d7d6891%40yandex.ru.


--
С уважением, Войцеховский М.В.
 tel: +7 922 20 11 727   skype: misha-ek

Бердников Александр

unread,
Apr 14, 2025, 12:41:05 AM4/14/25
to luwrain-...@googlegroups.com
Привет всем.
Вот последняя заметка Михаила из телеги.
Призыв присоединяться к исследованию перспектив морфологического
тегирования для русского языка на основе внутреннего внимания! Есть
начальный код, по результатам выпускаем статью, все отличившиеся — в
соавторы!

В чём идея?

Это вариант ныне уже заглохшей библиотеки RNNMorph, которая решала такую
задачу на основе долгой краткосрочной памяти (LSTM). LSTM устарела, её
хорошо заменяет механизм внутреннего внимания. У коллег из МФТИ есть
похожая расставлялка морфологии на основе BERT. BERT, конечно, будет
чуть развитее чистого внутреннего внимания, но даёт меньше свободы и
возможностей, потому что сама принудительно кодирует все токены на
входе. Поди разбери, как кодирование чем-нибудь дополнить, если есть
такое желание.

Что в начальной реализации?

В репозитории с начальной реализацией, названной selftagger, набросал
модель на основе PyTorch, которая обучается на датасете Sintagrus и
производит определение частей речи, получая на вход только набор чистых
слов. Архитектура модели включает сначала слой embedding для кодирования
слов в векторы; далее есть слой из трёх сетей прямого распространения
для генерации векторов query, key и value; далее слой multi-head
attention для кодирования слов во внимание; потом ещё одна сеть прямого
распространения для классификации каждого вектора attention для каждого
слова с нормализацией.

Размерность embedding и attention взял 1024. В multi-head attention взял
восемь голов.

Точность работы после пяти эпох обучения 75,2% успешно определённых
частей речи, после десяти эпох — 80,3%, после 20-ти — 88,4%, после 30-ти
— 92,7%, после 40-ти — 94,4%, после 50-ти — 95,3%. В строгом смысле пока
маловато, конечно, но общая тенденция показывает, что потенциал есть.

Реализация может обучаться на CPU, но в таком виде работает долго. На
нашей кафедральной RTX 4090 обучение на 50 эпох занимает около часа.

Что предстоит исследовать?

1. Использование простых embedding привязывает модель к словарю из слов
в обучающем наборе, т. е. модель беспомощна перед словами не из
обучающего набора. С этим надо что-то делать.

2. Embedding неплохо бы чем-нибудь дополнить. Скажем, откусить окончания
и закодировав их в свои векторы, подклеить к основным векторам.

3. Неплохо бы учитывать для дополнения входных данных результат работы
библиотеки PyMorphy3. Она плоха тем, что выдаёт множественный ответ для
каждого слова, а нам нужен один.

4. Возможность тегирования скрытых слов, т. е. когда нужно предсказать
атрибуты токена, который не известен полностью. Скажем, известен его
класс (денежная единица, единица измерения и пр.), но целиком информации
нет. Собственно, это ключевой мотив, из-за которого весь сыр-бор, потому
что в тексте полно сокращений.

Что получает участник?

1. Бесценный и уникальный опыт подлинной разработки на PyTorch.

2. Соавторство в статье по результатам исследований.

3. Доступ к кафедральной карте для вычислений, если под рукой нет своей.

Что требуется от участника?

Только одно — это умение мыслить творчески. Чем менее стандартно, тем лучше.

Ах, да! Чуть не забыл самую мелочь! У гр. 932201 это будет одна из лаб в
следующем семестре, чтобы не оставалось ненужных иллюзий, во что они
ввязались.

https://github.com/marigostra/selftagger

https://github.com/IlyaGusev/rnnmorph

https://github.com/UniversalDependencies/UD_Russian-SynTagRus

#исследование #статья #LLM #torch

@MarigostraRu

вот ссылка.
https://t.me/MarigostraRu/581

Reply all
Reply to author
Forward
0 new messages