CFP: RuShiftEval - соревнования по автоматическому определению семантических изменений в русском языке

6 views

Skip to first unread message

Lidia Pivovarova

unread,

Jan 21, 2021, 5:29:49 AM1/21/21

RuShiftEval - соревнования по автоматическому определению семантических изменений в русском языке

Дорожка RuShiftEval организована для сравнения различных методов для определения семантических сдвигов в диахронических корпусах. В 2020м году с успехом прошли две аналогичные дорожки: SemEval Task 1 где использовались английские, немецкие, шведские и латинские корпуса [1] и DIACR-Ita на материале итальянского языка [2]. RuShiftEval - это первое соревнование такого рода для русского. Оно проходит в 2021 году на платформе Codalab: https://competitions.codalab.org/competitions/28340

В отличие от предыдущих дорожек, мы используем не два, а три временных периода, которые естественным образом вытекают из истории русского языка:

досоветский (1700-1916),
советский (1918-1991),
постсоветский (1992-2016).

Дорожка пройдет в рамках 27-й международной конференции "Диалог". Статьи с описанием решений будут опубликованы в трудах конференции.

Даты

20 января - анонс соревнования, начало тренировочной фазы
1 февраля - публикация отладочного датасета, начало отладочной фазы
22 февраля - публикация тестового датасета, начало тестовой фазы
28 февраля - завершение тестовой фазы, закрытие загрузки ответов
1 марта - оглашение результатов соревнования
20 марта - срок подачи статей

Задача

Задача формулируется как ранжирование списка слов согласно силе произошедших с ними семантических сдвигов в трёх сравнениях:

между досоветским и советским периодами (сравнение RuSemShift1);
между советским и постсоветским периодами (сравнение RuSemShift2);
между досоветским и постсоветским временем (сравнение RuSemShift3).

Важно ещё раз подчеркнуть, что список слов один и тот же для всех сравнений. Участники должны представить три численных значения семантического сдвига для каждого слова.

Более низкое значение соответствует более сильному сдвигу; более высокое значение соответствует сильной семантической близости между использованием слова в разных временных периодах.

Во время тестовой фазы участники получат список из примерно 100 слов. Они должны будут загрузить результаты работы своего метода в виде текстового tab-separated файла, где каждая строка состоит из слова и трех положительных чисел, соответствующих силе сдвига в трёх сравнениях из списка выше. Эти данные будут использованы для построения трёх ранжирований, соответствующих трём столбцам: RusemShift1, RuSemshift2 и RusemShift3. Затем мы вычислим коэффициент ранговой корреляции Спирмана между этими ранжированиями и ранжированиями, полученными из человеческой разметки. Поскольку в качестве метрики оценки используется ранговая корреляция, абсолютные численные значения в ответах не важны (только их ранги друг относительно друга). Тем не менее, для удобства можно примерно считать, что значение 1 соответствует ситуации "значения слова в двух периодах совершенно разные", а значение 4 соответствует ситуации "значения слова абсолютно идентичны" (именно такую шкалу мы использовали при аннотации).

Лучшая система будет определена на основе среднего значения трёх коэффициентов корреляции.

Каждая участвующая команда сможет загрузить до 10 решений в тестовой фазе и до 1000 решений в отладочной фазе.

Во время отладочной фазы (1-22 февраля) мы опубликуем небольшой отладочный датасет (12 вручную размеченных слов, не входящих в основной тестовый датасет), который можно будет использовать для отладки систем. Правильные ответы для отладочного датасета будут скрыты до конца соревнования.

До 1 февраля мы находимся в тренировочной фазе, в которой можно подгружать решения для датасета RuSemShift. Этот датасет доступен публично, так что правильные ответы известны всем. Эта фаза предназначена в основном для проверки технических аспектов загрузки решений. Чтобы узнать формат подачи в этой фазе, скачайте соответствущий Starting Kit из вкладки Files. Поскольку в RuSemShift нет разметки для пары периодов "до-советский - пост-советский", в этой фазе колонка лидерборда RuSemShift3 будет всегда показывать ноль, то есть, в тренировочной фазе участвуют только две пары периодов, каждый со своим набором слов. Ещё раз напоминаем, что в отладочной и тестовой фазах вы встретите один набор слов и три пары временных периодов. Существующий датасет RuSemShift используется в тренировочной фазе исключительно для тренировки.

Важно: в качестве меры семантического сдвига при аннотации мы используем метрику COMPARE. В целом, COMPARE - это средняя семантическая близость между употреблениями одного и того же слова в двух разных временных периодах, полученная из ручной разметки. Чем ниже значение меры COMPARE, тем сильнее семантический сдвиг. Таким образом, если ответы вашей системы генерируют сильную отрицательную корреляцию, возможно, вы ошибочно выдаёте более высокие значения для более сильных сдвигов. Просто инвертируйте это поведение. Подробности можно почитать в статье [3]

Данные

Организаторы RuShiftEval проводят ручную разметку диахронических семантических сдвигов на основе соответствующих временных периодов из Национального Корпуса Русского Языка (НКРЯ). Поэтому мы рекомендуем и участникам также использовать НКРЯ как источник диахронических корпусных данных (при этом не возбраняется и обращение к любым другим корпусам).

Неаннотированная и перемешанная по предложениям версия НКРЯ, разбитая на три интересующих нас периода, свободно доступна для скачивания после подписания лицензии.

Тестовый и отладочный датасеты размечаются вручную с использованием процедуры DuReL, аналогичной использовавшейся ранее для аналогичных датасетов [3], в том числе для русского [4]. Датасет RuSemShift для русского, построенный на материалах того же корпуса, находится в свободном доступе; его можно использовать для обучения или просто для проверки технических аспектов работы ваших систем. Отметим, что вопрос о том, помогают ли тренировочные данные в определении семантических сдвигов, остается открытым. Одна из задач нашего соревнования - найти на него ответ.

После завершения дорожки все размеченные датасеты будут опубликованы в свободном доступе.

Организаторы

Подписывайтесь на наш Телеграм-канал с анонсами и обсуждениями соревнования. Загрузить решения и посмотреть лидерборд RuShiftEval можно на платформе Codalab.

Литература

[1] Schlechtweg, D., McGillivray, B., Hengchen, S., Dubossarsky, H., & Tahmasebi, N. (2020). Semeval-2020 task 1: Unsupervised lexical semantic change detection. Proceedings of the Fourteenth Workshop on Semantic Evaluation, ACL, 2020

[2] Basile, Pierpaolo, et al. "DIACR-Ita@ EVALITA2020: Overview of the EVALITA2020 Diachronic Lexical Semantics (DIACR-Ita) Task." Proceedings of the 7th evaluation campaign of Natural Language Processing and Speech tools for Italian (EVALITA 2020), Online. CEUR. org (2020).

[3] Schlechtweg, Dominik, Sabine Schulte im Walde, and Stefanie Eckmann. "Diachronic Usage Relatedness (DURel): A Framework for the Annotation of Lexical Semantic Change." Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 2 (Short Papers). 2018.

[4] Rodina, Julia, and Andrey Kutuzov. "RuSemShift: a dataset of historical lexical semantic change in Russian." COLING 2020

Reply all

Reply to author

Forward

0 new messages