Named Entity Recognition and Classification (NERC) - извлечение именованных сущностей

368 views
Skip to first unread message

Elena Shamis

unread,
Aug 27, 2017, 4:34:17 PM8/27/17
to nltk-russian
Добрый день!

Скажите, пожалуйста, реально ли найти результат тестирования на Named Entity Recognition размеченного корпуса английских текстов?
Поясняю задачу:
Мне нужно провести эксперимент по слиянию результатов от 3-х разных классификаторов, например NLTK, Stanford CoreNLP, что-то еще. 
Я совсем в теме этих библиотек, работы с корпусами, с их форматом и пр, и не очень есть время все устанавливать и разбираться. Зато я понимаю в machine learning.
Вот я думаю, вдруг лежат где-то данные, с одной стороны размеченные руками, а с другой -  УЖЕ протестированные разными инструментами. 
Ну, типа - слово - правильный ответ - ответы классификаторов.
Найти не получилось, возможно, я не догадалась, как правильно написать запрос.

Буду благодарна за советы!

Alexander Tarelkin

unread,
Aug 28, 2017, 8:17:33 AM8/28/17
to nltk-r...@googlegroups.com
Добрый день. 

Никто не отвечает, поэтому попробовать дать направление для мысли.

В 2016 году в рамках Диалога проводилось соревнование по разным задачам извлечения фактов на русском языке. Насколько я понимаю, результаты участвовавших систем и исходная разметка где-то доступны. Вот отчетная статья на Диалог: http://www.dialog-21.ru/media/3430/starostinaetal.pdf

Если надо про английский язык, то в той же статье есть отсылки к предыдущему опыту американских и европейских коллег, например, сюда: https://www.ldc.upenn.edu/collaborations/past-projects/ace/annotation-tasks-and-specifications

Я правда не смог сходу понять, как там организованы данные и можно ли что-то скачать.

Но вообще, мне кажется, даже если где-то есть такое сравнение, толку от него будет мало, так как устанавливать и разбираться всё равно придется. Проблема всё же не совсем в том, что никто пока не догадался обучиться на результатах трех разных классификаторов. Совершенно опять же не факт, что, взяв откуда-то результат работы NLTK, можно его повторить просто установкой nltk и запуском пары готовых команд. Со Stanford CoreNLP на такое больше шансов, но опять же могут быть нюансы, с какими параметрами его запускать, а иначе ему будет памяти не хватать. 

Ну и еще стоит заранее подумать, что не все системы совместимы по лицензиям.

Тем не менее, вот еще какая-та статья, где сравнивают различные системы: http://www.cicling.org/2009/RCS-41/047-058.pdf Из нее можно почерпнуть название третьей системы для сравнения.

--
You received this message because you are subscribed to the Google Groups "nltk-russian" group.
To unsubscribe from this group and stop receiving emails from it, send an email to nltk-russian+unsubscribe@googlegroups.com.
For more options, visit https://groups.google.com/d/optout.



--
С уважением,
Александр Тарелкин

Elena Shamis

unread,
Aug 29, 2017, 8:44:24 AM8/29/17
to nltk-russian
Спасибо!

Ну, если быть честной, то мне тестовое задание такое дали. Я работаю со всяким распознаванием и image processing и работа у меня приятная. Я много про нейронные сети и машинное обучение понимаю, но применяла именно в этой области. И тут находит меня фирма такая заманчивая, и прямо хочет, и хочет на image processing, что интересно. Но по имиджам тестовое им сложно почему-то оказалось придумать, придумали по языку. А я не знаю ни библиотек, ни форматов разметки, ничего. Вот если у меня данные уже есть, допустим, в текстовом формате, что-то типа - сущность - правильный ответ, то я и про обучение понимаю и про мерджер и пр. Но вот, поставить 3 тулза, найти размеченные данные, запустить, понять про форматы разметки и выдачи - это, вроде как, при наличии текущей работы, может и слишком. Не факт, что буду делать.

Спасибо Вам, посмотрю на Ваши линки, подумаю.
To unsubscribe from this group and stop receiving emails from it, send an email to nltk-russian...@googlegroups.com.

For more options, visit https://groups.google.com/d/optout.

Elena Shamis

unread,
Aug 29, 2017, 9:06:06 AM8/29/17
to nltk-russian
Да, не уточнила, задание было такое:
Возьмите любой размеченный английский корпус и сделайте мерджинг результатов работы на этом корпусе 3-х любых систем NER, получите улучшение 

Elena Shamis

unread,
Aug 29, 2017, 9:13:33 AM8/29/17
to nltk-russian
Так что, мне не нужно, в идеале, ничего запускать. Мне нужны результаты работы нескольких систем - как исходные данные. Я по результатам посчитаю метрики. Дальше, как раз, в чем будет челлендж -  сделаю машинное обучение, сливающие результаты.  Посчитаю метрики мерждера. И, возможно, они станут получше, чем исходные. 

On Monday, August 28, 2017 at 1:17:33 PM UTC+1, newtover wrote:
To unsubscribe from this group and stop receiving emails from it, send an email to nltk-russian...@googlegroups.com.

For more options, visit https://groups.google.com/d/optout.
Reply all
Reply to author
Forward
0 new messages