Re: [ir_spb]

62 views

Skip to first unread message

Pavel Braslavski

unread,

Mar 8, 2015, 2:14:54 PM3/8/15

to Илья Шкуратов, e.mikh...@spbu.ru, iir...@googlegroups.com

Илья,

спасибо за вопросы, добавляю рассылку в адресаты.

06.03.2015 21:51, Илья Шкуратов пишет:
> Здравствуйте, Павел!
> Направляю Вам отчёт по первому заданию и хочу задать несколько вопросов по второму.
>
> 1. Подавляющая часть документов обработанной коллекции имеет кодировку UTF-8,
> однако некоторые документы закодированы не правильно (в cp1251, KIO8-R и
> т.п.). Можно ли их просто выбросить из анализа?
можно

> 2. Какая информация о словопозициях должны быть представлена в таблице?
> Количество токенов?
имелось в виду количество словопозиций в некоординатном индексе, т.е. сумма
уникальных слов по документам

> 3. Можно ли проверить закон Хипса на первоначальном словаре, который будет
> состоять просто из уникальных токенов? Дело в том, что для выполнения первой
> части задания (построения таблицы) нужно оценить уменьшение размера словаря.
> То есть нужно будет сначала построить словарь для всей коллекции, затем
> исключить из него числа, потом свернуть регистр, потом выкинуть слова из
> нерусских букв и т.д. Получается, что если мы хотим проверить закон Хипса на
> словаре, который состоит из обработанных токенов, нам нужно будет второй
> построить индекс, только в этот раз класть в него сразу обработанные токены,
> а это долго, учитывая размеры коллекции.
можно на первоначальном словаре

Попробуйте сначала объединить все файлы в один большой (в *nix командой cat,
например), а потом обрабатывать.

> И маленькое дополнение. Те кто будут делать задание на Python, могут
> использовать список стоп-слов из библиотеки nltk:
> nltk.corpus.stopwords.words(‘russian’). Возможно, это будет полезно написать на
> сайте.
> С уважением,
> Шкуратов Илья, 461 гр.

Всех девушек с 8 марта!

--
Pavel Braslavski
+79122271020
skype: pbraslavski

Reply all

Reply to author

Forward

0 new messages