Илья,
спасибо за вопросы, добавляю рассылку в адресаты.
06.03.2015 21:51, Илья Шкуратов пишет:
> Здравствуйте, Павел!
> Направляю Вам отчёт по первому заданию и хочу задать несколько вопросов по второму.
>
> 1. Подавляющая часть документов обработанной коллекции имеет кодировку UTF-8,
> однако некоторые документы закодированы не правильно (в cp1251, KIO8-R и
> т.п.). Можно ли их просто выбросить из анализа?
можно
> 2. Какая информация о словопозициях должны быть представлена в таблице?
> Количество токенов?
имелось в виду количество словопозиций в некоординатном индексе, т.е. сумма
уникальных слов по документам
> 3. Можно ли проверить закон Хипса на первоначальном словаре, который будет
> состоять просто из уникальных токенов? Дело в том, что для выполнения первой
> части задания (построения таблицы) нужно оценить уменьшение размера словаря.
> То есть нужно будет сначала построить словарь для всей коллекции, затем
> исключить из него числа, потом свернуть регистр, потом выкинуть слова из
> нерусских букв и т.д. Получается, что если мы хотим проверить закон Хипса на
> словаре, который состоит из обработанных токенов, нам нужно будет второй
> построить индекс, только в этот раз класть в него сразу обработанные токены,
> а это долго, учитывая размеры коллекции.
можно на первоначальном словаре
Попробуйте сначала объединить все файлы в один большой (в *nix командой cat,
например), а потом обрабатывать.
> И маленькое дополнение. Те кто будут делать задание на Python, могут
> использовать список стоп-слов из библиотеки nltk:
> nltk.corpus.stopwords.words(‘russian’). Возможно, это будет полезно написать на
> сайте.
> С уважением,
> Шкуратов Илья, 461 гр.
Всех девушек с 8 марта!
--
Pavel Braslavski
+79122271020
skype: pbraslavski