Привет.
Поможет или нет - я точно сказать не могу, но вполне может помочь. Чтоб сказать точно, нужно разработать/выбрать какую-то метрику оценки, попробовать с нормализацией и без, и посмотреть, как метрика меняется. Для оценки похожести, правда, это не совсем просто может быть; видимо, критерием должна быть близость оценки, данной программой, к оценке, данной экспертом. Интуитивно - нормализация помогает делать данные менее шумными, но без нормализации можно учитывать более "тонкие" критерии. Bias/variance tradeoff в действии.
Кстати, насчет похожести авторов - тут удаление стоп-слов может помешать. Я сам эту задачу не решал, но где-то слышал/читал, что частота употребления различных служебных частей речи и других слов, обычно считаемых стоп-словами, - очень сильный признак для определения авторства, чуть ли не самый сильный :) Используемые слова средней частотности могут больше говорить о том, о чем текст написан, а не об авторе; частота же стоп-слов - это уже больше характеристика авторского стиля.
С нормализацией нужно быть осторожным, т.к. в pymorphy и pymorphy2 правила нормализации определяются словарем, и они не всегда лучшие для конкретной задачи. См.
https://pymorphy2.readthedocs.org/en/latest/user/guide.html#normalizationКроме отдельных слов можно еще биграммы/триграммы попробовать - что, например, выделять топ-100 употребимых фраз, а не только слов.
вторник, 12 ноября 2013 г., 17:24:08 UTC+6 пользователь mrgloom написал: