Вчера газета "СБ" сделала похвальный
шаг в сторону журналистики данных и даже спровоцировала
небольшую дискуссию в сети по поводу форумов Тут.бая.
К сожалению, журналист не опубликовал исходных данных, поэтому проверить его выводы "на лету" не получится. Но мы тут тоже не лыком шиты, поэтому я решил восполнить этот пробел и собрать комментарии с двух указанных в статье форумов. Подробности описаны по ссылке https://github.com/opendataby/dataschola/tree/master/talks, выкачанные страницы форумов и обработанные данные тоже находятся там.
На днях попробую сравнить результаты анализа. Буду рад, если это еще кого-нибудь заинтересует. Предварительные вопросы могут быть такие:
1. Заметны ли выраженные группы среди форумных комментаторов?
Наверняка есть хорошие примеры. Вот здесь человек решал похожую задачу https://pikabu.ru/story/analiz_kommentariev_na_pikabu_chast_1_5102017. Материал интересен тем, что вывод получился отрицательный - группировок обнаружено не было.
Его подход: "Пусть "близость" пользователей - некоторая характеристика того, как часто они комментируют вместе. Посчитаем только попарную близость, а дальше что-нибудь придумаем. Тут можно придумать много способов, но я остановился на двух: в первом случае я просто увеличивал попарную близость между всеми пользователями в посте, во втором я ещё и добавлял дополнительной связи между пользователями в одной ветке комментариев. "
Т.е. в нашем случае можно следить за тем, как часто комментаторы
цитируют друг друга и насколько это близко по времени. В таком
духе...