Pavel Braslavski
unread,Dec 23, 2011, 1:55:42 AM12/23/11Sign in to reply to author
Sign in to forward
You do not have permission to delete messages in this group
Either email addresses are anonymous for this group or you need the view member email addresses permission to view the original message
to iir_usu
0. Допуск - сданные практики (см. задания в рассылке).
1. Можно сдавать зачет, можно экзамен. Экзамен = больше вопросов.
2. Сдаем "вживую": вопрос "на понимание" - сразу ответ. Или посчитать
что-то несложное по аналогии с "пятиминутками" на парах.
3. Темы - из лекций:
- Инвертированный индекс. Булев поиск. Лексикон, списки словопозиций.
Указатели пропусков, координатный индекс. Пересечение списков.
- Морфология: использование в поиске, типы морфологической обработки
(стемминг/лемматизация), методы морфологического анализа (процедурный,
словарный, гибридный).
- Индексирование: подходы и методы, оценки производительности.
- Сжатие словаря и инвертированных списков (в т.ч. байтовое
кодирование переменной длины, гамма-код).
- Ранжирование. Векторная модель ИП, tf-idf. Эффективное ранжирование
- Оценка. Общая методика, тестовые коллекции. Метод общего котла.
Метрики: точность, полнота, точность на уровне, MAP, R-точность, DCG,
nDCG.
- Обратная связь по релевантности.
- Основы машинного обучения: Байесовский классификатор, k ближайших
соседей (kNN), метод опорных векторов (SVM), деревья решений (decision
trees). Машинное обучение релевантности.
- Веб-поиск: нахождение нечетких дубликатов (шинглы), ссылочное
ранжирование (PageRank).