Бакалавриат
2020/2021
Информационный поиск и извлечение данных
Статус:
Курс по выбору (Фундаментальная и прикладная лингвистика)
Направление:
45.03.03. Фундаментальная и прикладная лингвистика
Где читается:
Факультет гуманитарных наук (Нижний Новгород)
Когда читается:
4-й курс, 3 модуль
Формат изучения:
без онлайн-курса
Преподаватели:
Пономаренко Александр Александрович
Язык:
русский
Кредиты:
4
Контактные часы:
22
Программа дисциплины
Аннотация
Дисциплина относится к блоку специальных дисциплин подготовки по данному направлению. В рамках данного курса учащийся получит представление о подходах к построению поисковых и рекомендательных систем.
Цель освоения дисциплины
- Знать методы ранжирования
- Понимать и уметь применять алгоритм word2vec
- Понимать технологии SemanticWeb
- Понимать методы измерения семантической близости
Планируемые результаты обучения
- Знать принципы построения современных поисковых систем
- Понимать модель Vector Space Model
- Понимать и уметь использовать алгоритм word2vec, doc2vec. Понимать чем они отличаются. Знать их свойства.
- Знать основные алгоритмы ранжирования
Содержание учебной дисциплины
- Архитектура и общие принципы работы поисковых системАрхитектура и общие принципы работы поисковых систем: краулеры, процесс индексирования, ранжирование
- Vector Space ModelVector Space Model. Мера семантической близости на основе косинуса угла между векторами частот слов
- Латентно семантический анализЛатентно семантический анализ. Сингулярное разложение матриц. Модель скрытых тем. Физическая интерпретация сингулярного разложения. Понижение размерности с минимальной потерей информации
- WordNet и SemanticWebWordNet. Меры семантической близости слов. Базовые смысловые единицы – синсеты. Различные типы связей между синсетами. Меры близости основанные на структуре сети WordNet
- Вложения текстов в векторные пространства: Word2Vec, Doc2Vec
- Алгоритмы ранжирования на основе топологии сетиРанжирование результатов запроса на основе топологии графа WEB. Понятие важности страницы. Алгоритм Page-Rank. Алгоритм Hits.
Элементы контроля
- лабораторная работа "Обучить на корпусе текстов модель word2vec"
- Самостоятельная работа "Посчитать PageRank для небольшой сети"
Промежуточная аттестация
- Промежуточная аттестация (3 модуль)0.5 * лабораторная работа "Обучить на корпусе текстов модель word2vec" + 0.5 * Самостоятельная работа "Посчитать PageRank для небольшой сети"
Список литературы
Рекомендуемая основная литература
- Введение в прикладную лингвистику, [учебник], Московский гос. ун-т им. М. В. Ломоносова, Филологический фак., 5-е изд., 367 с., Баранов, А. Н., 2017
Рекомендуемая дополнительная литература
- Sarkar, D. Text Analytics with Python: A Practical Real-World Approach to Gaining Actionable Insights from your Data [Электронный ресурс] / Dipanjan Sarkar; БД Books 24x7. – Chicago: Apress, 2016. – 412 p. – ISBN 978-1-4842-2387-1
- Ингерсолл Грант С., Мортон Томас С., Фэррис Эндрю Л. - Обработка неструктурированных текстов. Поиск, организация и манипулирование - Издательство "ДМК Пресс" - 2015 - 414с. - ISBN: 978-5-97060-144-0 - Текст электронный // ЭБС ЛАНЬ - URL: https://e.lanbook.com/book/73069
- Москвитин А.А. - Данные, информация, знания: методология, теория, технологии: монография - Издательство "Лань" - 2019 - 236с. - ISBN: 978-5-8114-3232-5 - Текст электронный // ЭБС ЛАНЬ - URL: https://e.lanbook.com/book/113937