Бакалавриат
2021/2022![Цель освоения дисциплины](/f/src/global/i/edu/objectives.svg)
![Планируемые результаты обучения](/f/src/global/i/edu/results.svg)
![Содержание учебной дисциплины](/f/src/global/i/edu/sections.svg)
![Элементы контроля](/f/src/global/i/edu/controls.svg)
![Промежуточная аттестация](/f/src/global/i/edu/intermediate_certification.svg)
![Список литературы](/f/src/global/i/edu/library.svg)
Информационный поиск и извлечение данных
Статус:
Курс по выбору (Фундаментальная и прикладная лингвистика)
Направление:
45.03.03. Фундаментальная и прикладная лингвистика
Где читается:
Факультет гуманитарных наук (Нижний Новгород)
Когда читается:
4-й курс, 1 модуль
Формат изучения:
с онлайн-курсом
Охват аудитории:
для своего кампуса
Преподаватели:
Пономаренко Александр Александрович
Язык:
русский
Кредиты:
4
Контактные часы:
22
Программа дисциплины
Аннотация
Дисциплина относится к блоку специальных дисциплин подготовки по данному направлению. В рамках данного курса учащийся получит представление о подходах к построению поисковых и рекомендательных систем.
Цель освоения дисциплины
- Знать методы ранжирования
- Понимать и уметь применять алгоритм word2vec
- Понимать технологии SemanticWeb
- Понимать методы измерения семантической близости
Планируемые результаты обучения
- Знать основные алгоритмы ранжирования
- Знать принципы построения современных поисковых систем
- Понимать и уметь использовать алгоритм word2vec, doc2vec. Понимать чем они отличаются. Знать их свойства.
- Понимать модель Vector Space Model
Содержание учебной дисциплины
- Архитектура и общие принципы работы поисковых систем
- Vector Space Model
- Латентно семантический анализ
- WordNet и SemanticWeb
- Вложения текстов в векторные пространства: Word2Vec, Doc2Vec
- Алгоритмы ранжирования на основе топологии сети
Элементы контроля
- лабораторная работа "Обучить на корпусе текстов модель word2vec"
- Самостоятельная работа "Посчитать PageRank для небольшой сети"
Промежуточная аттестация
- 2021/2022 учебный год 1 модуль0.5 * лабораторная работа "Обучить на корпусе текстов модель word2vec" + 0.5 * Самостоятельная работа "Посчитать PageRank для небольшой сети"
Список литературы
Рекомендуемая основная литература
- Введение в прикладную лингвистику, [учебник], Московский гос. ун-т им. М. В. Ломоносова, Филологический фак., 5-е изд., 367 с., Баранов, А. Н., 2017
Рекомендуемая дополнительная литература
- Sarkar, D. Text Analytics with Python: A Practical Real-World Approach to Gaining Actionable Insights from your Data [Электронный ресурс] / Dipanjan Sarkar; БД Books 24x7. – Chicago: Apress, 2016. – 412 p. – ISBN 978-1-4842-2387-1
- Ингерсолл, Г. С. Обработка неструктурированных текстов. Поиск, организация и манипулирование / Г. С. Ингерсолл, Т. С. Мортон, Э. Л. Фэррис. — Москва : ДМК Пресс, 2015. — 414 с. — ISBN 978-5-97060-144-0. — Текст : электронный // Лань : электронно-библиотечная система. — URL: https://e.lanbook.com/book/73069 (дата обращения: 00.00.0000). — Режим доступа: для авториз. пользователей.
- Москвитин А.А. - Данные, информация, знания: методология, теория, технологии: монография - Издательство "Лань" - 2019 - ISBN: 978-5-8114-3232-5 - Текст электронный // ЭБС ЛАНЬ - URL: https://e.lanbook.com/book/113937