Бакалавриат
2023/2024
Информационный поиск и извлечение данных
Статус:
Курс обязательный (Фундаментальная и прикладная лингвистика)
Направление:
45.03.03. Фундаментальная и прикладная лингвистика
Где читается:
Факультет гуманитарных наук (Нижний Новгород)
Когда читается:
4-й курс, 3 модуль
Формат изучения:
без онлайн-курса
Охват аудитории:
для своего кампуса
Преподаватели:
Демидовский Александр Владимирович
Язык:
русский
Кредиты:
3
Контактные часы:
22
Программа дисциплины
Аннотация
Дисциплина относится к блоку специальных дисциплин подготовки по данному направлению. В рамках данного курса учащийся получит представление о подходах к построению поисковых и рекомендательных систем.
Цель освоения дисциплины
- Знать методы ранжирования
- Понимать и уметь применять алгоритм word2vec
- Понимать технологии SemanticWeb
- Понимать методы измерения семантической близости
Планируемые результаты обучения
- Знать основные алгоритмы ранжирования
- Знать принципы построения современных поисковых систем
- Понимать и уметь использовать алгоритм word2vec, doc2vec. Понимать чем они отличаются. Знать их свойства.
- Понимать модель Vector Space Model
Содержание учебной дисциплины
- Архитектура и общие принципы работы поисковых систем
- Vector Space Model
- Латентно семантический анализ
- WordNet и SemanticWeb
- Вложения текстов в векторные пространства: Word2Vec, Doc2Vec
- Алгоритмы ранжирования на основе топологии сети
Элементы контроля
- Лабораторные работыРассматриваются современные нейросетевые языковые модели и компьютерные инструменты для работы с ними в решении повседневных задач компьютерного лингвиста
- Устный экзамен
Промежуточная аттестация
- 2023/2024 учебный год 3 модуль0.6 * Лабораторные работы + 0.4 * Устный экзамен
Список литературы
Рекомендуемая основная литература
- Введение в прикладную лингвистику, [учебник], Московский гос. ун-т им. М. В. Ломоносова, Филологический фак., 5-е изд., 367 с., Баранов, А. Н., 2017
Рекомендуемая дополнительная литература
- Sarkar, D. Text Analytics with Python: A Practical Real-World Approach to Gaining Actionable Insights from your Data [Электронный ресурс] / Dipanjan Sarkar; БД Books 24x7. – Chicago: Apress, 2016. – 412 p. – ISBN 978-1-4842-2387-1
- Ингерсолл, Г. С. Обработка неструктурированных текстов. Поиск, организация и манипулирование / Г. С. Ингерсолл, Т. С. Мортон, Э. Л. Фэррис. — Москва : ДМК Пресс, 2015. — 414 с. — ISBN 978-5-97060-144-0. — Текст : электронный // Лань : электронно-библиотечная система. — URL: https://e.lanbook.com/book/73069 (дата обращения: 00.00.0000). — Режим доступа: для авториз. пользователей.
- Москвитин А.А. - Данные, информация, знания: методология, теория, технологии: монография - Издательство "Лань" - 2019 - ISBN: 978-5-8114-3232-5 - Текст электронный // ЭБС ЛАНЬ - URL: https://e.lanbook.com/book/113937