Бакалавриат
2022/2023
Информационный поиск и извлечение данных
Статус:
Курс по выбору (Фундаментальная и прикладная лингвистика)
Направление:
45.03.03. Фундаментальная и прикладная лингвистика
Где читается:
Факультет гуманитарных наук (Нижний Новгород)
Когда читается:
4-й курс, 1 модуль
Формат изучения:
без онлайн-курса
Охват аудитории:
для своего кампуса
Преподаватели:
Пономаренко Александр Александрович
Язык:
русский
Кредиты:
4
Контактные часы:
22
Программа дисциплины
Аннотация
Дисциплина относится к блоку специальных дисциплин подготовки по данному направлению. В рамках данного курса учащийся получит представление о подходах к построению поисковых и рекомендательных систем.
Цель освоения дисциплины
- Знать методы ранжирования
- Понимать и уметь применять алгоритм word2vec
- Понимать технологии SemanticWeb
- Понимать методы измерения семантической близости
Планируемые результаты обучения
- Знать основные алгоритмы ранжирования
- Знать принципы построения современных поисковых систем
- Понимать и уметь использовать алгоритм word2vec, doc2vec. Понимать чем они отличаются. Знать их свойства.
- Понимать модель Vector Space Model
Содержание учебной дисциплины
- Архитектура и общие принципы работы поисковых систем
- Vector Space Model
- Латентно семантический анализ
- WordNet и SemanticWeb
- Вложения текстов в векторные пространства: Word2Vec, Doc2Vec
- Алгоритмы ранжирования на основе топологии сети
Элементы контроля
- Линейная регрессияПридумайте 2 числовые характеристики, которые могут описывать объект. Объектом может быть человек или предмет. С их помощью опишите 8 объектов. Так вы получите 8 точек в 2-мерном пространстве. Нарисуйте эти точки на графике. Постройте линейную регрессию для этих признаков. Нарисуйте её на том же графике с точками.
- Логистическая регрессияОбучите логистическую регрессию для классификации текстов на 2 класса. Для каждого класса выведите 30 самых важных слов. На практическом занятии мы использовали набор данных русских отзывов. Возьмите какой-нибудь другой набор данных. Набор данных разделите на тренировочный и тестовый. Размер тестового набора возьмите 20%. Выведите отчёт о классификации (from sklearn.metrics import classification_report) для тестового набора данных.
- Пространственные вложения"Данны координаты 9 точек на плоскости с группированные в 3 группы: [ (-1, -1), (-1.2, -1), (-0.9, -0.9) ], [ (-1, 1), (-1.2, 1), (-0.9, 0.9) ], [ (1, 1), (1.2, 1), (0.9, 0.9) ] Мы хотим построить классификатор вида softmax(Ax), который выдаёт принадлежность точки x c одному из 3х классов, соответсвующих группе. Другими словами на выходе классификатора ожидается вектор из трёх компонет, вида (1,0,0) для 1го класса, (0,1,0) для 2го и для 3го (0,0,1). 1) Найдите матриу A (13 баллов). 2) На какое максимальное число классов можно разбить точки, сгруппированные подобным образом (кучками на плоскости), используя преобразование softmax(Ax) (5 баллов)."
- Обучение ранжированиюВозьмите один из наборов данных предназначенных для построения рекомендательных систем и постройте функцию ранжирования используя подход "обучение ранжированю". В качестве набора данных берите, не такой как взяли ваши одногруппники. Разделите на train, test. Оцените значения метрик recall, precision для вашего набора данных на test.
Промежуточная аттестация
- 2022/2023 учебный год 1 модуль0.25 * Пространственные вложения + 0.25 * Линейная регрессия + 0.25 * Логистическая регрессия + 0.25 * Обучение ранжированию
Список литературы
Рекомендуемая основная литература
- Введение в прикладную лингвистику, [учебник], Московский гос. ун-т им. М. В. Ломоносова, Филологический фак., 5-е изд., 367 с., Баранов, А. Н., 2017
Рекомендуемая дополнительная литература
- Sarkar, D. Text Analytics with Python: A Practical Real-World Approach to Gaining Actionable Insights from your Data [Электронный ресурс] / Dipanjan Sarkar; БД Books 24x7. – Chicago: Apress, 2016. – 412 p. – ISBN 978-1-4842-2387-1
- Ингерсолл, Г. С. Обработка неструктурированных текстов. Поиск, организация и манипулирование / Г. С. Ингерсолл, Т. С. Мортон, Э. Л. Фэррис. — Москва : ДМК Пресс, 2015. — 414 с. — ISBN 978-5-97060-144-0. — Текст : электронный // Лань : электронно-библиотечная система. — URL: https://e.lanbook.com/book/73069 (дата обращения: 00.00.0000). — Режим доступа: для авториз. пользователей.
- Москвитин А.А. - Данные, информация, знания: методология, теория, технологии: монография - Издательство "Лань" - 2019 - ISBN: 978-5-8114-3232-5 - Текст электронный // ЭБС ЛАНЬ - URL: https://e.lanbook.com/book/113937