Бакалавриат
2021/2022
Информационный поиск и базы данных
Лучший по критерию «Полезность курса для расширения кругозора и разностороннего развития»
Лучший по критерию «Новизна полученных знаний»
Статус:
Курс по выбору (Фундаментальная и компьютерная лингвистика)
Направление:
45.03.03. Фундаментальная и прикладная лингвистика
Кто читает:
Школа лингвистики
Где читается:
Факультет гуманитарных наук
Когда читается:
4-й курс, 1, 2 модуль
Формат изучения:
без онлайн-курса
Охват аудитории:
для всех кампусов НИУ ВШЭ
Язык:
русский
Кредиты:
3
Контактные часы:
36
Программа дисциплины
Аннотация
Курс информационного поиска знакомит с современными инструментами машинного обучения и NLP, применяемыми для решения задач полнотекстового поиска. Итогом курса станет разработка самостоятельного IR-проекта.
Цель освоения дисциплины
- знакомство с базовыми понятиями информационного поиска
- постановка задачи информационного поиска
- формирование практических навыков написания поисковых алгоритмов
- углубление знаний о методах автоматической обработки текстов
Планируемые результаты обучения
- доказывает применимость векторного подхода к BM25, может моделировать реализацию
- знает компоненты формулы BM25
- знакомится с постановкой задачи, понимает границы применения
- реализует поисковик с использованием различных векторных моделей, замеряет качество работы
- решает задачу поиска с помощью методов машинного обучения
- умеет работать с индексом в матричной постановке задачи
Содержание учебной дисциплины
- Введение в информационный поиск, булев поиск
- Индексирование, обратный индекс
- Формула Okapi BM25
- Функции ранжирования
- Эмбеддинги - Word2Vec, FastText, BERT, GPT3
- Лабораторная работа: машинное обучение в поиске