Магистратура
2024/2025
Машинное обучение
Статус:
Курс обязательный (Цифровые методы в гуманитарных науках)
Кто читает:
Школа лингвистики
Когда читается:
2-й курс, 2, 3 модуль
Охват аудитории:
для своего кампуса
Преподаватели:
Дмитриева Анна Андреевна
Язык:
русский
Программа дисциплины
Аннотация
Курс покрывает основы машинного обучения с уклоном вавтоматическую обработку естественного языка (NLP):классические методы машинного обучения, глубокое обучение ибольшие языковые модели. Студенты познакомятся с популярнымибиблиотеками для машинного обучения: scikit-learn, pytorch и transformers. Также предполагается работа с API больших языковых моделей, доступных для онлайн-использования.
Цель освоения дисциплины
- Ознакомление учащихся с теоретическими основами машинного обучения
- Обучение применению прикладных методов машинного и глубокого обучения
Планируемые результаты обучения
- Уметь давать определения основным методам и алгоритмам машинного обучения
- Формулировать разницу между родственными методами и алгоритмами
- Описывать основные компоненты архитектур моделей машинного обучения
- Описывать основные этапы эксперимента в машинном обучении
- Выявлять и применять верные стратегии обработки данных для конкретной задачи
- По условию задачи определять, к какому классу задач она относится (например, классификация или регрессия) и выбирать подходящий метод решения
- Применять различные методы “классического” машинного обучения для решения задач, реализуя решение на языке Python
- Выявлять оптимальную архитектуру нейронной сети, подходящую для конкретной задачи, и реализовывать ее на языке Python c применением библиотек pytorch и/или transformers
- Применять методы глубокого обучения, реализуя решение на языке Python, либо, в специально оговоренных случаях, curl-запросов
- Определять, какие метрики необходимы для оценки качества выполнения задачи, и применять эти метрики, реализуя их на языке Python
- Экспериментировать с различными способами решения задач машинного обучения для работы с текстовыми данными. Выбирать и реализовывать наиболее подходящее решение.
Элементы контроля
- КвизыКвизы проводятся на платформе Google Forms. Большинство вопросов закрытые (multiple choice), в редких случаях предполагается короткий ответ, который может быть оценен однозначно: например, необходимо написать правильное число или комбинацию чисел.
- Лабораторная работа №1Работа проверяет усвоение студентами Раздела 1. Студентам предоставляется несколько наборов данных для решения различных задач “классического” машинного обучения (без использования нейросетей): классификации, регрессии, кластеризации и т.д. Каждая задача предполагает написание кода на Python с использованием средств библиотеки scikit-learn и некоторых других подобных библиотек. В отдельных случаях в условиях задач будет оговорена необходимость преобразовать данные перед началом работы. Сдача возможна в формате .ipynb или .py-файла(ов). Не допускается использование иных языков программирования, кроме Python.
- Лабораторная работа №2Работа проверяет усвоение студентами Разделов 2 (в большей степени) и 1 (в качестве закрепления). Данная работа имеет несколько вариантов выполнения. Студенты могут выбрать или вариант 1, или вариант 2. В обоих случаях максимальной оценкой является 10, минимальной - 0. 1) Реферат: студент выбирает свежую статью (статьи, вышедшие ранее 2014г., могут быть выбраны только по согласованию с преподавателем) по предполагаемой теме своей ВКР или по любой другой, которой интересуется, и реферирует её. Статья должна быть опубликована в рецензируемом издании, а задачи исследования должны быть решены при помощи машинного обучения. Сдача реферата возможна в любом текстовом формате, а также в формате .pdf. Объем - от 2500 до 5000 знаков с пробелами, язык - русский или английский. Полный текст реферируемой статьи должен быть сдан вместе с рефератом. 2) Лабораторная работа по программированию: студентам предоставляется несколько наборов данных для решения различных задач глубокого машинного обучения. Большая часть задач предполагает написание кода на Python с использованием средств библиотек transformers, pytorch, gensim и некоторых других подобных. В отдельных случаях в условиях задач будет оговорена необходимость преобразовать данные перед началом работы. Сдача возможна в формате .ipynb или .py-файла(ов). Задачи, предполагающие использование API больших языковых моделей, могут быть сданы в формате .sh-скриптов и текстовых файлов. За исключением выполнения задач последнего типа, не допускается использование иных языков программирования, кроме Python.
Промежуточная аттестация
- 2024/2025 3rd module0.2 * Квизы + 0.4 * Лабораторная работа №1 + 0.4 * Лабораторная работа №2
Список литературы
Рекомендуемая основная литература
- Python для сложных задач: наука о данных и машинное обучение - 978-5-496-03068-7 - Плас Дж. Вандер - 2018 - Санкт-Петербург: Питер - https://ibooks.ru/bookshelf/356721 - 356721 - iBOOKS
Рекомендуемая дополнительная литература
- The elements of statistical learning : data mining, inference, and prediction, Hastie, T., 2017