• A
  • A
  • A
  • АБВ
  • АБВ
  • АБВ
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Машинное обучение

2024/2025
Учебный год
RUS
Обучение ведется на русском языке
Статус:
Курс обязательный
Когда читается:
2-й курс, 2, 3 модуль

Программа дисциплины

Аннотация

Курс покрывает основы машинного обучения с уклоном в автоматическую обработку естественного языка (NLP): классические методы машинного обучения, глубокое обучение и большие языковые модели. Студенты познакомятся с популярными библиотеками для машинного обучения: scikit-learn, pytorch и transformers. Также предполагается работа с API больших языковых моделей, доступных для онлайн-использования.
Цель освоения дисциплины

Цель освоения дисциплины

  • Ознакомление учащихся с теоретическими основами машинного обучения
  • Обучение применению прикладных методов машинного и глубокого обучения
Планируемые результаты обучения

Планируемые результаты обучения

  • Уметь давать определения основным методам и алгоритмам машинного обучения
  • Формулировать разницу между родственными методами и алгоритмами
  • Описывать основные компоненты архитектур моделей машинного обучения
  • Описывать основные этапы эксперимента в машинном обучении
  • Выявлять и применять верные стратегии обработки данных для конкретной задачи
  • По условию задачи определять, к какому классу задач она относится (например, классификация или регрессия) и выбирать подходящий метод решения
  • Применять различные методы “классического” машинного обучения для решения задач, реализуя решение на языке Python
  • Выявлять оптимальную архитектуру нейронной сети, подходящую для конкретной задачи, и реализовывать ее на языке Python c применением библиотек pytorch и/или transformers
  • Применять методы глубокого обучения, реализуя решение на языке Python, либо, в специально оговоренных случаях, curl-запросов
  • Определять, какие метрики необходимы для оценки качества выполнения задачи, и применять эти метрики, реализуя их на языке Python
  • Экспериментировать с различными способами решения задач машинного обучения для работы с текстовыми данными. Выбирать и реализовывать наиболее подходящее решение.
Содержание учебной дисциплины

Содержание учебной дисциплины

  • “Классическое” машинное обучение
  • Глубокое обучение
Элементы контроля

Элементы контроля

  • неблокирующий Квизы
    Квизы проводятся на платформе Google Forms. Большинство вопросов закрытые (multiple choice), в редких случаях предполагается короткий ответ, который может быть оценен однозначно: например, необходимо написать правильное число или комбинацию чисел.
  • неблокирующий Лабораторная работа №1
    Работа проверяет усвоение студентами Раздела 1. Студентам предоставляется несколько наборов данных для решения различных задач “классического” машинного обучения (без использования нейросетей): классификации, регрессии, кластеризации и т.д. Каждая задача предполагает написание кода на Python с использованием средств библиотеки scikit-learn и некоторых других подобных библиотек. В отдельных случаях в условиях задач будет оговорена необходимость преобразовать данные перед началом работы. Сдача возможна в формате .ipynb или .py-файла(ов). Не допускается использование иных языков программирования, кроме Python.
  • неблокирующий Лабораторная работа №2
    Работа проверяет усвоение студентами Разделов 2 (в большей степени) и 1 (в качестве закрепления). Данная работа имеет несколько вариантов выполнения. Студенты могут выбрать или вариант 1, или вариант 2. В обоих случаях максимальной оценкой является 10, минимальной - 0. 1) Реферат: студент выбирает свежую статью (статьи, вышедшие ранее 2014г., могут быть выбраны только по согласованию с преподавателем) по предполагаемой теме своей ВКР или по любой другой, которой интересуется, и реферирует её. Статья должна быть опубликована в рецензируемом издании, а задачи исследования должны быть решены при помощи машинного обучения. Сдача реферата возможна в любом текстовом формате, а также в формате .pdf. Объем - от 2500 до 5000 знаков с пробелами, язык - русский или английский. Полный текст реферируемой статьи должен быть сдан вместе с рефератом. 2) Лабораторная работа по программированию: студентам предоставляется несколько наборов данных для решения различных задач глубокого машинного обучения. Большая часть задач предполагает написание кода на Python с использованием средств библиотек transformers, pytorch, gensim и некоторых других подобных. В отдельных случаях в условиях задач будет оговорена необходимость преобразовать данные перед началом работы. Сдача возможна в формате .ipynb или .py-файла(ов). Задачи, предполагающие использование API больших языковых моделей, могут быть сданы в формате .sh-скриптов и текстовых файлов. За исключением выполнения задач последнего типа, не допускается использование иных языков программирования, кроме Python.
Промежуточная аттестация

Промежуточная аттестация

  • 2024/2025 3rd module
    0.2 * Квизы + 0.4 * Лабораторная работа №1 + 0.4 * Лабораторная работа №2
Список литературы

Список литературы

Рекомендуемая основная литература

  • Python для сложных задач: наука о данных и машинное обучение - 978-5-496-03068-7 - Плас Дж. Вандер - 2018 - Санкт-Петербург: Питер - https://ibooks.ru/bookshelf/356721 - 356721 - iBOOKS

Рекомендуемая дополнительная литература

  • The elements of statistical learning : data mining, inference, and prediction, Hastie, T., 2017

Авторы

  • Дьячкова Анна Евгеньевна