Магистратура
2024/2025
Сбор и разметка данных для машинного обучения
Статус:
Курс по выбору (Современные компьютерные науки)
Направление:
01.04.02. Прикладная математика и информатика
Кто читает:
Базовая кафедра Яндекс
Где читается:
Факультет компьютерных наук
Когда читается:
1-й курс, 2 модуль
Формат изучения:
без онлайн-курса
Охват аудитории:
для своего кампуса
Преподаватели:
Тибилов Таймураз Валерьевич
Прогр. обучения:
Современные компьютерные науки
Язык:
русский
Кредиты:
3
Программа дисциплины
Аннотация
В настоящее время практически любая содержательная задача, связанная с ML/AI, требует размеченных данных. Как правило, они нужны в большом количестве, а их сбор требует привлечения ручного труда. Умение проектировать архитектуру процессов сбора данных – один из востребованных и ключевых навыков для ML-инженеров. Размеченные данные необходимы не только на стадии анализа и при построении ML-моделей, но также в замкнутых производственных и продуктовых процессах (парадигма human-in-the-loop). Алиса, Поиск, Переводчик, Драйв, беспилотные автомобили, РСЯ – все эти технологии Яндекса основаны на масштабных процессах сбора и обработки данных. Курс “Сбор и разметка данных для машинного обучения” направлен на овладение навыками работы с данными для машинного обучения. Эти навыки включают в себя дизайн конвейера сбора и обработки данных, его оптимизацию под разнообразные ограничения (бюджет, качество работы модели и проч.), автоматизацию этих процессов, оценку качества работы модели и ее улучшение. Все это – интегральная часть ML/AI-решений и задачи, с которыми инженеры сталкиваются в повседневной работе. По итогам курса слушатели смогут самостоятельно реализовать полный цикл работы с данными – от сбора обучающего набора данных до проверки и поддержания качества работы модели на меняющихся данных. Программа предусматривает проведение лекционных и семинарских занятий, разбор примеров из индустрии и работу над несколькими индивидуальными проектами, основанными на реальных вызовах работы с данными. Помимо проектной работы, предполагается также выполнение и проверка домашних работ по темам лекций и семинаров. Дисциплина относится к вариативной части.
Цель освоения дисциплины
- Сформировать компетенции, позволяющие собирать, обрабатывать и использовать данные для работы с ML-моделями.
- Сформировать компетенции, позволяющие собирать, обрабатывать и использовать данные для работы с ML-моделями
Планируемые результаты обучения
- студент владеет техниками оптимизации этих процессов
- студент может оценить качество работы модели и улучшить ее
- студент может спроектировать и реализовать конвейер сбора и обработки данных для обучения ML-алгоритма
- студент понимает роль данных в жизненном цикле ML-модели
Содержание учебной дисциплины
- Введение. Работа с данными в машинном обучении
- Общая концепция краудсорсинга. Декомпозиция задачи
- Проектирование интерфейсов и инструкций для краудсорсинговых проектов
- Контроль качества. Этапы и инструменты
- Автоматизация конвейера по сбору данных
- Проектная работа: сбор данных для обучения модели с целевым качеством
- Подходы к оптимизации бюджета
- Агрегация полученных результатов: категориальная разметка, попарная разметка, агрегация сложных ответов
- Human-in-the-loop и другие подходы к оптимизации процессов разметки
- Проектная работа: сбор данных для обучения модели с целевым качеством и ограничением по бюджету
- Оценка качества работы модели
- Сбор данных для дообучения
- Проектная работа: сбор данных для обучения и поддержания качества модели в условиях меняющегося мира
- Кейс-стади: работа с данными в Поиске, Алисе, Переводчике, Беспилотных технологиях, тестировании и других продуктах
Элементы контроля
- Домашнее задание 5Агрегация данных
- Домашнее задание 3Контроль качества данных
- Домашнее задание 4Агрегация данных
- Проектная работа 1Проектная работа в группах по 3-4 человек.
- Проектная работа 2Проектная работа в группах по 3-4 человека
- Проектная работа 3Проектная работа в группах по 3-4 человека
- Домашнее задание 2Автоматизация процесса сбора и разметки данных
- Домашнее задание 1Работа с платформой для сбора и разметки данных
Промежуточная аттестация
- 2024/2025 2nd module0.1 * Домашнее задание 1 + 0.1 * Домашнее задание 2 + 0.1 * Домашнее задание 3 + 0.1 * Домашнее задание 4 + 0.1 * Домашнее задание 5 + 0.1 * Проектная работа 1 + 0.2 * Проектная работа 2 + 0.2 * Проектная работа 3
Список литературы
Рекомендуемая основная литература
- Foundations of machine learning, Mohri, M., 2012
Рекомендуемая дополнительная литература
- Christopher M. Bishop. (n.d.). Australian National University Pattern Recognition and Machine Learning. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsbas&AN=edsbas.EBA0C705