Бакалавриат
2023/2024
Машинное обучение для больших данных
Лучший по критерию «Полезность курса для Вашей будущей карьеры»
Лучший по критерию «Полезность курса для расширения кругозора и разностороннего развития»
Лучший по критерию «Новизна полученных знаний»
Статус:
Курс по выбору (Прикладная математика и информатика)
Направление:
01.03.02. Прикладная математика и информатика
Где читается:
Факультет компьютерных наук
Когда читается:
4-й курс, 3 модуль
Формат изучения:
с онлайн-курсом
Онлайн-часы:
20
Охват аудитории:
для всех кампусов НИУ ВШЭ
Преподаватели:
Алекберов Артем Темурович,
Анищенко Илья Игоревич
Язык:
русский
Кредиты:
4
Контактные часы:
40
Программа дисциплины
Аннотация
Дисциплина знакомит студентов с основными задачами машинного обучения на больших данных, их особенностями и ограничениями. Для освоения учебной дисциплины студенты должны владеть знаниями и компетенциями следующих дисциплин: Математический анализ Линейная алгебра и геометрия Теория вероятностей Математическая статистика Алгоритмы и структуры данных Машинное обучение I
Цель освоения дисциплины
- Ознакомление студентов с основными задачами машинного обучения на больших данных, их особенностями и ограничениями
Планируемые результаты обучения
- Владеть инструментами обработки данных в парадигме MapReduce
- Знать особенности распараллеливания алгоритмов машинного обучения для применения на больших данных
- Уметь работать с большими данными в реальных задачах
Содержание учебной дисциплины
- Hadoop
- Spark
- Linear models
- Boosting
- Recommender systems
- Neural networks
- Hashing tricks
- Min hash & LSH
Элементы контроля
- Мини-домашнее задание 11. Работа с облаком 2. Алгоритм на Bash Оценивается пропорционально выполненной работе
- Мини-домашнее задание 21. Алгоритм на Map Reduce 2. Алгоритмы на Spark Оценивается пропорционально выполненной работе
- Мини-домашнее задание 31. Собрать датасет на Spark 2. Обучить классическую модель Оценивается пропорционально выполненной работе
- Мини-домашнее задание 41. Оптимизировать нейронную сеть Оценивается пропорционально выполненной работе
- Большое домашнее задание1. Обучить модель на большом датасете Оценка зависит от полученного качества модели и от корректности написания кода для обучения
- Соревнование1. Набрать наибольший скор в задаче Только дополнительные баллы. Выдается 10 студентам, которые набрали наибольший скор и которые предоставили код.
Промежуточная аттестация
- 2023/2024 учебный год 3 модуль0.5 * Большое домашнее задание + 0.125 * Мини-домашнее задание 1 + 0.125 * Мини-домашнее задание 2 + 0.125 * Мини-домашнее задание 3 + 0.125 * Мини-домашнее задание 4 + 0 * Соревнование
Список литературы
Рекомендуемая основная литература
- An Introduction to the Bootstrap, Efron, B., 1993
- Hastie, T., Tibshirani, R., & Friedman, J. H. (2009). The Elements of Statistical Learning : Data Mining, Inference, and Prediction (Vol. Second edition, corrected 7th printing). New York: Springer. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=277008
Рекомендуемая дополнительная литература
- Murphy, K. P. (2012). Machine Learning : A Probabilistic Perspective. Cambridge, Mass: The MIT Press. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=480968
- Машинное обучение : наука и искусство построения алгоритмов, которые извлекают знания из данных, Флах, П., 2015