Магистратура
2020/2021
Современные методы принятия решений: Алгоритмы обработки больших данных
Лучший по критерию «Новизна полученных знаний»
Статус:
Курс обязательный (Финансовые технологии и анализ данных)
Направление:
01.04.02. Прикладная математика и информатика
Где читается:
Факультет компьютерных наук
Когда читается:
1-й курс, 4 модуль
Формат изучения:
без онлайн-курса
Прогр. обучения:
Финансовые технологии и анализ данных
Язык:
русский
Кредиты:
6
Контактные часы:
36
Программа дисциплины
Аннотация
Настоящая программа учебной дисциплины устанавливает требования к образовательным результатам и определяет содержание и виды учебных занятий и отчетности. Программа предназначена для студентов направления подготовки 01.04.02 Прикладная математика и информатика, обучающихся по образовательной программе магистратуры Финансовые технологии и анализ данных.
Цель освоения дисциплины
- Целью освоения дисциплины является ознакомление студентов с основными задачами машинного обучения на больших данных, их особенностями и ограничениями
Планируемые результаты обучения
- знать особенности распараллеливания алгоритмов машинного обучения для применения на больших данных;
- владеть инструментами обработки данных в парадигме MapReduce;
- уметь работать с большими данными в реальных задачах.
Содержание учебной дисциплины
- Онлайн обучение и линейные модели.Онлайн подход к обучению на больших данных на примере линейных моделей. Разбор принципов работы vowpal wabbit. Progressive validation, трюк с хэшированием. Запуск обучения на кластере. Разбор задачи предсказания кликов для онлайн-рекламы Criteo.
- Введение в Apache Spark и оптимизация гиперпараметровОбобщение парадигмы Map-Reduce, модель графов вычислений, RDD, DataFrame API, Mllib. Простейшее использование Apache Spark для оптимизации гиперпараметров.
- Рекомендательные системыОсобенности построения рекомендательных систем на больших данных. Content-based, collaborative filtering, ALS, iALS.
- Бустинг для больших данныхПодходы к распараллеливанию бустинга над решающими деревьями. Обзор реализации xgboost.
- Введение в TensorFlowВычислительная модель TensorFlow, примеры графов дифференцируемых вычислений для различных задач. Почему GPU дает ускорение. Рассмотрение задачи расчета word2vec представлений для слов.
- Глубокие нейронные сети для классификации изображенийОбзор основных архитектур, датасет ImageNet, особенности сверточных сетей. Эффективное использование нескольких GPU, использование нескольких машин с GPU.
- Глубокие нейронные сети для классификации текстовОсновы рекурентных нейросетей. Задача определения интента фразы по тексту. Распараллеливание обучения.
- LSH для нахождения похожих объектовНахождение похожих объектов на примере меры Жаккара. LSH на примере задачи нахождения похожих новостей.
- Кластеризация больших данныхРаспределенный вариант алгоритма K-Means.
Элементы контроля
- Проверочные работыСтуденту, получившему отличную накопленную оценку, данная оценка может быть выставлена в качестве итоговой на усмотрение семинариста и лектора.
- Домашние заданияСтуденту, получившему отличную накопленную оценку, данная оценка может быть выставлена в качестве итоговой на усмотрение семинариста и лектора.
- ЭкзаменОценка за дисциплину выставляется в соответствии с формулой оценивания от всех пройденных элементов контроля. Экзамен не проводится.
Промежуточная аттестация
- Промежуточная аттестация (4 модуль)0.5 * Домашние задания + 0.2 * Проверочные работы + 0.3 * Экзамен
Список литературы
Рекомендуемая основная литература
- Machine learning : a probabilistic perspective, Murphy, K. P., 2012
- Теория принятия решений : учебник для вузов, Петровский, А. Б., 2009
Рекомендуемая дополнительная литература
- Beysolow, T. (2018). Applied Natural Language Processing with Python : Implementing Machine Learning and Deep Learning Algorithms for Natural Language Processing. [Berkeley, CA]: Apress. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=1892182
- Witten, I. H., Frank, E., Hall, M. A., & Pal, C. J. (2017). Data Mining : Practical Machine Learning Tools and Techniques (Vol. Fourth edition). Cambridge, MA: Morgan Kaufmann. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=1214611