• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта
Магистратура 2024/2025

Семинар наставника "Финансовые технологии и анализ данных"

Статус: Курс обязательный (Финансовые технологии и анализ данных)
Направление: 01.04.02. Прикладная математика и информатика
Когда читается: 2-й курс, 1-3 модуль
Формат изучения: без онлайн-курса
Охват аудитории: для своего кампуса
Преподаватели: Попов Илья Иванович
Прогр. обучения: Финансовые технологии и анализ данных
Язык: русский
Кредиты: 9

Программа дисциплины

Аннотация

Дисциплина преподается с целью ознакомления слушателей с подходами к решению бизнес-задач в крупных финансовых организациях с применением методов математического моделирования и анализа данных, приобретения навыков постановки прикладных исследовательских задач, проектирования систем машинного обучения, оценки модельных рисков, управления командой ML-специалистов и презентации реализованных решений перед заказчиками. Основной задачей семинара авторы видят не только изучение различных алгоритмов машинного обучения и подходов к максимизации метрики качества, но и развитие способности критически подходить к выбору этих алгоритмов и метрик для конкретных бизнес задач, а также умения видеть ограничения популярных моделей. По итогу слушатели научатся выбирать подходящий алгоритм, выявляющий причинно-следственные связи между явлениями (если это необходимо), организовывать команду для решения конкретной задачи и презентовать результаты своей работы.
Цель освоения дисциплины

Цель освоения дисциплины

  • Цель освоения дисциплины - анализ научных и практических тенденций в области финансовых технологий
  • Формирование у студентов комплекса теоретических знаний и методологических основ в области технологий обработки, хранения, преобразования и визуализации данных. В ходе курса рассматриваются все этапы обработки данных: появление данных в OLTP-системах, их транспорт в OLAP-хранилище, сохранение в сырой слой, нормализация в детальный слой, построение аналитических витрин и отчетов, автоматизация процессов, мониторинг здоровья кластера и системы в целом
  • Формирование знаний, умений и навыков проектирования систем машинного обучения, выбора оптимального алгоритма решения поставленной бизнес-задачи и метода оценки его с учётом имеющихся ограничений. Формирование навыков управления командой специалистов с использованием гибких методологий разработки.
Планируемые результаты обучения

Планируемые результаты обучения

  • Владение общими навыки проектирования структуры хранилищ данных
  • Владение навыками работы с реляционными БД, MPP, DFS-хранилищами
  • Умение строить ETL-процессы, осуществлять потоковую и батчевую обработку данных
  • Умение строить end-to-end архитектуру хранилища данных, администрировать и поддерживать стабильную работу различных программных комплексов
  • Умение строить BI-системы и системы операционного мониторинга
  • Формирует задания для исследования новых рынков, следит за ходом исследований и принимает их результаты
  • Проводит поиск и анализ наиболее актуальных академических и прикладных исследований в области финансовых технологий
  • Владеть навыками проектирования ML-систем
  • Уметь оценивать качество работы ML-моделей, оценивать и митигировать их риски
  • Уметь оценивать причинно-следственные связи при помощи машинного обучения
  • Владеть методологиями организации ML-команд и фреймворками решения задач и принятия решений
  • Быть способными презентовать результаты своей работы заказчику ML-решения в понятном для него виде
Содержание учебной дисциплины

Содержание учебной дисциплины

  • Ключевые направления исследований в области финансовых технологий
  • Постановка исследовательских задач
  • Разбор научных статей в области финансовых технологий
  • Разбор практических кейсов в области финансовых технологий
  • Введение в Data Engineering. Устройство современного дата-пайплайна.
  • Файловые хранилища. S3-like хранилища. Hadoop-экосистема.
  • Устройство и основы работы с Apache Spark.
  • Data Warehousing. Современные архитектуры организации хранилищ данных: Data Vault, Anchor Model, hNhM.
  • Очереди и работа с потоками данных: Apache Kafka, Spark Streaming
  • MPP СУБД: Greenplum, Vertica, Clickhouse. Особенности устройства и организации вычислений
  • Планы запросов. Учимся читать планы запросов на реляционных СУБД и MPP
  • ETL / ELT. Правила проектирования ETL-процессов
  • Использование данных. BI-системы
  • Новые вызовы в DE
Элементы контроля

Элементы контроля

  • неблокирующий Домашнее задание 2
  • неблокирующий Проект
    Презентация концепции курсового проекта
  • неблокирующий Домашнее задание 1
  • неблокирующий Домашнее задание 3
  • неблокирующий Домашнее задание 4
  • неблокирующий Проект
    По итогам выполнения всех домашних заданий должен получиться один большой проект, сочетающий в себе все элементы пайплайна обработки данных: появление в OLTP-системе, транспорт в OLAP, сохранение в сырой слой, нормализация в детальный слой, построение аналитических витрин и отчетов, мониторинг здоровья кластера и системы.
  • неблокирующий Работа на семинарах
Промежуточная аттестация

Промежуточная аттестация

  • 2023/2024 учебный год 4 модуль
    0.6 * Проект + 0.6 * Проект + 0.4 * Работа на семинарах + 0.4 * Работа на семинарах
  • 2024/2025 учебный год 3 модуль
    Oитоговая = ¼*(Домашнее задание 1) + ¼*(Домашнее задание 2) + ¼*(Домашнее задание 3) + ¼*(Домашнее задание 4)
Список литературы

Список литературы

Рекомендуемая основная литература

  • Kleppmann, M. (2017). Designing Data-Intensive Applications : The Big Ideas Behind Reliable, Scalable, and Maintainable Systems. Sebastopol, CA: O’Reilly Media. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=1487643
  • Linstedt, D., & Olschimke, M. (2015). Building a Scalable Data Warehouse with Data Vault 2.0. Amsterdam: Morgan Kaufmann. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=1065504

Рекомендуемая дополнительная литература

  • DAMA-DMBOK : data management body of knowledge, , 2017
  • Kimball, R., & Ross, M. (2013). The Data Warehouse Toolkit : The Definitive Guide to Dimensional Modeling (Vol. 3rd edition). Hoboken, New Jersey: Wiley. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=605991
  • White, T. (2015). Hadoop: The Definitive Guide : Storage and Analysis at Internet Scale: Vol. 4th edition. O’Reilly Media.

Авторы

  • Яковлева Илона Александровна