• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта
Бакалавриат 2024/2025

Введение в платформы данных

Направление: 01.03.02. Прикладная математика и информатика
Когда читается: 4-й курс, 3 модуль
Формат изучения: без онлайн-курса
Охват аудитории: для своего кампуса
Язык: русский
Кредиты: 4

Программа дисциплины

Аннотация

Для чего нужны платформы данных? Как бы это очевидно ни звучало, они нужны для принятия решений на основе данных. У бизнеса может быть бесконечное количество запросов: как изменить цену товаров, в каком месте разместить магазин, кому показать рекламу, куда сдвинуть кнопку на сайте и т.д. Эти задачи могут решаться с помощью аналитики, построения дашбордов, сбора метрик, построения ML-моделей и т.д. Само по себе решение таких задач нетривиально, однако, это лишь верхушка айсберга.Прежде, чем проводить какую-либо аналитику, данные нужно найти, загрузить в хранилище, проверить их качество, агрегировать, и на любом из этапов может возникнуть огромное количество проблем. Здесь и появляются платформы данных, которые предоставляют инфраструктуру и инструменты для загрузки, обработки, проверки и анализа данных, что в конечном счете значительно упрощает и ускоряет решение любых задач, связанных с данными.В рамках курса вы познакомитесь с основными концепциями платформ данных, посмотрите из чего они состоят, какие бывают реализации, и запустите собственную платформу данных. Кроме того, на собранной платформе попрактикуетесь с организацией полного цикла работы с данными: от загрузки из источника до работы аналитика с этими данными. Вы узнаете, что такое Big Data, Data Warehouse, Data Lake, Data Governance, а также познакомитесь с технологиями, которые позволяют реализовать эти методологии и концепции. Особое внимание в курсе будет уделено таким технологиям, как Hadoop и Spark. Вы изучите компоненты Hadoop, архитектуру кластера и HDFS, научитесь развертывать Hadoop и выполнять базовые операции. Также вы изучите архитектуру и назначение Spark и научитесь работать с Spark DataFrame API и Spark SQL API. Теоретическая часть будет представлена в виде онлайн-курса, что позволит вам просматривать лекции в комфортном темпе и возвращаться к ним при возникновении трудностей. Практическая часть будет проходить при поддержке преподавателей, которые помогут вам освоить материал, ответят на все возникающие вопросы и дадут обратную связь по домашним заданиям. По необходимости будут организованы встречи в формате Q&A, где вы сможете задать вопросы и получить развернутые ответы от экспертов.