• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта
Магистратура 2023/2024

Современные технологии обработки статистических данных

Лучший по критерию «Полезность курса для расширения кругозора и разностороннего развития»
Лучший по критерию «Новизна полученных знаний»
Направление: 38.04.01. Экономика
Когда читается: 2-й курс, 1, 2 модуль
Формат изучения: без онлайн-курса
Охват аудитории: для своего кампуса
Прогр. обучения: Стохастическое моделирование в экономике и финансах
Язык: русский
Кредиты: 6
Контактные часы: 56

Программа дисциплины

Аннотация

Развитые навыки работы со статистическими данными входят в список самых востребованных качеств профессионалов в различных сферах: финансах, fintech отрасли, e-commerce, государственном управлении и т.д. Умение быстро и эффективно находить, обрабатывать и агрегировать данные, выявлять закономерности, строить модели и визуализировать информацию являются важнейшими составляющими успеха в современном мире.Данный курс будет посвящён рассмотрению основных этапов обработки информации: техниках препроцессинга и анализа данных, подходам к выявлению аномалий, этапам построения базовых моделей машинного обучения, обработке естественного языка, подходам к сбору и хранению данных.По итогам успешного освоения материалов курса вы:–изучите продвинутые техники агрегации и визуализации данных;–узнаете, как эффективно выявлять аномалии в данных;–научитесь строить базовые модели машинного обучения и обогащать данные дополнительной информацией;–освоите методы обработки естественного языка (NLP);–погрузитесь в подходы к сбору (парсингу) общедоступной информации из сети;–изучите подходы к промышленному хранению информации в структурированном виде.
Цель освоения дисциплины

Цель освоения дисциплины

  • Целью данного курса является получение студентами глубоких знаний в части современных методов обработки статистических данных, в том числе: • Освоение современных методов сбора, обработки, хранения и анализа информации • Углубление знаний языка программирования Python, необходимых для анализа данных • Получение навыков практического применения языка программирования Python в части анализа данных в различных сферах
Планируемые результаты обучения

Планируемые результаты обучения

  • Владение методами сегментации на основе анализа данных: кластеризация, анализ текстов, тематическое моделирование, LDA.
  • Знает основные подходы к преобразованию данных; умеет работать с массивами данных; имеет навыки загрузки, преобразования, очистки и визуализизации данных на языке Python
  • Знает основные типы объектов в Python
  • Владеет навыками парсинга данных и работы с базами данных в Python.
  • Знает основные типы данных языка Python
  • Применяет машинное обучение в задачах классификации
  • Уметь применять алгоритмы NLP для решения широкого спектра задач автоматической обработки текстов.
  • Владеть основами синтаксиса специальных библиотек для анализа данных: Numpy, Pandas, Matplotlib
Содержание учебной дисциплины

Содержание учебной дисциплины

  • Основы Python для анализа данных (вводные лекции)
  • Продвинутые техники анализа данных, визуализация данных и представление результатов анализа данных
  • Предобработка данных, исследовательский анализ данных (EDA)
  • Глубокий препроцессинг данных
  • Статистический анализ данных, выявление аномалий
  • Машинное обучение в анализе данных
  • Регрессионный анализ
  • Кластеризация данных
  • Обработка естественного языка (NLP)
  • Веб-скрапинг и работа с программными интерфейсами приложений (API)
  • Работа с базами данных, сбор и хранение данных в структурированном виде
  • Презентация и защита проекта в рамках курсе
Элементы контроля

Элементы контроля

  • неблокирующий Активность на семинарах
    Активность на семинарах (решение заданий, ответы на вопросы преподавателя)
  • неблокирующий Выступление с презентацией (в командах)
    Короткое (10-15 минут) выступление на тему из перечня + подготовка 5 вопросов квиза для аудитории
  • неблокирующий Подготовка и защита проекта (в командах)
    Самостоятельное исследование данных, постановка гипотез, проверки гипотез, проведение анализа данных, построение базовых моделей машинного обучения
  • неблокирующий Итоговый тест по темам курса
    Итоговый онлайн тест по темам курса
  • неблокирующий Итоговый анализ данных
    Самостоятельное исследование предложенных данных и ответы на вопросы по датасету
Промежуточная аттестация

Промежуточная аттестация

  • 2023/2024 2nd module
    0.1 * Активность на семинарах + 0.1 * Активность на семинарах + 0.1 * Выступление с презентацией (в командах) + 0.1 * Выступление с презентацией (в командах) + 0.2 * Итоговый анализ данных + 0.1 * Итоговый тест по темам курса + 0.15 * Подготовка и защита проекта (в командах) + 0.15 * Подготовка и защита проекта (в командах)
Список литературы

Список литературы

Рекомендуемая основная литература

  • Álvaro Scrivano. (2019). Coding with Python. Minneapolis: Lerner Publications ™. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=1947372
  • Hajba G.L. Website Scraping with Python: Using BeautifulSoup and Scrapy / G.L. Hajba, Berkeley, CA: Apress, 2018.
  • Python для data science, Васильев, Ю., 2023
  • Seppe vanden Broucke, & Bart Baesens. (2018). Practical Web Scraping for Data Science : Best Practices and Examples with Python. Apress.
  • Автоматизация рутинных задач с помощью Python : практическое руководство для начинающих, Свейгарт, Э., 2018
  • Введение в машинное обучение с помощью Python : руководство для специалистов по работе с данными, Мюллер, А., 2018
  • Изучаем pandas : высокопроизводительная обработка и анализ данных в Python, Хейдт, М., 2018
  • Маккинни, У. Python и анализ данных. Первичная обработка данных с применением pandas, NumPy и Jupiter : справочник / У. Маккинни , перевод с английского А. А. Слинкина. — 3-е изд. — Москва : ДМК Пресс, 2023. — 536 с. — ISBN 978-5-93700-174-0. — Текст : электронный // Лань : электронно-библиотечная система. — URL: https://e.lanbook.com/book/348086 (дата обращения: 00.00.0000). — Режим доступа: для авториз. пользователей.

Рекомендуемая дополнительная литература

  • Aman Kedia, & Mayank Rasu. (2020). Hands-On Python Natural Language Processing : Explore Tools and Techniques to Analyze and Process Text with a View to Building Real-world NLP Applications. Packt Publishing.
  • Linoff, G. (2016). Data Analysis Using SQL and Excel: Vol. Second edition. Wiley.
  • MySQL : справочник по языку, Волковой, Я. П., 2005
  • Введение в реляционные базы данных, Кириллов, В. В., 2012
  • Прикладной анализ текстовых данных на Python : машинное обучение и создание приложений обработки естественного языка, Бенгфорт, Б., 2020
  • Скрапинг веб-сайтов с помощью Python. Сбор данных из современного Интернета : пер. с англ., Митчелл Р., 2016

Авторы

  • Панов Владимир Александрович
  • Рычкова Элла Николаевна
  • Искяндяров Руслан Рушанович