Магистратура
2023/2024
Современные технологии обработки статистических данных
Лучший по критерию «Полезность курса для расширения кругозора и разностороннего развития»
Лучший по критерию «Новизна полученных знаний»
Статус:
Курс по выбору (Стохастическое моделирование в экономике и финансах)
Направление:
38.04.01. Экономика
Кто читает:
Департамент статистики и анализа данных
Где читается:
Факультет экономических наук
Когда читается:
2-й курс, 1, 2 модуль
Формат изучения:
без онлайн-курса
Охват аудитории:
для своего кампуса
Преподаватели:
Искяндяров Руслан Рушанович
Прогр. обучения:
Стохастическое моделирование в экономике и финансах
Язык:
русский
Кредиты:
6
Контактные часы:
56
Программа дисциплины
Аннотация
Развитые навыки работы со статистическими данными входят в список самых востребованных качеств профессионалов в различных сферах: финансах, fintech отрасли, e-commerce, государственном управлении и т.д. Умение быстро и эффективно находить, обрабатывать и агрегировать данные, выявлять закономерности, строить модели и визуализировать информацию являются важнейшими составляющими успеха в современном мире.Данный курс будет посвящён рассмотрению основных этапов обработки информации: техниках препроцессинга и анализа данных, подходам к выявлению аномалий, этапам построения базовых моделей машинного обучения, обработке естественного языка, подходам к сбору и хранению данных.По итогам успешного освоения материалов курса вы:–изучите продвинутые техники агрегации и визуализации данных;–узнаете, как эффективно выявлять аномалии в данных;–научитесь строить базовые модели машинного обучения и обогащать данные дополнительной информацией;–освоите методы обработки естественного языка (NLP);–погрузитесь в подходы к сбору (парсингу) общедоступной информации из сети;–изучите подходы к промышленному хранению информации в структурированном виде.
Цель освоения дисциплины
- Целью данного курса является получение студентами глубоких знаний в части современных методов обработки статистических данных, в том числе: • Освоение современных методов сбора, обработки, хранения и анализа информации • Углубление знаний языка программирования Python, необходимых для анализа данных • Получение навыков практического применения языка программирования Python в части анализа данных в различных сферах
Планируемые результаты обучения
- Владение методами сегментации на основе анализа данных: кластеризация, анализ текстов, тематическое моделирование, LDA.
- Знает основные подходы к преобразованию данных; умеет работать с массивами данных; имеет навыки загрузки, преобразования, очистки и визуализизации данных на языке Python
- Знает основные типы объектов в Python
- Владеет навыками парсинга данных и работы с базами данных в Python.
- Знает основные типы данных языка Python
- Применяет машинное обучение в задачах классификации
- Уметь применять алгоритмы NLP для решения широкого спектра задач автоматической обработки текстов.
- Владеть основами синтаксиса специальных библиотек для анализа данных: Numpy, Pandas, Matplotlib
Содержание учебной дисциплины
- Основы Python для анализа данных (вводные лекции)
- Продвинутые техники анализа данных, визуализация данных и представление результатов анализа данных
- Предобработка данных, исследовательский анализ данных (EDA)
- Глубокий препроцессинг данных
- Статистический анализ данных, выявление аномалий
- Машинное обучение в анализе данных
- Регрессионный анализ
- Кластеризация данных
- Обработка естественного языка (NLP)
- Веб-скрапинг и работа с программными интерфейсами приложений (API)
- Работа с базами данных, сбор и хранение данных в структурированном виде
- Презентация и защита проекта в рамках курсе
Элементы контроля
- Активность на семинарахАктивность на семинарах (решение заданий, ответы на вопросы преподавателя)
- Выступление с презентацией (в командах)Короткое (10-15 минут) выступление на тему из перечня + подготовка 5 вопросов квиза для аудитории
- Подготовка и защита проекта (в командах)Самостоятельное исследование данных, постановка гипотез, проверки гипотез, проведение анализа данных, построение базовых моделей машинного обучения
- Итоговый тест по темам курсаИтоговый онлайн тест по темам курса
- Итоговый анализ данныхСамостоятельное исследование предложенных данных и ответы на вопросы по датасету
Промежуточная аттестация
- 2023/2024 2nd module0.1 * Активность на семинарах + 0.1 * Активность на семинарах + 0.1 * Выступление с презентацией (в командах) + 0.1 * Выступление с презентацией (в командах) + 0.2 * Итоговый анализ данных + 0.1 * Итоговый тест по темам курса + 0.15 * Подготовка и защита проекта (в командах) + 0.15 * Подготовка и защита проекта (в командах)
Список литературы
Рекомендуемая основная литература
- Álvaro Scrivano. (2019). Coding with Python. Minneapolis: Lerner Publications ™. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=1947372
- Hajba G.L. Website Scraping with Python: Using BeautifulSoup and Scrapy / G.L. Hajba, Berkeley, CA: Apress, 2018.
- Python для data science, Васильев, Ю., 2023
- Seppe vanden Broucke, & Bart Baesens. (2018). Practical Web Scraping for Data Science : Best Practices and Examples with Python. Apress.
- Автоматизация рутинных задач с помощью Python : практическое руководство для начинающих, Свейгарт, Э., 2018
- Введение в машинное обучение с помощью Python : руководство для специалистов по работе с данными, Мюллер, А., 2018
- Изучаем pandas : высокопроизводительная обработка и анализ данных в Python, Хейдт, М., 2018
- Маккинни, У. Python и анализ данных. Первичная обработка данных с применением pandas, NumPy и Jupiter : справочник / У. Маккинни , перевод с английского А. А. Слинкина. — 3-е изд. — Москва : ДМК Пресс, 2023. — 536 с. — ISBN 978-5-93700-174-0. — Текст : электронный // Лань : электронно-библиотечная система. — URL: https://e.lanbook.com/book/348086 (дата обращения: 00.00.0000). — Режим доступа: для авториз. пользователей.
Рекомендуемая дополнительная литература
- Aman Kedia, & Mayank Rasu. (2020). Hands-On Python Natural Language Processing : Explore Tools and Techniques to Analyze and Process Text with a View to Building Real-world NLP Applications. Packt Publishing.
- Linoff, G. (2016). Data Analysis Using SQL and Excel: Vol. Second edition. Wiley.
- MySQL : справочник по языку, Волковой, Я. П., 2005
- Введение в реляционные базы данных, Кириллов, В. В., 2012
- Прикладной анализ текстовых данных на Python : машинное обучение и создание приложений обработки естественного языка, Бенгфорт, Б., 2020
- Скрапинг веб-сайтов с помощью Python. Сбор данных из современного Интернета : пер. с англ., Митчелл Р., 2016