2020/2021
Введение в анализ данных
Лучший по критерию «Полезность курса для Вашей будущей карьеры»
Лучший по критерию «Полезность курса для расширения кругозора и разностороннего развития»
Лучший по критерию «Новизна полученных знаний»
Статус:
Майнор
Когда читается:
3, 4 модуль
Язык:
русский
Кредиты:
5
Контактные часы:
60
Программа дисциплины
Аннотация
Изучение дисциплины «Введение в анализ данных» нацелено на освоение основных методов и алгоритмов анализа данных с применением языка программирования Python.Курс является вторым в майноре «Интеллектуальный анализ данных». Предполагается, что в результате освоения курса студенты будут способны самостоятельно проводить анализ различных наборов данных с использованием языка программирования Python.
Цель освоения дисциплины
- Знать основные методы анализа данных; о месте и ценности методов машинного обучения и разработки данных в современной науке и практической деятельности; основные каналы научной и прикладной информации по анализу данных
- Уметь использовать освоенные методы анализа данных для обработки конкретных наборов данных, анализировать результаты, делать выводы; формализовать конкретную задачу анализа данных и разработать алгоритм решения
- Владеть методами программирования, отлаживания и тестирования алгоритмов анализа данных
Планируемые результаты обучения
- Понимает концепцию структурированных и не структурированных данных, задачу анализа данных и машинного обучения
- Знает основные типы данных, этапы предобработки данных, методы разведочного анализа данных
- Умеет выполнять предобработку данных и разведочный анализ данных с помощью релевантного программного обеспечения
- Понимает концепцию кластерного анализа данных, концепцию близкости (похожести) объектов
- Знает основные методы кластерного анализа данных, основные способы измерения расстояния между объектами
- Знает и умеет использовать программные реализации основных алгоритмов кластерного анализа
- Понимает концепцию задачи регрессии как задачи машинного обучения
- Знает основные методы решения задачи регрессии, способы оценки ошибки предсказания
- Знает и умеет использовать программные реализации методов решения задачи регрессии
- Понимает концепцию задачи классификации как задачи машинного обучения
- Знает основные методы решения задачи классификации, способы оценки точности классификации, способы борьбы с переобучением
- Знает и умеет использовать программные реализации методов решения задачи классификации
Содержание учебной дисциплины
- Первичный анализ данныхОбъекты и признаки. Числовые, порядковые и номинальные признаки. Преобразование признаков из одной формы в другую. Основные характеристики признака: среднее, разброс. Гистограмма признака. Распределение признака. Зависимость признаков. Корреляции. Влияние зависимостей на анализ данных. Преобразование признаков. Стандартизация.
- Методы кластеризацииФормулировка задачи кластеризации. Близость объектов. Расстояние между объектами: Евклидово расстояние, Манхэттенское расстояние, Расстояние Чебышева, Расстояние Хэмминга, Косинусная мера, Расстояние Джаккарда. Расстояние между кластерами: рас-стояние ближайшего соседа, расстояние дальнего соседа, взвешенное среднее расстояние, расстояние между центрами, расстояние Варда. Иерархическая кластеризация и её типы. Дендрограмма. Алгоритм DBSCAN. Алгоритм k-means. Алгоритм Partitioning Around Medoids. Отличие от k-means.
- Методы предсказания. РегрессияФормулировка задачи предсказания. Регрессия как задача аппроксимации. Функционалы ошибки для задачи регрессии: среднеквадратичная ошибка, корень среднеквадратичной ошибки, средняя абсолютная ошибка, средняя абсолютная ошибка в процентах. Коэффициент детерминации. Линейная регрессия. Метод наименьших квадратов. Проблема переобучения и регуляризация. Гребневая регрессия. Метод Лассо. особенности метода Лассо. Метод k-ближайших соседей для задачи регрессии. Метод k ближайших соседей с весами.
- Методы классификацииФормулировка задачи классификации. Метод k-ближайших соседей для задачи классификации. Метод k ближайших соседей с весами. Примеры ядер. Вероятностные модели. Логистическая регрессия. Байесовский классификатор. Наивный байесовский классификатор. Метрики качества классификации: accuracy, precision, recall, F-мера, AUC-ROC и AUC-PRC. Матрица ошибок. Кросс-валидация. Решающие деревья. Жадный алгоритм построения дерева. Критерии качества ветвления по одному из признаков: энтропийный критерий, критерий Джини. Случайные леса.
Элементы контроля
- Контрольная работа №1
- Контрольная работа №2
- Лабораторная работа №1
- Лабораторная работа №2
- Лабораторная работа №3
- ЭкзаменЭкзамен проводится на платформе MS Teams (https://teams.microsoft.com). К экзамену необходимо подключиться согласно расписанию ответов, высланному преподавателем на корпоративные почты студентов накануне экзамена. Компьютер студента должен удовлетворять требованиям: наличие рабочей камеры и микрофона, поддержка MS Teams. Для участия в экзамене студент обязан: поставить на аватар свою фотографию, явиться на экзамен согласно точному расписанию, при ответе включить камеру и микрофон. Во время экзамена студентам запрещено: выключать камеру, пользоваться конспектами и подсказками. Кратковременным нарушением связи во время экзамена считается нарушение связи до 5 минут. Долговременным нарушением связи во время экзамена считается нарушение 5 минут и более. При долговременном нарушении связи студент не может продолжить участие в экзамене. Процедура пересдачи аналогична процедуре сдачи.
- Контрольная работа №1
- Контрольная работа №2
- Лабораторная работа №1
- Лабораторная работа №2
- Лабораторная работа №3
- ЭкзаменЭкзамен проводится на платформе MS Teams (https://teams.microsoft.com). К экзамену необходимо подключиться согласно расписанию ответов, высланному преподавателем на корпоративные почты студентов накануне экзамена. Компьютер студента должен удовлетворять требованиям: наличие рабочей камеры и микрофона, поддержка MS Teams. Для участия в экзамене студент обязан: поставить на аватар свою фотографию, явиться на экзамен согласно точному расписанию, при ответе включить камеру и микрофон. Во время экзамена студентам запрещено: выключать камеру, пользоваться конспектами и подсказками. Кратковременным нарушением связи во время экзамена считается нарушение связи до 5 минут. Долговременным нарушением связи во время экзамена считается нарушение 5 минут и более. При долговременном нарушении связи студент не может продолжить участие в экзамене. Процедура пересдачи аналогична процедуре сдачи.
Промежуточная аттестация
- Промежуточная аттестация (4 модуль)0.05 * Контрольная работа №1 + 0.1 * Контрольная работа №2 + 0.1 * Лабораторная работа №1 + 0.15 * Лабораторная работа №2 + 0.1 * Лабораторная работа №3 + 0.5 * Экзамен
Список литературы
Рекомендуемая основная литература
- Aggarwal C. Data Mining: The Textbook. Springer International Publishing, 2015. DOI: 10.1007/978-3-319-14142-8
Рекомендуемая дополнительная литература
- Hastie, T., Tibshirani, R., Friedman, J. The elements of statistical learning: Data Mining, Inference, and Prediction. – Springer, 2009. – 745 pp.
- Mirkin, B. Core concepts in data analysis: summarization, correlation and visualization. – Springer Science & Business Media, 2011. – 388 pp.