Бакалавриат
2020/2021
Анализ данных
Лучший по критерию «Новизна полученных знаний»
Статус:
Курс обязательный (Бизнес-информатика)
Направление:
38.03.05. Бизнес-информатика
Когда читается:
2-й курс, 3, 4 модуль
Формат изучения:
без онлайн-курса
Язык:
русский
Кредиты:
4
Контактные часы:
60
Программа дисциплины
Аннотация
Изучение дисциплины «Анализ данных» базируется на следующих дисциплинах: - Математический анализ; - Геометрия и алгебра; - Дискретная математика; - Теория вероятности и математическая статистика. В результате освоения дисциплины студент должен: знать: - основные понятия анализа данных; уметь: - анализировать данные, выбирать адекватные методы анализа; владеть: - навыками применения основных алгоритмов анализа данных.
Цель освоения дисциплины
- Целями освоения дисциплины «Анализ данных» является знакомство с основными понятиями анализа данных, развитие навыков анализа данных, овладение основными ал-горитмами анализа данных.
Планируемые результаты обучения
- Владеть базовыми знаниями для освоения курса
- Уметь вычислять SVD разложение и переходить в пространство меньшей размерности с оценкой ошибки
- Уметь находить кластерные структуры в данных с помощью различных методов
- Уметь выбирать и использовать метод классификации для конкретных наборов данных. Выполнять сравнение методов классификации
Содержание учебной дисциплины
- ВведениеВведение. Основные задачи анализа данных. Данные. Типы данных. Анализ данных. Классические задачи анализа данных: снижение раз-мерности, кластеризация, классификация. Необходимые понятия мат анализа и линейной алгебры Векторы, матрицы, собственные числа, производные, градиент Необходимые понятия теории вероятности и мат статистики Вероятность, условная вероятность, теорема Байеса, мат ожидание, дисперсия, корреляция, виды распределений
- Методы снижения размерности. Сингулярное разложение и метод главных компонентПроблема уменьшения размерности. Задачи наилучшей аппроксимации матрицы заданной размерности матрицами той же размерности фиксированного ранга. Выбор матричной нормы. SVD разложение. Сингулярные числа матрицы. Теорема Шмидта – Мирского (Эккарта-Юнга). Оценка погрешности в l2 матричной норме и в норме Фробениуса. Метод главных компонент как вариант SVD разложения. Вычисление главных компонент. QR - алгоритм. Матрица нагрузок как матрица корреляций наблюдений и новых факторов. Погрешность аппроксимации как изменение общей вариации данных. Проблема выбора числа главных компонент. Анализ вариации в методе главных компонент. Интерпретация главных компонент. Поиск структуры в матрице нагрузок
- Обучение без учителя (методы кластеризации)Проблема разбиения объектов на группы по степени близости объектов в группах. Расстояния в пространстве объектов. Расстояния между кластерами: метод ближайшего соседа; метод наиболее удаленных соседей; метод попарных средних; метод взвешенных попарных средних; центроидный метод; взвешенный центроидный метод; метод Варда. Таблица расстояний между объектами. Алгоритмы иерархической кластеризации (снизу вверх и сверху вниз). Графическое представление иерархических алгоритмов кластеризации. Дендрограмы. Задача кластеризации как задача дискретно-непрерывной оптимизации (разбиения и центры). Алгоритм k-means. Достоинства и недостатки, особенности алгоритма для различных расстояний. Incremental k-means. Проблема останова. Алгоритм РАМ (partition around medoids). Сравнение с алгоритмом k-means. Генетические алгоритмы кластеризации. Графы данных. Алгоритмы кластеризации на графах: MST, DBSCAN
- Обучение с учителемЛинейная регрессия. Методы регрессионного анализа (МНК). Множественная и полиномиальная регрессии. Регуляризация. Логистическая регрессия, мультиклассовая регрессия, softmax, градиентный спуск. Методы классификации. Простейшие классификаторы (NN-классификатор, ближний сосед, k-NN классификатор). Оценка качества классификаторов: обучающая выборка, тестовая выборка, ошибки 0-1 классификатора. Анализ вариаций. Отношение Фишера, как мера возможности разделения данных на группы (возможность классификации). Задача о «наилучшей» проекции (наилучшая возможность разделения данных после проекции). Максимальное значение отношения двух квадратичных форм. Дискриминантная функция Фишера. Классификатор на основе дискриминантной функции Фишера. Дискриминантное правило Фишера, как частный случай классификации по методу линейной регрессии. Метод опорных векторов (SVM), как линейный классификатор. Правило классификации по методу опорных векторов. Задача оптимизации для поиска разделяющей гиперплоскости. Вычисление опорных векторов. Деревья решений. Описание общего под-хода. Классификаторы линейной регрессии, Фишера и метода опорных векторов как простейшие деревья решений. Достоинства и недостатки деревьев решений в сравнении с линейными классификаторами. Правила разделения, основанные на значениях одного признака (случай дискретных значений признака). Меры неопределенности: ROC-кривая, индекс Джини, информационная энтропия. Прирост информации (information gain). По-строение дерева решений по правилу разбиения по одному из признаков (дискретный на-бор значений). Критерий останова (стоп критерий). Обработка выбросов в данные. Z-score, Interquartile range. Оценка распределения. Обработка выбросов с помощью алгоритмов классификации (DBSCAN, K-means, Isolation forest, лог регрессия). Under-sampling, Over-samplimg
Элементы контроля
- самостоятельная работа
- письменный экзаменЭкзамен проводится в письменной форме с использованием асинхронного прокторинга. Экзамен проводится на платформе MS Teams (https://teams.microsoft.com), прокторинг на платформе Экзамус (https://hse.student.examus.net). К экзамену необходимо подключиться за 15 минут. На платформе Экзамус доступно тестирование системы. Компьютер студента должен удовлетворять следующим требованиям: https://elearning.hse.ru/data/2020/05/07/1544135594/Технические%20требования%20к%20ПК%20студента.pdf) Для участия в экзамене студент обязан: заранее зайти на платформу прокторинга, провести тест системы, включить камеру и микрофон, подтвердить личность. Во время экзамена студентам запрещено: общаться (в социальных сетях, с людьми в комнате), списывать. Кратковременным нарушением связи во время экзамена считается прерывание связи до 10 минут. Долговременным нарушением связи во время экзамена считается прерывание связи 10 минут и более. При долговременном нарушении связи студент не может продолжить участие в экзамене. Процедура пересдачи аналогична процедуре сдачи.
- Лабораторная работа № 1
- Лабораторная работа № 2
- Лабораторная работа № 3
- Контрольная работа № 1
- Контрольная работа № 2
- Контрольная работа № 3
- самостоятельная работа
- письменный экзаменЭкзамен проводится в письменной форме с использованием асинхронного прокторинга. Экзамен проводится на платформе MS Teams (https://teams.microsoft.com), прокторинг на платформе Экзамус (https://hse.student.examus.net). К экзамену необходимо подключиться за 15 минут. На платформе Экзамус доступно тестирование системы. Компьютер студента должен удовлетворять следующим требованиям: https://elearning.hse.ru/data/2020/05/07/1544135594/Технические%20требования%20к%20ПК%20студента.pdf) Для участия в экзамене студент обязан: заранее зайти на платформу прокторинга, провести тест системы, включить камеру и микрофон, подтвердить личность. Во время экзамена студентам запрещено: общаться (в социальных сетях, с людьми в комнате), списывать. Кратковременным нарушением связи во время экзамена считается прерывание связи до 10 минут. Долговременным нарушением связи во время экзамена считается прерывание связи 10 минут и более. При долговременном нарушении связи студент не может продолжить участие в экзамене. Процедура пересдачи аналогична процедуре сдачи.
- Лабораторная работа № 1
- Лабораторная работа № 2
- Лабораторная работа № 3
- Контрольная работа № 1
- Контрольная работа № 2
- Контрольная работа № 3
Промежуточная аттестация
- Промежуточная аттестация (4 модуль)0.13 * Контрольная работа № 1 + 0.14 * Контрольная работа № 2 + 0.13 * Лабораторная работа № 1 + 0.14 * Лабораторная работа № 2 + 0.13 * Лабораторная работа № 3 + 0.13 * письменный экзамен + 0.2 * самостоятельная работа
Список литературы
Рекомендуемая основная литература
- Ford, W. (2015). Numerical Linear Algebra with Applications : Using MATLAB (Vol. First edition). London: Academic Press. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=485990
Рекомендуемая дополнительная литература
- Райгородский А.М. - Вероятность и алгебра в комбинаторике - Московский центр непрерывного математического образования - 2008 - 48с. - ISBN: 978-5-94057-384-5 - Текст электронный // ЭБС ЛАНЬ - URL: https://e.lanbook.com/book/9400