Основные методы анализа данных

Бакалавриат 2020/2021

Статус: Курс по выбору (Прикладная математика и информатика)

Направление: 01.03.02. Прикладная математика и информатика

Кто читает: Департамент анализа данных и искусственного интеллекта

Где читается: Факультет компьютерных наук

Когда читается: 3-й курс, 1, 2 модуль

Формат изучения: без онлайн-курса

Преподаватели: Миркин Борис Григорьевич

Язык: русский

Кредиты: 5

Контактные часы: 60

Полная версия программы учебной дисциплины Задать вопрос

Аннотация

Данные и основные методы их анализа – специфическое содержание курса. В классической статистике, данные – не более, чем средство для идентификации и проверки математической модели того явления, к которому они относятся. Майнинг данных и обнаружение знаний используют данные для обогащения любых знаний о явлении. Термин «знание» может относиться к самым разнообразным формам информации от индивидуальных фактов до литературных героев и научных законов. Мы рассматриваем анализ данных как дисциплину промежуточного уровня, ориентированную на обогащение теоретического знания. Основные структурные элементы знания – (а) понятия и (б) утверждения об их связи. Соответственно, имеется два наиболее прямых способа обогащения знаний – формирование новых понятий и новых связей между ними. Соответственно, в данном курсе рассматриваются две основные задачи анализа данных – суммаризация и коррелирование. Суммаризация связана не только с расчетом средних, но и агрегацией признаков или/и объектов в факторы или/и кластеры, соответственно. Что касается термина коррелирование, то речь идет о тенденции совместного появления каких-то общих паттернов, что может вести к выработке теоретических представлений, объясняющих наблюдаемые корреляции. Полезно различать количественное и категориальное коррелирование, в зависимости от того, идет ли речь о функционально-аналитической зависимости или концептуальном описании. Корреляции могут использоваться как для понимания, так и предсказания. Последнее пока что рассматривается несравненно важнее для приложений, тем более что формулировка проблем предсказания значительно более понятна. Взгляд на данные как объект вычислительного анализа данных возник совсем недавно. Обычно в науке ставится проблема, а потом уже под нее собираются данные для проверки. Так бывает и в науке данных иногда. Но главный тип ситуаций – когда первыми являются данные. В этом случае проблема ставится так а можно ли извлечь какой-то смысл из этих данных? А есть ли в них хоть какая-то структура в них? А можно ли использовать эти признаки для предсказания этих? Такой взгляд более характерен для путешественника, чем для ученого. Ученый сидит за письменным столом, наблюдает воспроизводимые сигналы вселенной и использует их в качестве материала для грандиозного творения науки. Путешественник вынужден существовать в ситуации, в которой он оказался. Помочь путешественнику – вот задача анализа данных. Это отличает науку данных как инженерную дисциплину от научного метода, согласно которому исследователь формирует модель окружающего мира, используя данные по мере необходимости. Рассмотренные положения отделяют анализ данных от смежных дисциплин, таких как классификация, вычислительный интеллект, майнинг данных, факторный анализ, генетические алгоритмы, обнаружение знаний, математическая статистика, машинное обучение, принятие решений, распознавание образов, анализ неструктурированных текстов. Можно выделить, по крайней мере, три уровня изучения любого метода анализа данных – уровень понятий (общее представление), уровень системы (работа с существующими системами) и модельно-методический уровень (точное понимание посылок и свойств модели и метода). Ясно, что уровень концепций не может быть приемлемым в образовании прикладного математика. Неприемлемым является у уровень программных уже существующих систем: во-первых, потому что они быстро меняются, как и компьютерные системы вообще (хардвер), а во-вторых, нельзя признать современные методы, реализованные в существующих системах как наиболее эффективные, а часто даже и просто адекватные, для тех или иных задач. Остается уровень методов, преимуществом которого является то, что он позволяет понять если не «как, то «что» и «почему» в изучаемых подходах. Тем самым закладываются основы как для возможности разработки новых более эффективных методов, так и для перенесения методов на новые виды данных, возникающие практически в каждом новом крупном приложении. Выбор материала в данном курсе в определенном смысле сдвинут в пользу проблематики суммаризации за счет проблематики коррелирования. Это объясняется двумя причинами. Первое, проблематика коррелирования хорошо покрывается существующими учебниками машинного обучения и прикладной статистики. Напротив, центральные в анализе данных, метод главных компонент и кластер-анализ совершенно недостаточно отражены в существующих учебниках. Например, до последнего времени метод главных компонент трактовался в англоязычной литературе как чисто эвристический метод, тогда как в данном курсе он представлен на основе теоретической модели в контексте сингулярного разложения матриц.

Цель освоения дисциплины

Ознакомление с унифицированной платформой для формулирования и анализа основных методов анализа данных.
Освоение основных методам анализа данных, включая самые современные разработки, такие, как интеллектуальный кластер-анализ, сингулярное разложение матриц и метод главных компонент, бутстрэп и методы оптимизации, инспирированные природой.
Подготовка к освоению более продвинутых понятий и методов анализа данных.
Получение опыта анализа реальных данных с использованием современной вычислительной техники.
Получение опыта использования современных программных средств, таких, как Матлаб, для проведения вычислений по анализу данных.

Планируемые результаты обучения

Студенты знают: <ul> <li> Понятие таблицы «объект-признак»; </li> <li>Основные типы задач анализа данных;</li> <li>Основные типы шкал измерения; </li> <li>Сходство и различие анализа данных и машинного обучения. </li> </ul>
Студенты обладают умением: <ul> <li>Подготовить таблицу данных и сформулировать типические проблемы ее анализа; </li> <li>Преобразовать данные в количественный формат путем перевода категорий в 1/0 формат.</li></ul>
Студенты обладают навыками: <ul> <li> Отыскание в интернете данных, связанных с той или иной содержательной проблемой; </li> <li>Предварительный анализ таблицы данных для выявления адекватных задач суммаризации и коррелирования на ее основе; </li> <li>Преобразование данных к количественному формату. </li></ul>
Студенты знают: <ul> <li> Метод к-средних кластер-анализа; </li> <li>Критерий метода к-средних; </li> <li>Достоинства и недостатки метода к-средних.</li></ul>
Студенты обладают умением: <ul> <li> Применить метод к-средних.</li></ul>
Студенты обладают навыками использования Матлаба или иной вычислительной среды для: <ul> <li> Вычисления характеристик центра и разброса признаков.</li> </ul>
Студенты знают: <ul><li> Методы интерпретации кластеров в количественных и качественных признаках; </li><li> Метод аномального кластера; </li><li> Использование метода аномальных кластеров для выбора числа кластеров и их начальных центров;</li> <li>Понятие гистограммы;</li><li>Понятия центральности: среднее, медиана, середина, мода;</li><li>Характеристики разброса: дисперсия, стандартное отклонение, среднее абсолютное отклонение.</li> </ul>
Студенты знают: <ul> <li>Аппроксимационный смысл характеристик центральности и разброса;</li><li>Понятие функции плотности как вероятностной модели признака; связь с понятием гистограммы;</li><li>Вероятностный смысл характеристик центральности и разброса;</li><li>Бутстрэп как способ сформировать выборочное распределение для той или иной характеристики выборки.</li></ul>
Студенты знают: <ul> <li>Коэффициенты связи номинальных признаков: локальный и суммарный коэффициенты Кетле, коэффициент сопряженности хи-квадрат; интерпретации коэффициента хи-квадрат как критерия статистической независимости и показателя улучшения качества прогноза.</li> </ul>
Студенты обладают умениями: <ul> <li> Инициализировать метод к-средних с помощью метода аномальных кластеров; </li> <li> Интерпретировать кластеры, полученные по методу к-средних в количественных и категоризованных признаках;</li> <li>Вычислить и визуализировать характеристики связи двух номинальных признаков: таблицу сопряженности, условные вероятности и частоты, коэффициент Кетле, коэффициент хи-квадрат и его визуализация с использованием коэффициентов Кетле. </li></ul>
Студенты знают: <ul> <li> Понятия, связанные с анализом связи двух количественных переменных: поле рассеяния (scatter plot), коэффициент корреляции, коэффициент детерминации и их свойства; </li> <li>Аппроксимационную и вероятностную интерпретации коэффициента корреляции.</li> </ul>
Студенты знают: <ul> <li> Понятия, связанные с анализом связи двух номинальных признаков (разбиений): таблица сопряженности, условные вероятности, статистическая независимость. </li> </ul>
Студенты обладают умением: <ul> <li>Вычислить и визуализировать характеристики связи двух количественных признаков: поле рассеяния, линейную регрессию, коэффициенты корреляции и детерминации. </li> </ul>
Студенты обладают навыками использование Матлаба или иной вычислительной среды для: <ul> <li> Вычисления и визуализации характеристик линейной и нелинейной регрессии. </li> </ul>
Студенты знают метод многомерной линейной регрессии.
Студенты знают: <ul> <li> Понятия, связанные с Бэйесовским подходом к анализу данных: теорема Бэйеса, априорные и апостериорные вероятности, наивный подход; </li> <li> Наивный классификатор Бэйеса для случая бинарных признаков. </li> </ul>
Студенты умеют: <ul> <li> Применить метод наивного классификатора Бэйеса в задаче классификации по бинарным признакам. </li> </ul>
Студенты обладают навыками использование Матлаба или иной вычислительной среды для: <ul> <li> Вычисления параметров наивного Бэйесова классификатора и его применение для бинарных данных. </li> </ul>
Студенты обладают умениями: <ul> <li> Вычислить характеристики среднего и разброса;</li><li>Использовать бутстрэп для валидации и сравнения средних. </li></ul>
Студенты знают: <ul> <li> Понятие сингулярного значения и сингулярных векторов, связь с собственными значениями и векторами соответствующих квадратных матриц; </li> <li> Метод главных компонент МГК (Principal Component Analysis PCA) в модельной и эвристической формулировках, и его применение для визуализации данных. </li> </ul>
Студенты умеют: <ul> <li> Визуализировать данные с помощью МГК. </li> </ul>
Студенты обладают навыками использование Матлаба или иной вычислительной среды для: <ul> <li> Визуализации данных с помощью метода главных компонент (МГК). </li> </ul>
Студенты обладают навыками использования Матлаба или иной вычислительной среды для: <ul> <li> Вычисления характеристик центра и разброса признаков;</li> <li>Вычисления доверительных интервалов с помощью бутстрэпа; </li> <li> Применения метода к-средних для кластер-анализа многомерных данных;</li><li>Вычисления и визуализации характеристик связи номинальных признаков (таблицы сопряженности, условных частот, коэффициентов Кетле, коэффициента сопряженности хи-квадрат).</li> </ul>
Освоение студентами метода кластер-анализа.
Студенты обладают навыками:<ul><li>Написание и оформление научного отчета;</li><li> Использования Матлаба или иной вычислительной среды для: <ul> <li> Применения метода к-средних для кластер-анализа многомерных данных.</li> </ul> </li></ul>

Содержание учебной дисциплины

Введение: корневой анализ данных в системе дисциплин Науки данных
Кластерный анализ: метод к-средних и его модификации
Правила интерпретации кластеров в смешанных шкалах. Сравнение средних и бутстрэп. Таблицы сопряженности и коэффициенты Кетле. Вклад в разброс данных и традиционные характеристики связи: корреляционное отношение и коэффициент ассоциации хи-квадрат. Операциональная интерпретация последнего в терминах коэффициентов Кетле.
Задачи коррелирования. Двумерный регрессионный анализ. Коэффициент корреляции и его свойства. Коэффициент детерминации как характеристика качества. Ложная корреляция. Вероятностный смысл коэффициента корреляции. Другие критерии и нелинейные функции регрессии: понятие о методах, имитирующих природу для оптимизации сложных функций ошибки.
Многомерная линейная регрессия. Ортогональный проектор и весовые коэффициенты. Коэффициент детерминации. Линейный дискриминантный анализ. Понятие о методе опорных векторов.
Подход Бэйеса к анализу данных. Теорема Бэйеса и классификатор Бэйеса. Наивный классификатор Бэйеса для категорий текстов. Модель мешка слов для оценки вероятностей.
Метод главных компонент. Аппроксимационная модель. Сингулярное разложение и спектральное разложение матриц. Визуализация данных. Традиционная формулировка метода и ее связь с модельной формулировкой.
Основные методы кластер-анализа матриц сходства и сетях связи; дивизимные и агломеративные подходы.

Элементы контроля

Домашний проект
Экзаменационная контрольная работ
Экзаменационная контрольная работа составляется в 6-7 вариантах, чтобы затруднить возможность списывания. Каждому вопросу приписана максимально возможная оценка по нему; сумма этих оценок равна 100%.

Промежуточная аттестация

Промежуточная аттестация (2 модуль)
0.4 * Домашний проект + 0.6 * Экзаменационная контрольная работ

Программа дисциплины

Программа дисциплины

Программа дисциплины

Аннотация

Цель освоения дисциплины

Планируемые результаты обучения

Содержание учебной дисциплины

Элементы контроля

Промежуточная аттестация

Список литературы

Рекомендуемая основная литература

Рекомендуемая дополнительная литература