Бакалавриат
2024/2025
Основные методы анализа данных
Статус:
Курс обязательный (Прикладная математика и информатика)
Направление:
01.03.02. Прикладная математика и информатика
Где читается:
Факультет компьютерных наук
Когда читается:
3-й курс, 1, 2 модуль
Формат изучения:
без онлайн-курса
Охват аудитории:
для своего кампуса
Преподаватели:
Миркин Борис Григорьевич
Язык:
русский
Кредиты:
5
Программа дисциплины
Аннотация
Данные и основные методы их анализа – специфическое содержание курса. В классической статистике, данные – не более, чем средство для идентификации и проверки математической модели того явления, к которому они относятся. Майнинг данных и обнаружение знаний используют данные для обогащения любых знаний о явлении. Термин «знание» может относиться к самым разнообразным формам информации от индивидуальных фактов до литературных героев и научных законов. Мы рассматриваем анализ данных как дисциплину промежуточного уровня, ориентированную на обогащение теоретического знания. Основные структурные элементы знания – (а) понятия и (б) утверждения об их связи. Соответственно, имеется два наиболее прямых способа обогащения знаний – формирование новых понятий и новых связей между ними. Соответственно, в данном курсе рассматриваются две основные задачи анализа данных – суммаризация и коррелирование. Суммаризация связана не только с расчетом средних, но и агрегацией признаков или/и объектов в факторы или/и кластеры, соответственно. Что касается термина коррелирование, то речь идет о тенденции совместного появления каких-то общих паттернов, что может вести к выработке теоретических представлений, объясняющих наблюдаемые корреляции. Полезно различать количественное и категориальное коррелирование, в зависимости от того, идет ли речь о функционально-аналитической зависимости или концептуальном описании. Корреляции могут использоваться как для понимания, так и предсказания. Последнее пока что рассматривается несравненно важнее для приложений, тем более что формулировка проблем предсказания значительно более понятна. Взгляд на данные как объект вычислительного анализа данных возник совсем недавно. Обычно в науке ставится проблема, а потом уже под нее собираются данные для проверки. Так бывает и в науке данных иногда. Но главный тип ситуаций – когда первыми являются данные. В этом случае проблема ставится так а можно ли извлечь какой-то смысл из этих данных? А есть ли в них хоть какая-то структура в них? А можно ли использовать эти признаки для предсказания этих? Такой взгляд более характерен для путешественника, чем для ученого. Ученый сидит за письменным столом, наблюдает воспроизводимые сигналы вселенной и использует их в качестве материала для грандиозного творения науки. Путешественник вынужден существовать в ситуации, в которой он оказался. Помочь путешественнику – вот задача анализа данных. Это отличает науку данных как инженерную дисциплину от научного метода, согласно которому исследователь формирует модель окружающего мира, используя данные по мере необходимости. Рассмотренные положения отделяют анализ данных от смежных дисциплин, таких как классификация, вычислительный интеллект, майнинг данных, факторный анализ, генетические алгоритмы, обнаружение знаний, математическая статистика, машинное обучение, принятие решений, распознавание образов, анализ неструктурированных текстов. Можно выделить, по крайней мере, три уровня изучения любого метода анализа данных – уровень понятий (общее представление), уровень системы (работа с существующими системами) и модельно-методический уровень (точное понимание посылок и свойств модели и метода). Ясно, что уровень концепций не может быть приемлемым в образовании прикладного математика. Неприемлемым является у уровень программных уже существующих систем: во-первых, потому что они быстро меняются, как и компьютерные системы вообще (хардвер), а во-вторых, нельзя признать современные методы, реализованные в существующих системах как наиболее эффективные, а часто даже и просто адекватные, для тех или иных задач. Остается уровень методов, преимуществом которого является то, что он позволяет понять если не «как, то «что» и «почему» в изучаемых подходах. Тем самым закладываются основы как для возможности разработки новых более эффективных методов, так и для перенесения методов на новые виды данных, возникающие практически в каждом новом крупном приложении. Выбор материала в данном курсе в определенном смысле сдвинут в пользу проблематики суммаризации за счет проблематики коррелирования. Это объясняется двумя причинами. Первое, проблематика коррелирования хорошо покрывается существующими учебниками машинного обучения и прикладной статистики. Напротив, центральные в анализе данных, метод главных компонент и кластер-анализ совершенно недостаточно отражены в существующих учебниках. Например, до последнего времени метод главных компонент трактовался в англоязычной литературе как чисто эвристический метод, тогда как в данном курсе он представлен на основе теоретической модели в контексте сингулярного разложения матриц.