• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Применение местодов аномальной кластеризации для выбора числа кластеров

ФИО студента: Рыков Андрей Георгиевич

Руководитель: Миркин Борис Григорьевич

Кампус/факультет: Высшая школа бизнеса

Программа: Бизнес-информатика (Бакалавриат)

Год защиты: 2021

K-Means - самый распространенный алгоритм кластеризации, важного направления анализа данных. Однако, этот алгоритм имеет определенные ограничения: для его применения требуется знать число извлекаемых кластеров, а также исходные центры кластеров. Данное исследование посвящено изучению возможности использования алгоритмов аномальной кластеризации Anomalous Patterns и Big Anomalous Clusters One-by-one для определения оптимальных входных параметров для алгоритма K-Means. Задачи работы: изучить существующие методы выбора оптимальных параметров для алгоритма K-Means; описать способы адаптации методов аномальной кластеризации для определения оптимальных параметров; реализовать данные методы на языке Python; а затем провести вычислительный эксперимент по сравнению предложенных и существующих методов на различных данных. В качестве данных использовались синтетические данные с Гауссовыми кластерами, а также семь наборов данных из репозитория UC Irvine Machine Learning Repository. В рамках эксперимента были произведены расчеты оптимального числа кластеров при помощи аналитической версии Elbow (Curvature), предложенной в данной работе модификации этого метода Elbow Level 2, методов на основе статистик Hartigan Rule, Calinski-Harabasz и Silhouette Width в сочетании метода случайной инициализации центров MaxMin. Результаты работы «классических» методов и методов аномальной кластеризации были оценены при помощи метрик Adjusted Rand Index, Normalized Mutual Information, а также при помощи предложенной нами метрики Средняя Абсолютная относительная ошибка при вычисленном количестве кластеров (MARE). Анализ результатов показал, что наиболее точными являются методы Elbow Level 2 и Silhouette Width. Anomalous Patterns оказался более эффективным из двух методов аномальной кластеризации. Этот метод уступает в точности Elbow Level 2 и Silhouette Width на данных с маленьким количеством признаков, однако разница в качестве минимальна на данных высокой размерности. При этом Anomalous Patterns превосходит все рассмотренные методы по скорости вычисления. Имеет смысл рассмотреть различные способы инициализации центров и фильтрации извлеченных кластеров для повышения точности Anomalous Patterns.

Выпускные квалификационные работы (ВКР) в НИУ ВШЭ выполняют все студенты в соответствии с университетским Положением и Правилами, определенными каждой образовательной программой.

Аннотации всех ВКР в обязательном порядке публикуются в свободном доступе на корпоративном портале НИУ ВШЭ.

Полный текст ВКР размещается в свободном доступе на портале НИУ ВШЭ только при наличии согласия студента – автора (правообладателя) работы либо, в случае выполнения работы коллективом студентов, при наличии согласия всех соавторов (правообладателей) работы. ВКР после размещения на портале НИУ ВШЭ приобретает статус электронной публикации.

ВКР являются объектами авторских прав, на их использование распространяются ограничения, предусмотренные законодательством Российской Федерации об интеллектуальной собственности.

В случае использования ВКР, в том числе путем цитирования, указание имени автора и источника заимствования обязательно.

Реестр дипломов НИУ ВШЭ