• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Метод максимального правдоподобия для подъема нечеткого множества тем в таксономии предметной области

ФИО студента: Айрапетян Жирайр Сережаевич

Руководитель: Миркин Борис Григорьевич

Кампус/факультет: Факультет компьютерных наук

Программа: Науки о данных (Магистратура)

Год защиты: 2021

В данной работе модернизируется метод экономного обобщения нечетких множеств на листьях таксономии, предложенный в научной группе Б.Г. Миркина. Работа посвящается анализу запросов, представленных в виде нечеткого множества темовых элементов, присвоенных листьям корневого дерева таксономии. Слова запрос, нечеткое множество и кластер на листьях дерева таксономии являются синонимами в контексте данной работы. Для обобщения нечеткого множества на листьях таксономии осуществляется его подъем по дереву с целью найти головные темы, объясняющие данное множество. Алгоритмы применены к структурному анализу и описанию текстовой коллекции из 17 тыс. абстрактов научных исследований, опубликованных в 17-ти журналах Шпрингера, посвященных предметной области Наук о данных. Таксономия Наук о данных, используемая в данной работе, является шестиуровневой иерархической таксономией, разработанной вручную Ассоциацией Вычислительной Техники и Вычислительных Систем Классификации (ACM-CSS). Таксономия была дополнена участниками научной группы Б.Г. Миркина для учета текущих тенденций в предметной области. Для вычисления матрицы релевантности между текстовой коллекцией и ключевыми словами листьев таксономии используются Аннотированные Суффиксные Деревья (AST). В работе научной группы Б.Г. Миркина нечеткие множества таксономии извлекаются из матрицы релевантности с помощью специально разработанного спектрального метода кластеризации FADDIS, описанного в данной работе. Метод FADDIS заменен комбинацией двух алгоритмов: сначала вектора листьев проецируются на первые, соответствующие наименьшим собственным значениям, несколько собственных векторов нормализованной матрицы Лапласа (Laplacian EigenMaps), затем, полученные вложения кластеризуются с помощью метода нечетких C-средних (Fuzzy C-means). Такая замена позволила извлечь и обобщить в два раза больше интерпретируемых кластеров. Также изменен метод обобщения множеств. Эвристический метод экономного подъема (Parsimonious Generalization) заменяется вероятностным методом подъема, использующим метод максимального правдоподобия (Maximum Likelihood Generalization), что позволяет избавиться от гиперпараметров модели и их настройки. Было извлечено шесть тематических кластеров, получивших свои обобщения, а именно: методы извлечения информации, методы кластеризации, машинное обучение, методы моделирования, Марковские сети и модели сетевых представлений и обучение с подкреплением. В предыдущей работе группы Б.Г. Миркина удалось извлечь и обобщить только первые три кластера из данного списка. Результаты вычислений позволили увидеть слияния различных отраслей Наук о данных и сделать выводы о дальнейших тенденциях развития. Сформировано необходимое математическое обеспечение для реализации вышеуказанных алгоритмов, включая программу графического вывода результатов обобщения.

Выпускные квалификационные работы (ВКР) в НИУ ВШЭ выполняют все студенты в соответствии с университетским Положением и Правилами, определенными каждой образовательной программой.

Аннотации всех ВКР в обязательном порядке публикуются в свободном доступе на корпоративном портале НИУ ВШЭ.

Полный текст ВКР размещается в свободном доступе на портале НИУ ВШЭ только при наличии согласия студента – автора (правообладателя) работы либо, в случае выполнения работы коллективом студентов, при наличии согласия всех соавторов (правообладателей) работы. ВКР после размещения на портале НИУ ВШЭ приобретает статус электронной публикации.

ВКР являются объектами авторских прав, на их использование распространяются ограничения, предусмотренные законодательством Российской Федерации об интеллектуальной собственности.

В случае использования ВКР, в том числе путем цитирования, указание имени автора и источника заимствования обязательно.

Реестр дипломов НИУ ВШЭ