• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Определение категорий товаров на основе данных интернет-магазинов используя многотемную классификацию

ФИО студента: Григоров Степан Станиславович

Руководитель: Бурова Маргарита Борисовна

Кампус/факультет: Факультет компьютерных наук

Программа: Магистр по наукам о данных (Магистратура)

Оценка: 8

Год защиты: 2024

Данная работа представляет набор потенциальных методов, которые могут быть применены в отрасли. для категоризации или применения тегов для продуктов. Процесс включает в себя сбор данных, применение исследовательского анализа данных, предварительную обработку данных, выбор метрик для проверки и выбора эффективной стратегии обучения и оценки. Сбор наборов данных включает в себя поиск подходящих текстовых данных с иерархическими категориями в качестве целевой переменной. Нам удалось найти 4 набора данных различных как по размеру, так и по качеству, что делает экспериментальный процесс многогранным. Исследовательский анализ данных с последующей обработкой проводится с использованием как встроенных функции Python, так и внешних библиотек, таких как pandas, numpy, nltk, wordcloud и других известных библиотек, используемых в индустрии. Кроме того, выбираются методы векторизации для дальнейшего применения к обработанным данным с использованием различных моделей. С точки зрения метрик мы выбрали семь метрик для оценки: точность подмножества; (классическая точность), адаптированная точность, точность (микро и макро), полнота (микро и макро) и потеря Хэмминга. Мы применили 15 различных подходов, из которых 6 различных моделей, 2 из которых являются предварительно обученными моделями на основе семейства нейронных сетей BERT: BERT и DeBERTa, а также использовали другие модели машинного обучения, такие как RakelO, ML-KNN, CatBoostClassifier и ClassifierChain. Для каждой модели машинного обучения мы применили методы векторизации. На основе полученных результатов мы видим, что выбор ML-KNN с TF-IDF показывает стабильно высокие результаты для любого набора данных, в то время как RakelO с TF-IDF или с Word2Vec хорошо работает с многомерными данными. Более того, небольшой размер набора данных может привести к переобучению моделей на основе нейронных сетей, таких как BERT или DeBERTa.

Текст работы (работа добавлена 4 июня 2024 г.)

Выпускные квалификационные работы (ВКР) в НИУ ВШЭ выполняют все студенты в соответствии с университетским Положением и Правилами, определенными каждой образовательной программой.

Аннотации всех ВКР в обязательном порядке публикуются в свободном доступе на корпоративном портале НИУ ВШЭ.

Полный текст ВКР размещается в свободном доступе на портале НИУ ВШЭ только при наличии согласия студента – автора (правообладателя) работы либо, в случае выполнения работы коллективом студентов, при наличии согласия всех соавторов (правообладателей) работы. ВКР после размещения на портале НИУ ВШЭ приобретает статус электронной публикации.

ВКР являются объектами авторских прав, на их использование распространяются ограничения, предусмотренные законодательством Российской Федерации об интеллектуальной собственности.

В случае использования ВКР, в том числе путем цитирования, указание имени автора и источника заимствования обязательно.

Реестр дипломов НИУ ВШЭ