Мы используем файлы cookies для улучшения работы сайта НИУ ВШЭ и большего удобства его использования. Более подробную информацию об использовании файлов cookies можно найти здесь, наши правила обработки персональных данных – здесь. Продолжая пользоваться сайтом, вы подтверждаете, что были проинформированы об использовании файлов cookies сайтом НИУ ВШЭ и согласны с нашими правилами обработки персональных данных. Вы можете отключить файлы cookies в настройках Вашего браузера.

  • A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Глубокое обучение в аспектом анализе тональности текстов

ФИО студента: Соколов Герман Олегович

Руководитель: Большакова Елена Игоревна

Кампус/факультет: Факультет компьютерных наук

Программа: Науки о данных (Магистратура)

Оценка: 9

Год защиты: 2017

В данной работе рассматриваются набирающие в последнее время популярность алгоритмы глубокого обучения применительно к задаче аспектного анализа отзывов с использованием данных конкурса SentiRuEval, среди которых сверточные (CNN) и рекуррентные нейронные сети (RNN). По результатам экспериментов извлечения аспектных терминов было установлено, что некоторые архитектуры нейронных сетей способны существенно превзойти по качеству широко применяющийся на практике метод CRF. Нейронные сети при этом обладают значительным преимуществом в обучении, т.к. не требуют генерации многочисленных признаков вручную и способны адаптироваться для использования в других предметных областях и естественных языках. Однако, в задаче определения тональности аспектного термина или аспектной группы методы глубокого обучения значительно уступили другим более традиционным классификаторам – SVM и Gradient Boosting Classifier. Сверточные нейронные сети при том показали значительно худший результат, чем RNN. Наиболее оптимальной архитектурой с точки зрении F1–меры почти во всех случаях оказалась LSTM рекурентная нейронная сеть, в редких ситуациях – GRU. При этом для задачи поиска аспектов более эффективной стала конфигурация с одним слоем скрытого состояния и прямыми связями. Для задачи определения тональности было предпочтительней использовать рекуррентные нейронные сети с дополнительным слоем с обратными связями. Эксперименты подтвердили гипотезу о том, что применение специализированной коллекции текстов по заданной тематике в значительной степени положительно влияет на качество работы алгоритма. Кроме этого, использование признаков о принадлежности к частям речи обладает существенным положительным эффектом в решении всех задач конкурса. Дополнительный учет символов эмоций также может быть полезен для решения определения эмоциональной окраски в отзывах.

Текст работы (работа добавлена 30 мая 2017 г.)

Выпускные квалификационные работы (ВКР) в НИУ ВШЭ выполняют все студенты в соответствии с университетским Положением и Правилами, определенными каждой образовательной программой.

Аннотации всех ВКР в обязательном порядке публикуются в свободном доступе на корпоративном портале НИУ ВШЭ.

Полный текст ВКР размещается в свободном доступе на портале НИУ ВШЭ только при наличии согласия студента – автора (правообладателя) работы либо, в случае выполнения работы коллективом студентов, при наличии согласия всех соавторов (правообладателей) работы. ВКР после размещения на портале НИУ ВШЭ приобретает статус электронной публикации.

ВКР являются объектами авторских прав, на их использование распространяются ограничения, предусмотренные законодательством Российской Федерации об интеллектуальной собственности.

В случае использования ВКР, в том числе путем цитирования, указание имени автора и источника заимствования обязательно.

Реестр дипломов НИУ ВШЭ