Машинное обучение для определения тональности и классификации текстов на несколько классов

ФИО студента: Чусовлянов Дмитрий Сергеевич

Кампус/факультет: Отделение прикладной математики и информатики

Программа: Бакалавриат

Оценка: 9

Год защиты: 2014

<h1>Аннотация</h1>В данной работе исследуются два подхода к задаче определения тональности текста: подход, основанный на методах машинного обучения и подход, основанный на использовании словарей тональной лексики. Описан и реализован метод для автоматического извлечения из текста слов, несущих эмоциональную оценку. Описан и реализован метод последующей классификации текстов на основе полученного словаря тональностей.Для некоторых стандартных методов машинного обучения (таких метод наивной байесовской классификации, метод опорных векторов, Random Forest) предложено использовать слова из полученного словаря тональности в качестве признаков классификации.Методы протестированы на реальных данных – отзывах пользователей Интернет-ресурса imhonet.ru по трем предметным областям: книги, фильмы, камеры. Данные были представлены на Российском семинаре по оценке методов информационного поиска (РОМИП).Экспериментально выявлен оптимальный размер автоматически конструируемого словаря тональности, основываясь на сентимент-величине, согласно которой ранжируются слова в словаре. В ходе экспериментов выявлено оптимальное значение сентимент величины, по которой производится отсечение части словаря тональности. Это позволяет исключить из рассмотрения часть словаря с низкой концентрацией оценочных слов.В работе представлены эксперименты, направленные на то, чтобы сравнить качество построения словарей тональности для различных предметных областей и различных наборов входных данных.Для методов машинного обучения помимо показателей качества (такие как Accuracy, Macro_Precision, Macro_Recall) для каждого метода в отдельности подсчитаны также средние величины, что позволяет провести сравнение методов машинного обучения с методами, использующими словари тональности.Также проведены эксперименты, на основе которых возможно сравнить методы машинного обучения, работающие со словами из полученного словаря как с критериями сортировки, с методом подсчета агрегированной сентимент-величины текста на основе слов, входящих в данный текст и принадлежащих словарю тональности. Сравнения проводились как для средних показателей качества, полученных при тестировании методов машинного обучения, так и для отдельного сравнения методов друг с другом. Ключевые слова: Анализ данных, машинное обучение, анализ тональности, словарь тональности, SVM, Random Forest, Naive Bayes.

Текст работы (работа добавлена 6 июня 2014 г.) (1.60 Kb)

Выпускные квалификационные работы (ВКР) в НИУ ВШЭ выполняют все студенты в соответствии с университетским Положением и Правилами, определенными каждой образовательной программой.

Аннотации всех ВКР в обязательном порядке публикуются в свободном доступе на корпоративном портале НИУ ВШЭ.

Полный текст ВКР размещается в свободном доступе на портале НИУ ВШЭ только при наличии согласия студента – автора (правообладателя) работы либо, в случае выполнения работы коллективом студентов, при наличии согласия всех соавторов (правообладателей) работы. ВКР после размещения на портале НИУ ВШЭ приобретает статус электронной публикации.

ВКР являются объектами авторских прав, на их использование распространяются ограничения, предусмотренные законодательством Российской Федерации об интеллектуальной собственности.

В случае использования ВКР, в том числе путем цитирования, указание имени автора и источника заимствования обязательно.

Реестр дипломов НИУ ВШЭ