• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Применение статистического подхода в задаче автоматической идентификации авторства текста

ФИО студента: Фёдоров Дмитрий Владиславович

Руководитель: Савченко Андрей Владимирович

Кампус/факультет: Факультет информатики, математики и компьютерных наук (Нижний Новгород)

Программа: Бакалавриат

Год защиты: 2014

<p>Тема работы &ndash; &laquo;Применение статистического подхода в задаче автоматической идентификации авторства текста&raquo;.</p><p>В работе проводится анализ нескольких статистических признаков текста, таких как средняя длина предложения в словах и символах, процент использования знаков препинания, процент использования частей речи и частота употребления биграмм, а также классификаторов: наивный байесовский, метод опорных векторов, дерево принятия решений и метод K ближайших соседей - в задаче автоматической идентификации авторства фрагмента русскоязычного текста.</p><p>Первая глава посвящена понятию авторского инварианта и обзору классификаторов, использующихся в работе.</p><p>Во второй главе описана программа, разработанная на языке C++ с использованием библиотек OpenCV и Qt. Приведены структурная схема системы, описание графического интерфейса и диаграммы классов.</p><p>Третья глава посвящена экспериментальным исследованиям, выполненным с помощью разработанной программы. Экспериментальное исследование происходило в пять этапов: оценка статистических признаков текста, выбор параметров для классификаторов, оценка базовых классификаторов, исследование зависимости точности идентификации от размера обучающей выборки и числа предопределённых классов, сравнение результатов с существующим аналогом.</p><p>Исследование статистических признаков текста показало, что такие параметры, как процент использования частей речи и частота употребления биграмм, хорошо отражают индивидуальный авторский стиль и позволяют добиться высокой точности идентификации. Вычисление процента использования знаков препинания и средней длины предложения помогают повысить точность определения авторства.</p><p>Среди рассмотренных базовых классификаторов в плане точности предсказания лучше других себя показали метод опорных векторов с параметром регуляризации C, равным 1000, и полиномиальным ядром&nbsp; и наивный байесовский классификатор со средней точностью идентификации в 96.4% и 93.8% соответственно. Чуть хуже себя показал метод K ближайших соседей со средней точностью в 91%. Непригодным для задачи определения автора текста оказался метод дерева принятия решений. Этот классификатор сильно зависит от объёма выборки и даже при обучении на большом количестве текстов показывает не лучшие результаты. Средняя точность идентификации составила всего 55.4%.</p><p>Было проведено сравнение точности идентификации с существующим аналогом. Результаты определения авторства у разработанной программы оказались выше, но при этом стоит отметить, что из-за отсутствия возможности подать свою тренировочную выборку программе-аналогу, количество предопределённых классов заметно отличалось. Тем не менее, разработанная программа показала высокий процент точности идентификации, неверно определив авторов лишь двух текстов.</p>

Выпускные квалификационные работы (ВКР) в НИУ ВШЭ выполняют все студенты в соответствии с университетским Положением и Правилами, определенными каждой образовательной программой.

Аннотации всех ВКР в обязательном порядке публикуются в свободном доступе на корпоративном портале НИУ ВШЭ.

Полный текст ВКР размещается в свободном доступе на портале НИУ ВШЭ только при наличии согласия студента – автора (правообладателя) работы либо, в случае выполнения работы коллективом студентов, при наличии согласия всех соавторов (правообладателей) работы. ВКР после размещения на портале НИУ ВШЭ приобретает статус электронной публикации.

ВКР являются объектами авторских прав, на их использование распространяются ограничения, предусмотренные законодательством Российской Федерации об интеллектуальной собственности.

В случае использования ВКР, в том числе путем цитирования, указание имени автора и источника заимствования обязательно.

Реестр дипломов НИУ ВШЭ