Выявление корпоративного мошенничества с использованием текстового анализа данных и методов машинного обучения: пример российских компаний

ФИО студента: Неволина Арина Станиславовна

Руководитель: Соболева Оксана Александровна

Кампус/факультет: Факультет экономических наук

Программа: Экономика (Бакалавриат)

Оценка: 10

Год защиты: 2023

Данная работа посвящена выявлению корпоративного мошенничества с использованием текстового анализа данных и методов машинного обучения на примере российских компаний. В рамках исследования для 260 нефинансовых компаний, входящих в рейтинг крупнейших компаний России по версии ЭкспертРа (2021), были собраны вручную тексты годовых отчетов на английском языке, финансовые показатели из базы данных Cbonds, а также информация о корпоративном мошенничестве из СМИ с 2014 по 2021 годы. Всего итоговая выборка после удаления пропусков включает в себя 386 наблюдений для 55 компаний за 8 лет. В исследовании для анализа обращений руководства компании к акционерам были использованы как переменные тональности текста и его сложности для прочтения и понимания, широко используемые в подобных работах, так и переменные векторизованного текста, которые используются достаточно редко. Кроме того, подобные исследования не проводились на выборке российских компаний, что в совокупности составляет научную значимость данного исследования. В использованные переменные тональности текста входят доля позитивных, негативных, ограничивающих и неопределенных слов, рассчитанные с помощью словаря Loughran & McDonald. В качестве переменных сложности текста для прочтения и понимания использовались длина текстов и Fog-index. Векторизованные слова были получены с помощью метода TF-IDF. В результате было выявлено, что по сравнению с мошенническими компаниями, для компаний, в которых не было мошенничества, тексты обращений руководства к акционерам содержат больше позитивных, меньше негативных слов и в целом являются более длинными. Кроме того, было доказано, что выявление нелинейных связей с помощью методов машинного обучения позволяет повысить предсказательную способность моделей: среди использованных моделей (Logit, KNN, SVM, Decision Tree и Random Forest) была выявлена оптимальная – Random forest, доля верно предсказанных случаев мошенничества для которой составила 75%, что в 2,5 больше, чем для традиционной модели логистической регрессии. С помощью оптимальной модели были получены облака слов, указывающих на наличие или отсутствие в компании мошенничества. Полученные в этом исследовании модель и облака слов могут быть использованы как специалистами форензика и аудита, государственными органами, так и стейкхолдерами компании для принятия инвестиционных и иных решений.

Текст работы (работа добавлена 10 мая 2023 г.)

Выпускные квалификационные работы (ВКР) в НИУ ВШЭ выполняют все студенты в соответствии с университетским Положением и Правилами, определенными каждой образовательной программой.

Аннотации всех ВКР в обязательном порядке публикуются в свободном доступе на корпоративном портале НИУ ВШЭ.

Полный текст ВКР размещается в свободном доступе на портале НИУ ВШЭ только при наличии согласия студента – автора (правообладателя) работы либо, в случае выполнения работы коллективом студентов, при наличии согласия всех соавторов (правообладателей) работы. ВКР после размещения на портале НИУ ВШЭ приобретает статус электронной публикации.

ВКР являются объектами авторских прав, на их использование распространяются ограничения, предусмотренные законодательством Российской Федерации об интеллектуальной собственности.

В случае использования ВКР, в том числе путем цитирования, указание имени автора и источника заимствования обязательно.

Реестр дипломов НИУ ВШЭ