• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Методы и средства морфологической сегментации для систем автоматической обработки текстовMethods and tools of morphological segmentation for natural language processing systems

Соискатель:
Сапин Александр Сергеевич
Члены комитета:
Громов Василий Александрович (НИУ ВШЭ, д.ф.-м.н., председатель комитета), Ильвовский Дмитрий Алексеевич (НИУ ВШЭ, к.т.н., член комитета), Лукашевич Наталья Валентиновна (НИВЦ МГУ, д.т.н., член комитета), Сидоров Григорий Олегович (Национальный политехнический институт, Мексика, к.филол.н., член комитета), Соловьев Валерий Дмитриевич (Казанский (Приволжский) федеральный университет, д.ф.-м.н., член комитета)
Диссертация принята к предварительному рассмотрению:
1/20/2023
Диссертация принята к защите:
3/6/2023
Дисс. совет:
Совет по компьютерным наукам
Дата защиты:
4/5/2023
Традиционные и хорошо исследованные задачи автоматического морфологического анализа включают приведение словоформы к нормальной форме (лемме), определение ее морфологических характеристик, а также разрешение морфологической омонимии. К морфологическому анализу относится также менее исследованная задача морфологической сегментации, подразумевающее разбиение слова на составляющие морфы с их классификацией. В данной диссертационной работе исследуются и разрабатываются модели на основе машинного обучения для морфемного разбора словоформ русского языка, с целью повышения точности сегментации и производительности соответствующих программных моделей. Впервые предложена модель на основе сверточной нейронной сети, с высокой точностью выполняющая морфологическую сегментацию словоформ русского языка, а не только лемм. Также разработана нейросетевая объединенная модель, которая кроме морфологической сегментации словоформ, позволяет предварительно уточнить их морфологические характеристики, решая задачу снятия омонимии. Помимо высокой точности обе модели показывают производительность, достаточную для решения практических задач. На основе разработанных моделей реализован морфологический анализатор русского языка с открытым исходным кодом XMorphy, выполняющий как традиционные функции морфологического анализа, так и морфологическую сегментацию лемм и словоформ.
Диссертация [*.pdf, 616.76 Кб] (дата размещения 2/2/2023)
Резюме [*.pdf, 303.02 Кб] (дата размещения 2/2/2023)
Summary [*.pdf, 272.60 Кб] (дата размещения 2/2/2023)

Публикации, в которых излагаются основные результаты диссертации

Bolshakova E.I., Sapin A.S. Bi-LSTM model for morpheme segmentation of Russian words (смотреть на сайте журнала)
Bolshakova E.I., Sapin A.S. Building a Combined Morphological Model for Russian Word Forms (смотреть на сайте журнала)


Отзывы
Отзыв научного руководителя
Сведения о результатах защиты:
Комитет по диссертации рекомендовал присудить ученую степень кандидата наук с отличием (протокол №2 от 05.04.2023). Решением диссертационного совета (протокол №4 от 25.04.2023) присуждена ученая степень кандидата компьютерных наук с отличием.