• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Автоматический частеречный анализ для китайского языка с привлечением данных параллельного корпуса

ФИО студента: Коновалова Александра Сергеевна

Руководитель: Ляшевская Ольга Николаевна

Кампус/факультет: Факультет гуманитарных наук

Программа: Фундаментальная и компьютерная лингвистика (Бакалавриат)

Оценка: 9

Год защиты: 2021

Цель настоящего исследования — системно последовательно сравнить существующие инструменты для частеречной разметки в китайском языке, доступные для языка Python, и построить модель с использованием параллельных данных Русско-китайского параллельного корпуса НКРЯ. Сейчас в корпусе нет частеречной разметки для китайского языка, поэтому актуальность данной работы заключается в поиске оптимальной модели для данных корпуса. Частеречная разметка — одна из базовых задач автоматической обработки естественного языка. Несмотря на то, что задача частеречной разметки для китайского языка сравнительно хорошо решена, на данных корпуса, содержащих оригинальные и переводные тексты из художественной литературы, традиционные модели могут оказаться менее эффективными. Китайский, как язык с изолирующей морфологией и иероглифической письменностью, представляет ряд трудностей для частеречной разметки. Современные алгоритмы для частеречной разметки — нейросетевые парсеры для совместного частеречного анализа и сегментации предложения. Менее популярный подход, обычно использующийся для малоресурсных языков, заключается в использовании данных пословно выровненного параллельного корпуса. В этой работе мы вручную разметили золотой стандарт для сравнения моделей, провели сопоставительный анализ наборов тегов частей речи китайского языка в различных стандартах, а также построили нейросетевую модель с использованием параллельных русско-китайских данных.

Текст работы (работа добавлена 24 мая 2021 г.)

Выпускные квалификационные работы (ВКР) в НИУ ВШЭ выполняют все студенты в соответствии с университетским Положением и Правилами, определенными каждой образовательной программой.

Аннотации всех ВКР в обязательном порядке публикуются в свободном доступе на корпоративном портале НИУ ВШЭ.

Полный текст ВКР размещается в свободном доступе на портале НИУ ВШЭ только при наличии согласия студента – автора (правообладателя) работы либо, в случае выполнения работы коллективом студентов, при наличии согласия всех соавторов (правообладателей) работы. ВКР после размещения на портале НИУ ВШЭ приобретает статус электронной публикации.

ВКР являются объектами авторских прав, на их использование распространяются ограничения, предусмотренные законодательством Российской Федерации об интеллектуальной собственности.

В случае использования ВКР, в том числе путем цитирования, указание имени автора и источника заимствования обязательно.

Реестр дипломов НИУ ВШЭ