• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Разработка инструмента для разметки речи на примере казымского диалекта хантыйского языка

ФИО студента: Карпова Аполлинария Павловна

Руководитель: Клышинский Эдуард Станиславович

Кампус/факультет: Факультет гуманитарных наук

Программа: Фундаментальная и компьютерная лингвистика (Бакалавриат)

Год защиты: 2024

Несмотря на значительные достижения в технологиях обработки речи, таких как автоматическое распознавание речи (англ. Automatic Speech Recognition, ASR), диаризация и распознавание устного языка (e.g., Park et al., 2022; Li, 2022), многие малоресурсные языки остаются недостаточно представленными. Данный проект направлен на разработку нескольких инструментов для обработки речи для казымского хантыйского языка, малоресурсного финно-угорского языка, на котором говорят примерно 9500 человек в западной Сибири, согласно переписи 2010 года (Федеральная служба государственной статистики России, 2010). Для этого проекта мы составили два новых датасета. Первый датасет, используемый для диаризации, состоит из 26 аудиозаписей общей продолжительностью 1273 минуты, аннотированных по сменам говорящих, времени начала и окончания фрагментов речи, а также по языку. Второй набор данных, используемый для ASR, включает 5 часов аннотированных речевых данных, включая монологи, диалоги, сказки, рассказы и новостные сегменты. Эти датасеты были собраны в ходе полевых исследований, проводимых с 2018 по 2024 годы, и онлайн публикаций на хантыйском языке. Используя первый датасет, мы улучшили модель диаризации pyannote.audio, снизив её процент ошибок диаризации (англ. Diarization Error Rate, DER) с 38,9% до 26,3%. Это улучшение поможет исследователям сделать процесс транскрипции сессий элицитации с носителями хантыйского языка более эффективным. Кроме того, это может быть полезно и другим, работающим с малоресурсными языками и похожими стилями взаимодействия в аудиозаписях. На втором датасете мы доработали многоязычную модель Whisper для распознавания речи на хантыйском языке, достигнув 44,57% доли ошибок по словам (англ. Word Error Rate, WER). Система ASR, специально разработанная для хантыйского языка, может значительно помочь исследователям в сборе данных для текстовых корпусов и транскрипции сессий элицитации и монологов носителей хантыйского языка. Даже с умеренным качеством и высокой долей ошибок, эта модель ASR может повысить эффективность процесса транскрипции. Кроме того, мы исследовали возможность интеграции модели распознавания устного языка (англ. Spoken Language Identification, SLID) в нашу систему диаризации, чтобы помочь исследователям сосредоточиться исключительно на хантыйских сегментах, требующих транскрипции и перевода. Однако, после достижения только 53% точности с моделью SpeechBrain SLID, мы пришли к выводу, что необходима дополнительная доработка, прежде чем она сможет эффективно использоваться в сочетании с моделью диаризации.

Выпускные квалификационные работы (ВКР) в НИУ ВШЭ выполняют все студенты в соответствии с университетским Положением и Правилами, определенными каждой образовательной программой.

Аннотации всех ВКР в обязательном порядке публикуются в свободном доступе на корпоративном портале НИУ ВШЭ.

Полный текст ВКР размещается в свободном доступе на портале НИУ ВШЭ только при наличии согласия студента – автора (правообладателя) работы либо, в случае выполнения работы коллективом студентов, при наличии согласия всех соавторов (правообладателей) работы. ВКР после размещения на портале НИУ ВШЭ приобретает статус электронной публикации.

ВКР являются объектами авторских прав, на их использование распространяются ограничения, предусмотренные законодательством Российской Федерации об интеллектуальной собственности.

В случае использования ВКР, в том числе путем цитирования, указание имени автора и источника заимствования обязательно.

Реестр дипломов НИУ ВШЭ