Лингвистическая интерпретация и оценка векторных моделей слов русского языкаLinguistic interpretation and evaluation of the wordvector models for Russian
Соискатель:
Шаврина Татьяна Олеговна
Руководитель:
Члены комитета:
Лукашевич Наталья Валентиновна (Московский государственный университет им. М.В. Ломоносова, д-р тех. наук, председатель комитета), Козеренко Елена Борисовна (Федеральный исследовательский центр «Информатика и управление» РАН, канд.филол.наук, член комитета), Пиперски Александр Чедович (Национальный исследовательский университет "Высшая школа экономики", канд.филол.наук, член комитета), Румшиски Анна (Университет Массачусетс Лоуэлл (США), PhD, член комитета), Скоринкин Даниил Андреевич (Национальный исследовательский университет "Высшая школа экономики", канд.филол.наук, член комитета)
Диссертация принята к предварительному рассмотрению:
2/7/2022
Диссертация принята к защите:
3/21/2022
Дисс. совет:
Совет по филологии
Дата защиты:
5/13/2022
Предлагаемая диссертация посвящена разработке методик лингвистической интерпретации и оценки векторных моделей слов для русского языка. Векторные модели слов и текстов являются базовой компонентой современных механизмов автоматического анализа текста и задействованы в широком ряде задач, как прикладных, так и теоретических, в частности, в задаче статистического моделирования языка. В качестве основного инструмента оценки качества такого моделирования языка и общей интеллектуальности моделей выступают корпуса языковых тестов. Корпуса являются самым доступным способом обучения векторных моделей и одновременно обладают высокой вариативностью, необходимой для формулировки интеллектуальных задач. В работе приводится обзор актуальной методологии обучения и тестирования интеллектуальных систем, в которых векторные модели слов и текстов являются объектами исследований. Впервые представляется набор корпусов и инструментов оценки для русскоязычных векторных моделей слов и текстов. Набор корпусов формирует т.н. бенчмарк, то есть позволяет выстроить общий рейтинг качества векторных моделей для русского языка одновременно на множестве задач. К настоящему времени с помощью представляемого бенчмарка было оценено 1530 моделей. Для каждой из них проведена оценка качества выполнения интеллектуальных задач и подверженности различным типам ошибок, а также устойчивости модели к разнообразным языковым явлениям.
Диссертация [*.pdf, 3.44 Мб] (дата размещения 3/2/2022)
Резюме [*.pdf, 436.97 Кб] (дата размещения 3/2/2022)
Summary [*.pdf, 371.60 Кб] (дата размещения 3/2/2022)
Публикации, в которых излагаются основные результаты диссертации
О методах компьютерной лингвистики в оценке систем искусственного интеллекта (смотреть на сайте журнала)
Russian SuperGLUE 1.1: Revising the Lessons not Learned by Russian NLP-models (смотреть на сайте журнала)
Отзывы
Отзыв научного руководителя
- Ляшевская О.Н. (дата размещения 2/7/2022)
Сведения о результатах защиты:
Комитет по диссертации рекомендовал присудить ученую степень кандидата филологических наук с отличием (протокол № 2 от 13.05.2022). Решением диссертационного совета (протокол №10 от 25.05.2022) присуждена ученая степень кандидата филологических наук с отличием.
См. на ту же тему
Методы и алгоритмы для извлечения, связывания, векторизации и разрешения неоднозначности лексико-семантических графовДокторская диссертация
Соискатель: Панченко Александр Иванович
Модели и методы автоматической обработки неструктурированных данных в биомедицинской областиДокторская диссертация
Соискатель: Тутубалина Елена Викторовна
Дата защиты: 11/7/2023
Бенефактивные конструкции в современной японской речи: корпусное исследованиеКандидатская диссертация
Соискатель: Соломкина Наталия Алексеевна
Руководитель: Подлесская Вера Исааковна
Дата защиты: 5/16/2023