Конвергенция языковых пластов русского языка в зеркале цифровых отношений
Создание цифровой коллекции донских говоров, улучшение обучения студентов из стран Азии, разметка и стилометрия корпуса текстов Антона Павловича Чехова: все это проводится силами студентов и преподавателей в “Зеркальной лаборатории” между Южным Федеральным университетом и НИУ ВШЭ.
Практика “зеркальных лабораторий” возникла из крупных центров нашей страны в начале 2000-х. Их суть заключается в том, что если в двух университетах есть научные группы, занимающиеся схожими и близкими по теме вещами, то лаборатория с большими ресурсами поддерживает деятельность единомышленников. Таким образом, создаётся сетевое сообщество, в котором происходит постоянный обмен опытом, повышение квалификации сотрудников, предоставляется возможность для организации проектов совместными усилиями.
НИУ ВШЭ активно поддерживает деятельность “зеркальных лабораторий”, в рамках которых каждый год проходят конкурсы на реализацию инициатив. В этом году в финале оказался проект “Конвергенция языковых пластов русского языка в зеркале цифровых отношений”, инициированный Международной лабораторией цифровых конвергенций НИУ ВШЭ и Центром цифровых гуманитарных исследований ЮФУ (Южно Федеральный Университет).
Участниками лаборатории НИУ ВШЭ стали Добрушина Нина Роландовна, руководитель Международной лаборатории языковых конвергенций, Власова Екатерина Александровна, заместитель центра “Русский как иностранный” и Анастасия Александровна Бонч-Осмоловская, руководитель образовательной программы “Цифровые методы в гуманитарных науках”.
Участниками от ЮФУ стали Северина Елена Михайловна - руководитель Центра гуманитарных цифровых исследований университета и руководитель магистерской программы Digital Humanities, Флягина Марина Валерьевна, заведующая кафедрой сравнительного языкознания, где проводились экспедиции в донской край для набора материалов по донским говорам, а также Бец Юлия Васильевна - руководитель направления “Русский как иностранный” и Зюбина Ирина Анатольевна - специалист прагмалингвистики, прагматика языка, речевого поведения носителей языков.
Основная проблема, которую проект хотел бы разрешить, это “нехватка нестандартных текстов” при условии обилия цифровой информации. Анастасия Александровна Бонч-Осмоловская отмечает, что несмотря на огромное количество текстов в сети, “то, что легко скачать, сужает наши исследовательские задачи и возможности тех языковых моделей, которые на них строятся. Наш проект направлен на разрешение этой проблемы. Мы хотели бы представить современные цифровые решения, корпуса и базы данных, снабжённые глубокой экспертной разметкой для не самого стандартного русского языка, не представленного или очень слабо представленного в электронном виде”.
В фокусе проекта оказались три научных направления:
- Цифровая диалектология.
ЮФУ начал оцифровку корпуса диалектных текстов, где было собрано 150 000 слов с разработкой разметки и транскрипцией, создано цифровое собрание устных текстов длительностью 50 часов, создано руководство по сбору и описанию корпуса. Планируется составление общедоступного частотного словаря донских говоров, проведение фольклорных экспедиций, к исследованию привлекаются бакалавры и магистры, что может стать основой их будущих ВКР.
- Цифровой инструментарий преподавания русского как иностранного.
Русский учебный корпус “Восток” (RLC) создан для изучения специфики обучения русскому языку восточных студентов, поступающих в наши вузы из Китая, Туркменистана и других стран восточного региона. Были собраны аудиозаписи-образцы говорящих на русском восточных студентов, а на основе их ошибок созданы методические рекомендации для обучения данной категории студентов, а также учебное пособие и приложение-тренажер, профилактирующее ошибки. В данном направлении также приветствуются исследовательские студенческие работы.
- Семантическая разметка русской классической литературы.
В рамках данного направления была проведена работа с семантической разметкой корпуса текстов Антона Чехова, чтобы в дальнейшем применять к нему методы Digital Humanities для более глубокого изучения.
С сайтом проекта “Chekhov Digital” можно ознакомиться по ссылке.
В рамках него также 7 октября 2021 прошел семинар, где участники проекта из ЮФУ представили результаты работы и поделились возникающими в ходе нее вопросами. Этот проект основывается на уже существующем семантическом издании “Tolstoy Digital”, автором которого является НИУ ВШЭ и Государственный музей Л.Н. Толстого. Во-многом ориентируясь на пример коллег, но не без их помощи и консультации, участникам пришлось разрабатывать собственные подходы к корпусу текстов Чехова, самое полное собрание которого размещено на сайте ФЭБ ЭНИ.
Анастасия Кудин, аспирантка ЮФУ, рассказала об особенностях разметки сущностей с помощью инструмента TEI (Text Encoding Initiative) и библиотеки Natasha, сентимент-анализе и тематическом моделировании, которое было применено к корпусу текстов писателя. Анна Щербак и Константин Петров освятили тему разметки писем Антона Павловича и, в частности, их семантической разметки. Были выделены такие части как постскриптумы, отрывки с различными почерками, редакционные правки и другие составные части письма, характерные для эпистолярного жанра. Уже на этом этапе было сказано об интересной особенности - в поздних письмах Чехова к жене, Ольге Леонардовне Книппер-Чеховой, он близок по стилю скорее к своим произведениям, нежели к стилю личной переписки, каким он пользовался ранее. Северин Никита, магистр МФТИ, рассказал об особенностях и концепции организации сайта, чтобы поиск и просмотр текстов был наиболее удобен и близок исследовательским целям.
Далее Северина Елена Михайловна обозначила перспективы, над которыми хочется поработать в будущем. Например, такие как создание полной базы данных именованных сущностей (имен и названий) в литературном корпусе и привлечение для этого дополнительных справочников, составленных “чеховедами”. Наглядна была бы визуализация всех псевдонимов писателя. Возник вопрос особенности разметки таких сложных для автоматического распознавания оборотов, как метафора. Важным замечанием стал её комментарий о том, что в данной работе важен синтез автоматических методов и ручной проверки полученных данных специалистами и экспертами. Также был поднят насущный вопрос о том, возможна ли разработка алгоритма или сервиса универсальной разметки, некоторого стандарта, применимого ко всему корпусу русской литературы? А может быть и корпусу мировой литературы? В будущем это помогло бы значительно уменьшить ресурсозатратность каждой отдельной инициативы и позволить широкому кругу исследователей углубиться в вопросы языка. Будем верить, что так и случится.
Участники проекта - студенты из ЮФУ, также поделились своими впечатлениями о прошедшем мероприятии и об опыте работы в проекте:
Петров Константин:“Работа над проектом открыла нам две стороны писателя. Письма жене и семье написаны Чеховым-человеком, мужем, семьянином, а письма "чужим" людям - Чеховым-писателем: стиль таких писем схож со стилем эпистолярных рассказов. Автоматизированными методами мы скачали HTML-страницы печатных версий писем ФЭБ и ассоциированные с ними изображения. Продумали принципы и структуру TEI-разметки чеховских писем. Стилометрическими методами мы выявили существование различий в стилях писем Чехова жене, семье и остальным людям."
Щербак Анна:
“"Chekhov Digital" - первый серьёзный проект, в котором я выступаю в качестве одного из разработчиков. Было волнительно представлять результаты начальных этапов работы профессионалам, однако благодаря поддержке команды и коллег мы отлично справились с задачей. Советы коллег из проекта "Tolstoy Digital" задали нам необходимые векторы развития, поэтому впереди нас ждёт много работы и новых увлекательных исследований.”
Гальченко Дарья:
“Я знакома с проектом, много слышала о том, что делается, да и сама поучаствовала в разметке писем, но было интересно услышать, насколько глобальным он может быть. Понравилась идея связать сущности с Викидатой. Подумалось, что если подобный проект будет проводиться по письмам автора, живущего сейчас, то найти страничку с информацией о малоизвестном человеке не составит особого труда, можно будет просто использовать соцсети. Интересно посмотреть на то, как сильно этот проект вырастет, и появится ли в будущем семантическое издание русской литературы.”
Павлюкова Екатерина:
“Семинар очень понравился, были представлены интересные проекты. Команда представила проект семантической разметки чеховских текстов, что позволило взглянуть на применение разметки шире и осознать, что результаты оказались довольно любопытными.”
Землякова Алина:
“Данный семинар проходил совместно с ВШЭ, что давало нам возможность послушать комментарии наших коллег. Я считаю это крайне ценным опытом в оценке наших научных исследований”
Старых Ольга:
“Я узнала новую для себя информацию про семантическую структуру чеховского письма. Также были любопытные моменты, связанные с определением гендера в письмах. Были затронуты и другие проблемы, например, как размечать автора в сборнике. Также я узнала более подробно о структуре сайта, на котором размещен чеховский корпус. На мой взгляд, это очень полезное мероприятие, которое позволяет поделиться уже проделанной работой, полученными результатами и задать курс на дальнейшую работу.”
Полная запись семинара находится тут.