Интервью со стажером-исследователем из Лаборатории учебных корпусов
Екатерина Санникова рассказала о работе над проектом по классификации ошибок в учебных текстах с помощью нейросетей, деятельности лаборатории и карьерных планах.
Расскажи о целях и направлениях деятельности НУЛа.
В Научно-учебной лаборатории Учебных корпусов мы занимаемся корпусной лингвистикой. Сейчас у нас уже есть достаточно большой корпус англоязычных текстов, написанных студентами Вышки во время Независимого экзамена по английскому языку. Многие тексты в этом корпусе размечены по ошибкам, а сами ошибки разделены на примерно 50 классов. Значительная часть нашей деятельности сосредоточена на корпусных системах: как на инструментах для автоматического исправления текстов, так и для автоматической классификации.
А прямо сейчас мы работаем над проектом по оценке связности (coherence) текстов на английском языке, написанных учащимися и носителями. Для этого мы разметили часть текстов вручную по пяти параметрам связности, а сейчас работаем над созданием системы, которая сможет предсказывать значения этих параметров автоматически.
Как ты попала в НУЛ и над какими проектами работаешь сейчас?
Я попала в НУЛ после прохождения летней практики по разметке студенческих текстов на английском языке. В моём случае это было исправление и классификация ошибок в текстах, но сейчас мы реже проводим такие практики, поскольку многое уже автоматизировано. Зато в этом году в качестве летней практики мы предлагали разметку текстов по параметрам связности (как раз для нашего текущего проекта), так что мы всегда ищем лишние руки для корпусной деятельности. А вообще для того, чтобы попробовать поработать в лаборатории, не дожидаясь летней практики, можно связаться с Радой Трнавац или Эдуардом Станиславовичем Клышинским.
За время работы в НУЛе я в основном занималась автоматизацией обработки текстов. Мы начинали с rule-based подходов, то есть с написания правил, основанных на синтаксических и морфологических парсерах, для автоматического нахождения определённых типов ошибок в текстах (например, это можно сделать для ошибок согласования подлежащего и сказуемого или для порядка главных членов предложения). В последние несколько лет мы активно подключаем нейросети к анализу более сложных случаев, когда поверхностного морфологического и синтаксического анализа недостаточно. Например, в моём дипломе я занималась классификацией с помощью BERT тех ошибок, которые нельзя «подобрать» обычными правилами.

Над какими исследовательскими проектами работают твои коллеги?
Поскольку у нас достаточно небольшая лаборатория, обычно мы занимаемся одним и тем же проектом; правда, зачастую у каждого своя зона ответственности. Если вам привычнее работать с грамматическими аспектами текста, вы можете анализировать предложения на предмет орфографических или синтаксических ошибок; если вам ближе семантика, вы можете сфокусироваться только на классификации предложений с семантической точки зрения. Самое сложное — это провести границу между семантикой и грамматикой.
В планах на следующий год у нас совместная с МИЭМ работа над интерфейсом поиска по корпусу: мы хотим его улучшить, ускорить и дать возможность отфильтровывать по большему количеству параметров.
Какие методики и инструменты используются в лаборатории для анализа и оценки студенческих текстов?
Несколько лет назад мы создали инструмент, который умеет предсказывать уровень студента по шкале CEFR на основании эссе. Под капотом у него несколько десятков параметров, по каждому из которых он выносит оценку, из которых потом составляет общий вердикт.
Для внутреннего пользования у нас есть нейросеть, основанная на T5, которая умеет исправлять ошибки в студенческих текстах — а cснадстройкой в виде нейросети, основанной на BERT, умеющая классифицировать найденные в тексте ошибки в парадигме корпусных тегов.
Как НУЛ сотрудничает с другими факультетами или университетами?
В нашем НУЛе работают преподаватели и студенты из Нижегородского и Пермского кампусов ВШЭ, а ещё иногда мы предлагаем общевышкинские проекты, в которых могут поучаствовать студенты других факультетов. Например, над одним из прошлых проектов я работала со студентами ФКН, и у нас получилось достаточно продуктивное сотрудничество! Не считая того, что я время от времени побаивалась, что они осудят мой код с высоты своей программистской башни…
А ещё у нас в НУЛе бывают семинары приглашённых специалистов из других корпусов, других университетов и стран. В этом году мы даже вместе с ними добавили свои тексты в общий пул текстов L2 для shared task конференции Natural Language Processing for Computer-Assisted Language Learning.
Разрабатываете ли вы какие-либо open source инструменты для улучшения навыков письменной речи студентов?
Много лет мы работаем над инструментом под рабочим названием ADWISER — он в целом вписывается в ту деятельность лаборатории, которую я описала. ADWISER анализирует текст и подсвечивает в нём те места, в которых, по его мнению, присутствуют ошибки, а также предоставляет базовую характеристику ошибок с точки зрения принадлежности их к одному из пяти классов: грамматика, орфография, синтаксис, дискурс или семантика. Я уже видела несколько пилотных веб-версий этого инструмента; в будущем мы планируем представлять его преподавателям и студентам ВШЭ для помощи при написании и оценке текстов.
Какие у тебя карьерные планы? Планируешь оставаться в академии или развиваться в индустрии, например?
Сейчас я параллельно работаю лингвистом-разработчиком в одной телеком-компании и готовлюсь к поступлению в профильную магистратуру в следующем учебном году. Так что пока расставаться с академией, а в особенности с корпусной лингвистикой планов у меня нет.
Редакторы: Мария Бочарова, Агнесса Фомина.
Санникова Екатерина Максимовна