Обзор магистерских проектов второго года: дебри Поэтического корпуса
Проект Анны Дружкиной и Елены Кротовой “Дебри поэтического корпуса” связан с Поэтическим корпусом, частью Национального Корпуса Русского языка. Поэтический корпус представляет собой крупнейший аннотированный онлайн-корпус русскоязычной поэзии XVII - XXI вв. Найти его можно тут: http://ruscorpora.ru/search-poetic.html.
В настоящее время аннотация корпуса включает в себя для каждого текста данные об авторе, названии, дате создания, жанру, длине, а также специфически поэтические сведения: метр, клаузула, рифм, строфика.
Благодаря этой разметке и возможности поиска по ней (например, можно найти все стихотворения, написанные четырехстопным ямбом в XIX веке), Поэтический корпус является ценным ресурсом для стиховедов и литературоведов.
Целью нашего проекта было улучшить, расширить и дополнить аннотацию Поэтического корпуса и, таким образом, повысить эффективность работы с корпусом.
Основные разделы работы:
- изучили и проанализировали существующие проблемы и недостатки разметки и поиска по разметке;
- исправили разметку;
- предложили и реализовали новое поле разметки.
1. Сейчас все данные разметки хранятся в отдельной таблице (и она используется для поиска) и в основном дублируются в файлах, содержащих тексты.
При внимательном изучении было обнаружено, что в ряде случаев таблица содержит неверные или неполные сведения: например, данные из файла текста не были перенесены в таблицу, и информация потерялась. В таблице было обнаружено некоторое количество некорректных данных: например, в поле “метр” указывался размер и т.п. Также были случаи съехавших полей и опечаток. Все это приводило к ухудшению поиска: невозможно искать по некорректным значениям, опечаткам или отсутствующим данным.
Все это мы исправили, и в актуальной версии корпуса этих ошибок уже нет.
2. При поиске по аннотации нужно выбрать желаемые значения из списка возможных. Для корректной работы спектр возможных значений каждого поля аннотации в таблице (например, для метра: ямб, хорей, дактиль и т.д.) должен совпадать со спектром значений полей поиска. Но корпус постоянно пополняется, в нем появляется новая разметка, и в некоторых местах поиск не учитывал всех возможных значений: невозможно было, например, искать стихотворения с жанром “танка”, хотя такие тексты в корпусе представлены.
Было решено добавить в поисковый движок обнаруженные жанры и создать отдельную вкладку для редко встречающихся обозначений, порядка десяти в том и другом случае (при 40 жанрах, уже имевшихся в поиске).
3. Мы также заметили, что аннотация содержит сведения о дате написания текста, если эта дата в тексте указана. Но нередко в тексте приводится и место написания – эта информация уже не учитывается. Мы предложили выкачать из корпуса всю информацию о месте написания и добавить ее в виде отдельного поля разметки. После этого можно будет добавить возможность поиска по месту написания - и узнать, например, где было написано больше всего ямбов из коллекции Поэтического корпуса. Предположительно эти данные станут доступны в Корпусе в конце марта.
Анна Дружкина, Елена Кротова