• A
  • A
  • A
  • АБВ
  • АБВ
  • АБВ
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Обзор магистерских проектов второго года: дебри Поэтического корпуса

Обзор магистерских проектов второго года: дебри Поэтического корпуса

Проект Анны Дружкиной и Елены Кротовой “Дебри поэтического корпуса” связан с Поэтическим корпусом, частью Национального Корпуса Русского языка. Поэтический корпус представляет собой крупнейший аннотированный онлайн-корпус русскоязычной поэзии XVII - XXI вв. Найти его можно тут: http://ruscorpora.ru/search-poetic.html.

В настоящее время аннотация корпуса включает в себя для каждого текста данные об авторе, названии, дате создания, жанру, длине, а также специфически поэтические сведения: метр, клаузула, рифм, строфика.

Благодаря этой разметке и возможности поиска по ней (например, можно найти все стихотворения, написанные четырехстопным ямбом в XIX веке), Поэтический корпус является ценным ресурсом для стиховедов и литературоведов.

Целью нашего проекта было улучшить, расширить и дополнить аннотацию Поэтического корпуса и, таким образом, повысить эффективность работы с корпусом.

Основные разделы работы:

  • изучили и проанализировали существующие проблемы и недостатки разметки и поиска по разметке;
  • исправили разметку;
  • предложили и реализовали новое поле разметки.

1. Сейчас все данные разметки хранятся в отдельной таблице (и она используется для поиска) и в основном дублируются в файлах, содержащих тексты.

При внимательном изучении было обнаружено, что в ряде случаев таблица содержит неверные или неполные сведения: например, данные из файла текста не были перенесены в таблицу, и информация потерялась. В таблице было обнаружено некоторое количество некорректных данных: например, в поле “метр” указывался размер и т.п. Также были случаи съехавших полей и опечаток. Все это приводило к ухудшению поиска: невозможно искать по некорректным значениям, опечаткам или отсутствующим данным.

Все это мы исправили, и в актуальной версии корпуса этих ошибок уже нет.

2. При поиске по аннотации нужно выбрать желаемые значения из списка возможных. Для корректной работы спектр возможных значений каждого поля аннотации в таблице (например, для метра: ямб, хорей, дактиль и т.д.) должен совпадать со спектром значений полей поиска. Но корпус постоянно пополняется, в нем появляется новая разметка, и в некоторых местах поиск не учитывал всех возможных значений: невозможно было, например, искать стихотворения с жанром “танка”, хотя такие тексты в корпусе представлены.

Было решено добавить в поисковый движок обнаруженные жанры и создать отдельную вкладку для редко встречающихся обозначений, порядка десяти в том и другом случае (при 40 жанрах, уже имевшихся в поиске).

3. Мы также заметили, что аннотация содержит сведения о дате написания текста, если эта дата в тексте указана. Но нередко в тексте приводится и место написания – эта информация уже не учитывается. Мы предложили выкачать из корпуса всю информацию о месте написания и добавить ее в виде отдельного поля разметки. После этого можно будет добавить возможность поиска по месту написания - и узнать, например, где было написано больше всего ямбов из коллекции Поэтического корпуса. Предположительно эти данные станут доступны в Корпусе в конце марта.

Анна Дружкина, Елена Кротова