Команда «Банка риторических структур» представила проект на конференции INLG 2017
«Банк риторических структур» разрабатывается в школе лингвистики факультета гуманитарных наук НИУ ВШЭ при участии ИСА РАН. Участники команды рассказали о своей работе на международной конференции в Сантьяго де Компостела.
Проект «Банк риторических структур» предполагает создание русскоязычного корпуса с размеченными риторическими отношениями, по аналогии с существующими корпусами для английского, немецкого, португальского и других языков. На воркшопе «Recent Advances in RST and Related Formalisms» участники проекта представили статью о маркерах риторических отношений.
Воркшоп состоялся 4 сентября в Сантьяго де Компостела (Испания) в рамках конференции 10th International Conference on Natural Language Generation (INLG 2017) и собрал исследователей теории риторической структуры из разных стран. Обсуждались вопросы, с которыми они часто сталкиваются в своей практической работе — например, сегментация дискурса и выделение более важных единиц дискурса в тексте, применение теории риторической структуры текста для решения практических задач (например, в исследовании социальных медиа и интернет-форумов по актуальным общественным проблемам), использование ее в приложениях автоматической обработки текста, вопросы достижения согласия аннотаторов, работа с инструментами разметки текста.
Многие вопросы для нас, участников проекта, были очень актуальны — например, мы во время работы решали проблемы, как достичь хорошего уровня согласия аннотаторов; как выбрать подходящие для проекта типы риторических отношений, опираясь на их «классический» список; какой инструмент для разметки выбрать. Было очень интересно узнать про опыт коллег из других проектов, ознакомиться с последними исследованиями и со со списками риторических маркеров для разных языков. Все статьи, представленные на воркшопе, доступны по ссылке.
В проекте «Банк риторических структур» участвуют магистранты, преподаватели и выпускники НИУ ВШЭ, а также сотрудники Института системного анализа РАН. Авторы статьи, представленной на воркшопе, - С. Толдова, Д. Писаревская, М. Ананьева, М. Кобозева, А. Наседкин, С. Никифорова, И. Павлова, А. Шелепов. В статье мы рассмотрели, как в уже размеченных текстах корпуса представлены маркеры, позволяющие определить тип риторической связи между фрагментами текста, что может быть важно для создания автоматического парсера дискурса. Предыдущая статья, описывающая проект, его задачи и основные этапы, была представлена на конференции «Диалог 2017».
Наш проект основан на одной из основных теорий анализа дискурса — теории риторической структуры текста Манна и Томпсон (1988). Размеченный по риторическим отношениям корпус поможет исследователям эффективнее изучать письменный дискурс, теорию риторических структур и производить различные эксперименты по автоматическому анализу текста и риторических связей внутри него — например, для решения задач автоматического реферирования текста или вопросно-ответных систем.
И, the last but not the least, нельзя не сказать пару слов о месте проведения воркшопа и конференции. Университет Сантьяго де Компостела — один из старейших университетов в мире — расположен в городе, средневековый центр которого находится в списке ЮНЕСКО и потрясает воображение старинными улочками, домами и соборами.
Дина Писаревская, выпускница ОП «Компьютерная лингвистика»