О проекте «Слово Толстого»
В сентябре этого года проект «Слово Толстого. Цифровой путеводитель по наследию писателя» выиграл грант президентского фонда культурных инициатив. Какая работа легла в основу этой заявки и какие задачи ещё предстоит решать — рассказываем ниже.
Работа над этим проектом происходит в коллаборации студентов, выпускников и преподавателей НИУ ВШЭ и Научно-образовательный союз "Родное слово". Руководит проектом Фёкла Толстая, праправнучка Льва Николаевича Толстого и организаторка проекта Весь Толстой в один клик. «Слово Толстого» строится на базе сразу нескольких предыдущих проектов центра цифровых гуманитарных исследований НИУ ВШЭ. Так, материальным основанием «Слова Толстого» стал оцифрованный многотомник Толстого с семантической разметкой — проект Tolstoy Digital (подробнее о результатах можно почитать здесь). Если в Tolstoy Digital были оцифрованы только произведения самого Толстого, то в «Слове Толстого» материал будет принципиально расширен критическим аппаратом с комментариями редакторов, примечаниями. Благодаря этому у пользователя возникает возможность увидеть текст в динамике (разные вариации) и контексте литературоведения. Критический аппарат, помимо предисловия и послесловия, содержит сноски. Из-за их расположения — параллельно тексту — возникает задача привязывания сносок к тому месту, к которому они относятся в собрании сочинений. Другой задачей, связанной с добавлением критического аппарата, является унификация редакций одного и того же произведения в 90-томнике, действие особенно необходимое для цифрового издания.
С точки зрения функционала основной инструмент портала — поисковая система. Её прототип был подготовлен уже на этапе подачи заявки на грант, но интерфейс продолжает дорабатываться. Над тем, чтобы он был доступен, понятен и отражал весь функционал, который заложен в разметку текстов, работает теперь digital агенство pichesky. Уже сейчас на портале (доступен по ссылке) можно дополнительно сортировать результаты поиска по типу документа (произведения, дневники, письма), по дате создания, тому, жанру, теме и, что не так тривиально, по завершенности, адресатам, факту (отправлено или не отправлено) и месту отправления писем.
Система поиска будет улучшена за счёт разметки и последующего связывания именованных сущностей. Этот подход облегчает, например, поиск по персоналиям (точнее, по именованным сущностям из Указателя к Толстому), позволяя ввести имя и увидеть произведения, где персоналия упоминается. Сам Указатель Толстого или «91-й том» был извлечён Б.В.Ореховым ещё в 2017 году, а на его основе была построена отдельная сеть графов совместных упоминаний людей, где имена привязаны к страницам так, как на бумаге. Основная идея связывания именованных сущностей заключается в том, чтобы с помощью указателя в тексте можно было найти также и те сущности, которые не совпадают по форме написания с указателем, то есть то, что не найти простым поиском. Например, если в указателе написано «Диккенс», то будут учтены и вещи вроде «Холодный дом» или «Крошка Доррит». Эти именованные сущности также могут быть привязаны, например, к биографическим базам данных.
Соответственно, это вызывает необходимость подготовить и связать с текстами несколько словарей — словарь имен собственных, а также словарь редких слов с объяснениями и отдельный словарь, построенный на векторных моделях. Для подготовки словаря редких слов используется опыт Б.В.Орехова и Любови Полянской, которые в 2018 году подготовили веб приложение Дрожки. Оно автоматически выявляет редкие слова по их частотности, указанной в частотном словаре Ляшевской-Шарова, и подбирает перевод из Малого академического словаря русского языка. Словарь, построенный на векторных моделях, покажет нам особенности Толстовского словоупотребления: какие слова изменили свой смысл в сегодняшнем языке, а какие слова Толстой употреблял не так, как современники.
Помимо этого, на портале у пользователя будет возможность скачать произведения по отдельности в формате TEI, ему будут доступны инструменты инфографики, а также форум для обсуждения текстов Толстого и личный кабинет, где можно будет сохранять цитаты и результаты поиска. Все эти расширения должны, с одной стороны, облегчить исследователям Толстого научный процесс, с другой — привлечь новых, заинтересовав возможностями «глубокого» чтения.
О сложностях
В работе с оцифровкой такого огромного массива документов разного объема и жанра неизбежно возникают ошибки. Поэтому одна из первостепенных наших задач — убедиться, что мы ничего не потеряли и что разметка соответствует нашему эталону. Этот процесс, дополнительной проверки, мы стараемся максимально автоматизировать.Другим сложным вызовом проекта стало автоматическое извлечение дат. В собрании сочинений очень много писем и их датировка имеет крайне разрозненный вид. Часть дат в формате год-месяц-день является машиночитаемой, для неё уже есть готовые парсеры, и проблем не возникает. Даты же, данные периодом, или перечисление дат уже являются проблемными, а есть еще даты такого вида: «1872 г. октябрь, середина.», «1874 г. февраль до 15.», «1870-е гг., начало.».
О нюансах решения этой проблемы студент факультета гуманитарных наук магистратуры «Цифровые методы в гуманитарных науках» НИУ ВШЭ, Макар Фёдоров:
«Помимо технических вопросов, как извлекать такие даты, есть более содержательные вопросы: 1) Как записывать такие даты? Например, даты включающие выражения «до какого-то числа» или «конец месяца (года, десятилетия)» предполагают некоторый период. С этим нет проблем, так как стандарт TEI дает атрибуты для записи примерных периодов. Но есть и такие даты: «1890-е гг., март» - то есть года даны периодом, а месяц (или день) известны точно. С этим уже возникают проблемы. 2) Какую интерпретацию давать выражениям «конец, начало, вторая половина» и т.д.? Понятно, что эти выражения имеют разное значение для месяцев, лет и десятилетий. С одной стороны, интерпретации должны быть точными — поскольку это единственный способ записать даты в машиночитаемом виде, а с другой — отвечать использованию этих выражений в языке.»