Сформированы тестовые задачи проекта
В результате работы по проекту в 2022 г. исследовательская группа сформировала две тестовые задачи, которые будут выполняться на основе нескольких сотен цифровых копий архивных документов. Разработка тестовых заданий имеет целью, с одной стороны, фиксацию конкретных целей и задач, стоящих перед отдельными группами участников проекта (историками и филологами), но затрудненных для реализации в рамках использования классических методов и приемов работы с текстом. С другой стороны, предложенные тестовые задачи и отобранные для их решения цифровые образы должны предоставить группе математиков, задействованных в проекте, возможности для практической тестовой работы.
Одна из тестовых задач была сформулирована по материалам коллективных писем родственников В. А. Жуковского. Для последующего анализа с целью разработки методики цифровой реконструкции были подготовлены тексты из семейной переписки В. А. Жуковского – 53 коллективных письма. Важно отметить, что родственники, вместо того чтобы писать Жуковскому персонально, сочиняли письма вместе, передавая перо друг другу во время взаимных визитов или пребывания в гостях. При этом количество авторов варьировалось от пяти до тринадцати человек. Коллективные письма поэту, таким образом, представляют собой особый коммуникативный феномен, с одной стороны, а с другой – существенную текстологическую проблему, в решении которой значимыми представляются машинные методы анализа текста. С графической и текстологической точки зрения письма чрезвычайно сложны, поскольку были ориентированы на восприятие подготовленного читателя, хорошо знавшего почерк каждого корреспондента и умевшего атрибутировать каждый фрагмент письма.
Другая тестовая задача касается разбора писем политических заключенных начала XX в. Переписка между каторжанами указанного периода, содержавшимися в Смоленской каторжной тюрьме, представляет собой результат перлюстрации – письма пяти политических заключенных (вероятнее всего, социалистов-революционеров), передававшиеся между камерами, переписаны жандармом без внесения каких-либо изменений. Текст переписки фиксирует поток сознания и особе эмоциональное состояние авторов. Пунктуация в текстах писем практически отсутствует. Вероятно, первоначально эти тексты были написаны на небольших клочках бумаги при плохом освещении. В ходе предварительного разбора все письма были расшифрованы вручную. В качестве задачи по этому сегменту текстов было предложено обнаружить пересечение четырех нарративов, то есть одновременное появление в одном письме слов из двух и более следующих направлений (нарративов) – криминального, медицинского, эмоционального нарративов, а также нарратива будущего.