Рабочие встречи по проекту
31 марта и 7 апреля в рамках работы по проекту «Культурное наследие» сотрудники Лаборатории региональной истории России совместно с коллегами из Московского государственного университета провели рабочие встречи, на которых были рассмотрены первые практические результаты внедрения механизмов интеллектуального анализа исторических источников, а также использования нейронных сетей в рамках распознания корпуса рукописных источников начала ХХ в.
31 марта Дмитрий Пойманов (МГУ) в своем докладе представил модель автоматической генерации тематики (основного нарратива) исторического документа через статистический анализ и частотное распределение массива слов в тексте. Также им были представлены пробные алгоритмы по анализу пересечения тем в исследуемом источнике. С помощью этого инструмента исследователь сможет выявлять нарративы, наиболее часто пересекающиеся в анализируемом им корпусе исторических документов.
7 апреля Никита Ломов (МГУ) представил готовую модель нейронной сети, которая была обучена распознаванию рукописного текста из корпуса писем каторжных заключенных смоленской тюрьмы (более 60 отдельных рукописных документов). В рамках этой работы им также был продемонстрирован тестовый вариант программного решения, основанного на цветовом маркировании в исходном тексте ключевых слов, входящих в словари четырех ключевых нарративов (уголовный, телесный, временной и эмоциональный), а также содержащих в себе заглавные буквы. В рамках рабочей встречи было предложено расширить функционал представленного сервиса за счет предоставления исследователю возможности видеть общую (для всего корпуса) и локальную (для конкретного документа) статистику распознанных ключевых слов и выявленных нарративов. За счет применения алгоритмов, данные статистические данные позволят в автоматическом режиме определять "ведущий" нарратив корпуса рукописных источников, а также определять тематику каждого локального документа.