Никита Ломов на XI международной конференции "AIST 2023"
30 сентября 2023 г. сотрудник Института региональных исторических исследований ФГН Никита Ломов выступил на XI международной конференции "AIST 2023", посвященной анализу изображений, социальных сетей и текстов.
В качестве доклада было представлено исследование, посвященное распознаванию рукописного текста на примере архива писем заключенных Смоленской каторжной тюрьмы (Handwritten Text Recognition and Browsing in Archive of Prisoners’ Letters from Smolensk Convict Prison).
В исследовании была рассмотрена задача создания прототипа навигационной системы для небольшого архива исторических документов (письма узников Смоленской каторжной тюрьмы начала ХХ века), записанных одним почерком. Для соответствия модели распознавания рукописного текста были созданы процедуры автоматической подготовки коллекций изображений, включая разбиение на строки, сегментацию следов пера и наклона строк, а также страниц. Эксперименты показали, что обучение современной нейронной сети примерно на тысяче образцов строк с одинаковым почерком позволяет добиться достойного качества распознавания (5,11% CER и 17,55% WER). В дальнейшем автоматически распознанный текст использовался для решения задачи поиска по ключевым словам. Текст корректировался по словарям и установленным правилам с учетом особенностей русской дореволюционной орфографии, ошибок распознавания и собственных ошибок автора. Поисковая система достигла точности 97,14% и полноты 91,35%. Визуализация результатов предусматривала выделение найденных слов на исходных изображениях. Проведенное исследование демонстрирует возможность создания навигационной системы и ее подстраивания под конкретный почерк при небольшом количестве маркируемых образцов и ограниченном участии человека.