Эксперимент с большой языковой моделью
Материалы частично распознанного дневника адмирала Ф.П. Литке позволили участнику проекта Антону Константиновичу Лаптеву провести практический эксперимент, целью которого стал поиска методик автоматизированного интеллектуального анализа исторического рукописного документа.
Использованный исследователем комплексный подход в рамках решаемой задачи заключался в использовании двух нейронных сетей – специально разработанной и обученной нейронной сети для расшифровки рукописи (получения машиночитаемых символов) и большой языковой модели GPT типа (YandexGPT) для маркирования (сбора) основных метаданных в источнике. Полученные (выявленные моделью) метаданные предоставили возможность оценить основные темы дневника и получить списки ключевых слов (для каждого сегмента текста), персоналий, географических мест, а также топонимов. Кроме того, с помощью готовых инструментов (на примере web-приложения "Voyant-Tools"), позволяющих провести статистический анализ всего массива указанных метаданных, исследователь смог осуществить близкий к автоматическому процесс интеллектуального анализа текста и получить сведения о составе дневника, характеристики персоналий, упомянутых в тексте (вкл. членов императорской семьи, представителей придворного общества, чинов Военного ведомства и пр.), а также информацию о распределении отмеченных в источнике географических зон и топонимов в тексте.
В целях эксперимента весь процесс был осуществлен без непосредственного прочтения самого исторического источника.
Результаты эксперимента и анализ полученных данных планируется отразить в статье (соавтор – Екатерина Михайловна Болтунова) для одного из журналов гуманитарного направления.