Эксперимент с большой языковой моделью

Материалы частично распознанного дневника адмирала Ф.П. Литке позволили участнику проекта Антону Константиновичу Лаптеву провести практический эксперимент, целью которого стал поиска методик автоматизированного интеллектуального анализа исторического рукописного документа.

Банк России

Использованный исследователем комплексный подход в рамках решаемой задачи заключался в использовании двух нейронных сетей – специально разработанной и обученной нейронной сети для расшифровки рукописи (получения машиночитаемых символов) и большой языковой модели GPT типа (YandexGPT) для маркирования (сбора) основных метаданных в источнике. Полученные (выявленные моделью) метаданные предоставили возможность оценить основные темы дневника и получить списки ключевых слов (для каждого сегмента текста), персоналий, географических мест, а также топонимов. Кроме того, с помощью готовых инструментов (на примере web-приложения "Voyant-Tools"), позволяющих провести статистический анализ всего массива указанных метаданных, исследователь смог осуществить близкий к автоматическому процесс интеллектуального анализа текста и получить сведения о составе дневника, характеристики персоналий, упомянутых в тексте (вкл. членов императорской семьи, представителей придворного общества, чинов Военного ведомства и пр.), а также информацию о распределении отмеченных в источнике географических зон и топонимов в тексте.

В целях эксперимента весь процесс был осуществлен без непосредственного прочтения самого исторического источника.

Результаты эксперимента и анализ полученных данных планируется отразить в статье (соавтор – Екатерина Михайловна Болтунова) для одного из журналов гуманитарного направления.

Дата

25 июня

Рубрики

Наука

Темы

дискуссии классификация рукописных текстов нейронные сети рукописные тексты Ф.П. Литке

В статье упомянуты

Культурное наследие России: интеллектуальный анализ и тематическое моделирование корпуса рукописных текстов

Персоны

Болтунова Екатерина Михайловна

Лаптев Антон Константинович