• A
  • A
  • A
  • АБВ
  • АБВ
  • АБВ
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

О проекте

Проект «Культурное наследие России: интеллектуальный анализ и тематическое моделирование корпуса рукописных текстов» выполняется при поддержке Российского научного фонда.

Аннотация:

Рукописные тексты представляют собой фундаментальную часть человеческой культуры. В музеях, архивах, институтах и библиотеках России находится значительный корпус не введенных в широкий научных оборот рукописных памятников. Особую актуальность это приобретает по отношению к памятникам русской культуры конца XVIII – середины ХХ вв., 80 % которых до настоящего времени не только не опубликовано, но и не расшифровано. В настоящее время подавляющее количество гуманитарных исследований рукописных документов предполагает извлечении информации из этих источников вручную, в процессе расшифровки и подготовки текста к научной публикации. Несмотря на точечную результативность, для корпуса архивных материалов подобного объема приведенная организация работ неэффективна и закономерно приводит к тиражированию и анализу одного и того же набора текстов. Создание современной методики анализа информации, потенциально содержащейся в рукописных документах, является крайне актуальной научно-исследовательской задачей. Для решения этой задачи на современном научном уровне необходимо обратиться к междисциплинарным исследованиям, применяющих методы новейших разработок в сфере искусственного интеллекта (тематическое моделирование и интеллектуальный анализ данных), к задачам таких традиционно-гуманитарных дисциплин, как источниковедение и текстология.
В рамках настоящего проекта предлагается разработать систему автоматизированной навигации по рукописному тексту, предоставляющей пользователю данные о тематике, составе и структуре нерасшифрованной рукописи, а также осуществляющей моделирование корпуса рукописных текстов по запросу исследователя. В отличие от наиболее популярных подходов (распознавание всех символов текста, не реализуемое в настоящее время программным обеспечением любого класса), новая методика интеллектуального анализа данных сосредоточена на исследовании графических элементов. Графический анализ таких основных элементов поисковой системы как ключевые слова (сходство изображений-слов как растровых паттернов) в комбинации с дополнительными элементами (выделение области даты и места создания, форма, размеры и расположение обращения, подписи, заголовка, расположение пунктуационных знаков и даже строфика) позволит перейти от графики к семантике и, исходя из их сочетания, сделать выводы о составе и содержании рукописного источника. При использовании системы автоматизированной навигации поиск нужной информации в растровом массиве нераспознанного текста будет занимать не месяцы и годы гуманитарных исследований, а несколько минут.
В предлагаемом исследовании ряд задач будет решен методами гуманитарных наук (графическая, синтаксическая и семантическая классификация текста), ряд – методами интеллектуального анализа данных (распознавание образов, навигация, кластеризация, анализ связей между компонентами текста). В качестве объектов изучения будет использован корпус высококачественных цифровых копий историко-литературных документов времени расцвета русской письменной культуры конца XVIII – середины XX вв., имеющих четко выраженную иерархическую и графическую организацию: письма, дневниковые записи, мемуары, записные книжки и рабочие тетради, оригиналы которых находятся в архивах России.

Университет-партнёр в рамках исследования - Национальный исследовательский Томский государственный университет.

Ожидаемые результаты проекта:

Результаты проекта, достигнутые благодаря использованию междисциплинарных подходов:

1. Разработана и запатентована программа по работе с неструктурированными массивами данных, обеспечивающая при компьютерной реализации в автоматическом и полуавтоматическом режиме управление корпусом растровых изображений рукописных документов: тематический поиск, определение характеристик документа и моделирование корпуса рукописных источников по заданным параметрам.

2. Результаты исследования, а также связанные с ними вопросы интеллектуального анализа рукописных источников отражены в цикле научных статей.

3. В ведущих изданиях по популяризации науки опубликован цикл статей, посвященных социальному и инновационному значению результатов проекта (сохранению и актуализации в обществе культурного наследия России вкладу в развитие общества, расширению междисциплинарных и межрегиональных научных контактов).

Планируемые результаты работ на базе ТГУ:

1. Разработана методика и выполнена графическая, синтаксическая и семантическая классификация рукописных текстов конца XVIII - первой половины XIX века.

2. На основе корпуса рукописного наследия А.В. Сухово-Кобылина, А.П. Чехова, Б.Л. Пастернака, М.И. Цветаевой, М.А. Зощенко, М.А. Булгакова, И.Э. Бабеля (записные книжки, рабочие тетради, эпистолярный корпус) разработана методика и выполнена графическая, синтаксическая и семантическая классификация рукописных текстов второй половины XIX – середины XХ вв.

3. На основе корпуса материалов ГА РФ и РГВИА выполнена графическая, синтаксическая и семантическая классификация автодокументальных источников конца XVIII – середины XХ века (дневники, мемуаристика). Разработаны методы распознавания рукописного текста указанного периода на основе непрерывных морфологических моделей и машинного обучения. Разработаны методы поиска ключевых слов и форматированных фрагментов текста в цифровых изображениях рукописных архивных документов. Разработаны методы навигации в оцифрованных архивных документах при выполнении поисковых запросов.


 

Нашли опечатку?
Выделите её, нажмите Ctrl+Enter и отправьте нам уведомление. Спасибо за участие!
Сервис предназначен только для отправки сообщений об орфографических и пунктуационных ошибках.