• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Система автоматической разметки научных статей

ФИО студента: Баранов Александр Михайлович

Руководитель: Клышинский Эдуард Станиславович

Кампус/факультет: Московский институт электроники и математики им. А.Н. Тихонова

Программа: Информатика и вычислительная техника (Бакалавриат)

Оценка: 10

Год защиты: 2020

Для анализа документов в структурированном машиночитаемом формате важным этапом является распознавание макета неструктурированных документов. Наиболее распространенным форматом научных статей является PDF-формат. В связи с этим объектом разработки данной выпускной квалификационной работы является система для автоматической разметки научных публикаций, представленных в формате PDF. Целью работы является создание клиент-серверной системы, способной извлекать текстовую и нетекстовую информацию из научной статьи в PDF-формате и представлять ее в docx-формате с сохранением исходной иерархии блоков в публикации. Языком разработки системы является Python. Основной принцип работы системы заключается в следующем: модель сегментирования Mask R-CNN выделяет информационные блоки на изображении PDF-страницы и классифицирует (текст, заголовок, список, фигура, таблица), блоки сортируются в соответствии с исходной иерархией документа, затем применяются модули извлечения информации из соответствующих информационных блоков. Текст извлекается с помощью библиотеки pdftotext и Tesseract OCR в зависимости от наличия текстового слоя в PDF-документе. Таблицы по возможности извлекаются библиотекой PDFPlumber или остаются в виде изображения. Формулы извлекаются с помощью модели ScanSSD. После извлечения информации формируется итоговый документ в docx-формате и дополнительные папки с извлеченными нетекстовыми элементами, из которых собирается zip-архив. Система разделена на клиентскую и серверную части, реализованными с помощью архитектурного стиля REST и библиотеки Flask. Полученные части упакованы в Docker-контейнеры. Выпускная квалификационная работа состоит из 69 страниц, содержит 12 рисунков и 6 приложений. Исходный код можно найти на github.com: https://github.com/owls-nlp

Текст работы (работа добавлена 28 мая 2020 г.)

Выпускные квалификационные работы (ВКР) в НИУ ВШЭ выполняют все студенты в соответствии с университетским Положением и Правилами, определенными каждой образовательной программой.

Аннотации всех ВКР в обязательном порядке публикуются в свободном доступе на корпоративном портале НИУ ВШЭ.

Полный текст ВКР размещается в свободном доступе на портале НИУ ВШЭ только при наличии согласия студента – автора (правообладателя) работы либо, в случае выполнения работы коллективом студентов, при наличии согласия всех соавторов (правообладателей) работы. ВКР после размещения на портале НИУ ВШЭ приобретает статус электронной публикации.

ВКР являются объектами авторских прав, на их использование распространяются ограничения, предусмотренные законодательством Российской Федерации об интеллектуальной собственности.

В случае использования ВКР, в том числе путем цитирования, указание имени автора и источника заимствования обязательно.

Реестр дипломов НИУ ВШЭ