• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

ETL для обработки персональных данных работников

ФИО студента: Кондрашов Артем Александрович

Руководитель: Зубков Александр Викторович

Кампус/факультет: Факультет компьютерных наук

Программа: Магистр по наукам о данных (Магистратура)

Год защиты: 2024

Современные задачи требуют современных решений, особенно в отношении рутинных процессов, которые могут быть автоматизированы. В последнее время для решения некоторых из таких задач все более популярными становятся реализации на основе моделей глубинного обучения (DL) , и поскольку эти методы становятся все более изощренными, они способны решить и более сложные задачи. Некоторые модели DL могут даже качественно превосходить людей в задачах обнаружения объектов, исправления ошибок в тексте, распознавания настроений в тексте или предоставления ответов на всевозможные вопросы. Более того, некоторые модели работают быстрее человеческого мозга и могут обрабатывать большие объемы информации. В этой дипломной работе мы приводим результаты проекта, посвященного обработке форм персональных данных. Сам проект представляет собой ETL-процесс (извлечение, преобразование, загрузка), который использует несколько тонко настроенных моделей глубинного обучения для исправления орфографии, обнаружения и упорядочивания элементов имен и адресов, а также обычные методы, основанные на правилах и критериях, для исправления формата дат. Для тонкой настройки моделей мы сгенерировали наборы данных, схожие с содержимым пробной формы. В результате проекта мы разработали ETL для обработки предоставленных персональных данных на формах MS Excel на русском языке. ETL сочетает в себе подходы, основанные как на критериях и регулярных выражениях, так и на глубинном обучении (нейросети), для решения задач форматирования и проверки орфографии.

Выпускные квалификационные работы (ВКР) в НИУ ВШЭ выполняют все студенты в соответствии с университетским Положением и Правилами, определенными каждой образовательной программой.

Аннотации всех ВКР в обязательном порядке публикуются в свободном доступе на корпоративном портале НИУ ВШЭ.

Полный текст ВКР размещается в свободном доступе на портале НИУ ВШЭ только при наличии согласия студента – автора (правообладателя) работы либо, в случае выполнения работы коллективом студентов, при наличии согласия всех соавторов (правообладателей) работы. ВКР после размещения на портале НИУ ВШЭ приобретает статус электронной публикации.

ВКР являются объектами авторских прав, на их использование распространяются ограничения, предусмотренные законодательством Российской Федерации об интеллектуальной собственности.

В случае использования ВКР, в том числе путем цитирования, указание имени автора и источника заимствования обязательно.

Реестр дипломов НИУ ВШЭ