• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Автоматическая очистка данных

ФИО студента: Майков Степан Валерьевич

Руководитель: Бурова Маргарита Борисовна

Кампус/факультет: Факультет компьютерных наук

Программа: Магистр по наукам о данных (Магистратура)

Оценка: 10

Год защиты: 2024

В эпоху больших данных качество данных стало иметь первостепенное значение для эффективного принятия решений и аналитики в различных отраслях. Традиционные методы очистки данных, часто ручные и трудоемкие, с трудом справляются с объемом, скоростью и разнообразием современных наборов данных, что приводит к значительным трудностям в поддержании точности и надежности данных. В этом исследовании представлен инновационный инструмент автоматической очистки данных, разработанный в виде пакета Python, предназначенного для интеграции методов глубокого обучения для повышения эффективности предварительной обработки данных. Используя модели, способные изучать сложные закономерности и зависимости в данных, инструмент автоматизирует выявление и исправление распространенных проблем с качеством данных, таких как выбросы, пропущенные значения и несоответствия в типах данных. Протестированный на различных наборах данных, включая транзакции клиентов, взаимодействие с социальными сетями и медицинские записи, этот инструмент демонстрирует значительные возможности по повышению качества данных при минимальном вмешательстве человека. Результаты показывают, что такой подход не только упрощает процесс очистки данных, но и значительно сокращает время и усилия, необходимые специалистам по обработке данных, позволяя им больше сосредоточиться на анализе, а не на подготовке данных. В этом документе подробно описывается процесс разработки, лежащая в его основе технология и оценка производительности инструмента, а также дается представление о его потенциальных применениях и преимуществах в различных отраслях, основанных на данных. Предлагаемое решение знаменует собой значительный прогресс в области управления данными, предполагая переход к более автоматизированным и интеллектуальным системам для поддержания целостности данных в эпоху цифровых технологий.

Текст работы (работа добавлена 31 мая 2024 г.)

Выпускные квалификационные работы (ВКР) в НИУ ВШЭ выполняют все студенты в соответствии с университетским Положением и Правилами, определенными каждой образовательной программой.

Аннотации всех ВКР в обязательном порядке публикуются в свободном доступе на корпоративном портале НИУ ВШЭ.

Полный текст ВКР размещается в свободном доступе на портале НИУ ВШЭ только при наличии согласия студента – автора (правообладателя) работы либо, в случае выполнения работы коллективом студентов, при наличии согласия всех соавторов (правообладателей) работы. ВКР после размещения на портале НИУ ВШЭ приобретает статус электронной публикации.

ВКР являются объектами авторских прав, на их использование распространяются ограничения, предусмотренные законодательством Российской Федерации об интеллектуальной собственности.

В случае использования ВКР, в том числе путем цитирования, указание имени автора и источника заимствования обязательно.

Реестр дипломов НИУ ВШЭ