• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Диффузионный guidance механизм для эффективной стилизации и редактирования изображений с помощью text-to-image диффузионных моделей

ФИО студента: Иванова Александра Александровна

Руководитель: Аланов Айбек

Кампус/факультет: Факультет компьютерных наук

Программа: Математика машинного обучения (Магистратура)

Оценка: 10

Год защиты: 2024

Несмотря на последние достижения в области крупномасштабных генеративных text-to-image моделей, манипулирование реальными изображениями с помощью этих моделей остается сложной задачей. Основные ограничения существующих методов редактирования заключаются в том, что они либо не могут работать с неизменным качеством на широком диапазоне редактирования изображений, либо требуют трудоемкой настройки гиперпараметров или тонкой настройки диффузионной модели для сохранения специфического для изображения внешнего вида входного изображения. Большинство из этих подходов используют информацию об исходном изображении через промежуточное кэширование признаков, которое вставляется в процесс генерации. Однако такая техника приводит к искажению модели, что приводит к противоречивым результатам. Мы предлагаем новый подход, основанный на модифицированном процессе диффузионной выборки с помощью механизма наведения. В этой работе мы исследуем технику самонаведения для сохранения общей структуры исходного изображения и внешнего вида его локальных областей, которые не подлежат редактированию. В частности, мы явно вводим функции энергии, сохраняющие компоновку, которые направлены на сохранение локальной и глобальной структуры исходного изображения. Кроме того, мы предлагаем механизм изменения масштаба шума, который позволяет сохранять распределение шума, балансируя нормы classifier-free guidance и предложенных нами функций энергии во время генерации. Это приводит к более последовательным и качественным результатам редактирования. Такой подход не требует тонкой настройки диффузионной модели и точного процесса инверсии. В результате предложенный метод обеспечивает быстрый и качественный механизм редактирования. В наших экспериментах мы показали с помощью исследования пользователей и количественного анализа, что предложенный метод позволяет получить желаемое редактирование, которое более предпочтительно для человека, а также достичь лучшего компромисса между качеством редактирования и сохранением исходного изображения.

Текст работы (работа добавлена 2 июня 2024 г.)

Выпускные квалификационные работы (ВКР) в НИУ ВШЭ выполняют все студенты в соответствии с университетским Положением и Правилами, определенными каждой образовательной программой.

Аннотации всех ВКР в обязательном порядке публикуются в свободном доступе на корпоративном портале НИУ ВШЭ.

Полный текст ВКР размещается в свободном доступе на портале НИУ ВШЭ только при наличии согласия студента – автора (правообладателя) работы либо, в случае выполнения работы коллективом студентов, при наличии согласия всех соавторов (правообладателей) работы. ВКР после размещения на портале НИУ ВШЭ приобретает статус электронной публикации.

ВКР являются объектами авторских прав, на их использование распространяются ограничения, предусмотренные законодательством Российской Федерации об интеллектуальной собственности.

В случае использования ВКР, в том числе путем цитирования, указание имени автора и источника заимствования обязательно.

Реестр дипломов НИУ ВШЭ