Разработка эффективных параметризаций для генеративных состязательных сетей в задачах генерации изображений и речиExploring efficient parameterizations for gans in image and speech generation

Соискатель:

Руководитель:

Ветров Дмитрий Петрович (др. работы под рук-вом)

Члены комитета:

Деркач Денис Александрович (НИУ ВШЭ, PhD, председатель комитета), Войнов Андрей Сергеевич (Google, к.ф.-м.н., член комитета), Конушин Антон Сергеевич (АНО "Институ т искусственного интеллекта", к.ф.-м.н., член комитета), Лемпицкий Виктор Сергеевич (Cinemersive Labs, к.ф.-м.н., член комитета), Николенко Сергей Игоревич (Санкт-Петербургское отделение Математического института им. В.А. Стеклова РАН, д.ф.-м.н., член комитета)

Диссертация принята к предварительному рассмотрению:

6/13/2024

Диссертация принята к защите:

7/4/2024

Дисс. совет:

Совет по компьютерным наукам

Дата защиты:

10/10/2024

Generative Adversarial Networks (GANs) have excelled in generating high-quality data, with applications in computer vision and signal processing. However, their training typically requires large datasets, which can be impractical to obtain. This thesis addresses the challenge of training GANs on small datasets using domain adaptation techniques. It introduces efficient StyleGAN parametrizations and compact architectures for speech enhancement. The proposed domain modulation technique significantly reduces the number of parameters needed for StyleGAN training, enabling the HyperDomainNet model for multi-domain adaptation. Further developments led to efficient parametrizations like StyleSpace and Affine+. Additionally, this work explores crucial components of StyleGAN for effective domain adaptation and examines the properties of StyleSpace directions. In speech enhancement, the HiFi++ and FFC-SE models are presented, offering superior performance with fewer parameters. These contributions enhance the efficiency and applicability of GANs in data-limited scenarios.

Диссертация [*.pdf, 37.25 Мб] (дата размещения 8/5/2024)

Резюме [*.pdf, 3.86 Мб] (дата размещения 8/5/2024)

Summary [*.pdf, 3.80 Мб] (дата размещения 8/5/2024)

Публикации, в которых излагаются основные результаты диссертации

Alanov A., Titov V., Vetrov D. HyperDomainNet: Universal Domain Adaptation for Generative Adversarial Networks (смотреть на сайте журнала)

Shchekotov I., Andreev P., Ivanov O., Alanov A., Vetrov D. FFC-SE: Fast Fourier Convolution for Speech Enhancement (смотреть на сайте журнала)

Alanov A., Titov V., Nakhodnov M., Vetrov D. StyleDomain: Efficient and Lightweight Parameterizations of StyleGAN for One-shot and Few-shot Domain Adaptation (смотреть на сайте журнала)

Andreev P., Alanov A., Ivanov O., Vetrov D. HIFI++: A Unified Framework for Bandwidth Extension and Speech Enhancement (смотреть на сайте журнала)

Отзывы

Отзыв научного руководителя

Ветров Дмитрий Петрович (дата размещения 6/14/2024)

Отзыв члена Комитета

Деркач Денис Александрович (дата размещения 10/1/2024)
Николенко Сергей Игоревич (дата размещения 10/1/2024)
Конушин Антон Сергеевич (дата размещения 10/1/2024)
Войнов Андрей Сергеевич (дата размещения 10/1/2024)
Лемпицкий Виктор Сергеевич (дата размещения 10/1/2024)

Сведения о результатах защиты:

Комитет по диссертации рекомендовал присудить ученую степень кандидата наук (протокол № 2 от 10.10.2024); Решением диссертационного совета (протокол № 9 от 31.10.2024) присуждена ученая степень кандидата компьютерных наук.

Ключевые слова:

Domain adaptation, Generative Adversarial Networks (GANs), Model Parametrization, Speech Enhancement, StyleGAN