Мы используем файлы cookies для улучшения работы сайта НИУ ВШЭ и большего удобства его использования. Более подробную информацию об использовании файлов cookies можно найти здесь, наши правила обработки персональных данных – здесь. Продолжая пользоваться сайтом, вы подтверждаете, что были проинформированы об использовании файлов cookies сайтом НИУ ВШЭ и согласны с нашими правилами обработки персональных данных. Вы можете отключить файлы cookies в настройках Вашего браузера.

  • A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Диссертации, представленные на защиту и подготовленные в НИУ ВШЭ

Сортировка:по дате защитыпо имени научного руководителяпо имени соискателя

Показаны работы: 1 - 2 из 2

Разработка алгоритмов построения пайплайнов машинного обучения методами обработки естественного языка, основанными на данныхКандидатская диссертация

Руководитель:
Устюжанин Андрей Евгеньевич
Дисс. совет:
Совет по компьютерным наукам
Дата защиты:
13.05.2025
В диссертации рассматривается задача автоматического синтеза конвейеров машинного обучения (МО) из текстовых описаний задач на естественном языке, что является важным шагом в демократизации МО. Представлен фреймворк Linguacodus, который с использованием больших языковых моделей (БЯМ) генерирует компилируемый код из описаний задач, превосходя существующие решения по ключевым метрикам. Создан крупномасштабный корпус Code4ML, включающий 2,5 млн фрагментов кода, который в версии 2.0 дополнен методами планирования задач с использованием БЯМ, что позволило увеличить объем данных на 1,5 раза и улучшить их релевантность. Разработаны методы семантической классификации кода с применением предложенного дерева таксономии и автоматической генерации текстовых описаний задач на основе кода. Работа имеет значительную практическую ценность для автоматизации МО, предоставляя инструменты для снижения барьеров входа как для специалистов, так и для неспециалистов, и открывая перспективы для исследований и промышленного внедрения.
Диссертация [*.pdf, 10.79 Мб] (дата размещения 11.03.2025)
Резюме [*.pdf, 423.64 Кб] (дата размещения 11.03.2025)
Summary [*.pdf, 402.02 Кб] (дата размещения 11.03.2025)

Методы машинного обучения для контроля качества данных в научных экспериментахКандидатская диссертацияУченая степень НИУ ВШЭ

Соискатель:
Борисяк Максим Александрович
Руководитель:
Устюжанин Андрей Евгеньевич
Дисс. совет:
Совет по компьютерным наукам
Дата защиты:
15.10.2020
В современных экспериментах контроль качества данных играет ключевую роль. С ростом сложности экспериментальных установок контроль качества данных все сильнее и сильнее опирается на методы машинного обучения. В данной диссертации рассматриваются главные свойства систем контроля качества данных и связанные с ними задачи машинного обучения. Во-первых, рассматривается краеугольный камень контроля качества данных - детектирование аномалий. Показано, что существующие методы не полностью покрывают весь спектр задач детектирования аномалий и предлагается новое семейство методов, которые устойчивы к новым видам аномалий и несбалансированным обучающим выборкам. Во-вторых, предлагается алгоритм определения источников аномалий, который увеличивает возможности систем контроля качества данных. Дополнительно рассматриваются задачи сбора обучающих выборок для тренировки алгоритмов контроля качества данных, а именно: ручная разметка и генерация данных средствами компьютерных симуляций. Продемонстрировано, что активное обучение способно значительно снизить нагрузку на экспертов при ручной разметке данных. Чтобы гарантировать корректность обучения на сгенерированных данных, рассматривается задача тонкой настройки компьютерных симуляций и предлагается новое семейство состязательных дивергенций, позволяющих значительно ускорить процедуры тонкой настройки.
Диссертация [*.pdf, 6.77 Мб] (дата размещения 7.08.2020)
Резюме [*.pdf, 3.93 Мб] (дата размещения 7.08.2020)
Summary [*.pdf, 3.88 Мб] (дата размещения 7.08.2020)
  • Сбросить фильтры