Как настроить нейронную сеть меньшего размера без потери качества
Сотрудники факультета компьютерных наук ВШЭ представили доклады на крупнейшей международной конференции в области машинного обучения Neural Information Processing Systems (NIPS).
На сегодняшний день существует две крупнейшие международные конференции в области машинного обучения — Neural Information Processing Systems (NIPS) и International Conference on Machine Learning (ICML). Большинство значимых научных работ в данной сфере впервые представляются именно на этих конференциях.
NIPS проводится ежегодно, начиная с 1986 года. Основными элементами программы традиционно являются лекции приглашенных гостей, пленарные выступления (15 минут) и постерные доклады. Как правило, не более 1% от поданных работ получают статус пленарных докладов. Всего в этом году из 3240 присланных работ было принято 678, из них 40 были заявлены как пленарные. Кроме того, в этом году был поставлен новый рекорд по количеству участников — 7850 человек, в то время как в 2016 году их было 5600.
В отличии от большинства работ, представленных на конференции, которые носили практический характер, пленарный доклад доцента Департамента больших данных и информационного поиска ФКН ВШЭ Антона Осокина «On Structured Prediction Theory with Calibrated Convex Surrogate Losses» был посвящен теоретическим вопросам в одной из областей машинного обучения — структурном предсказании. В представленном им исследовании, впервые три такие задачи как consistency, сложность решения задач оптимизации и количественные характеристики сложности структуры были объединены в рамках одного формализма. «Наша работа создает теоретическую основу для практических исследований в области структурного предсказания, — говорит Антон. — Фактически мы определяем свойства задач, которые могут быть использованы для создания эффективных решений».
Не менее важную роль для эффективного решения задач играют и методы настройки нейронных сетей, применимые на практике. Использование нейронных сетей де-факто перевернуло такие области как анализ изображений и обработка естественного языка. Но у нейронных сетей есть и ряд недостатков, к примеру, сравнительно медленные и требующие много памяти алгоритмы обучения. В постерном докладе «Structured Bayesian Pruning via Log-Normal Multiplicative Noise» (Байесовский структурный прунинг нейросетей через мультипликативный Лог-Нормальный шум) сотрудников Международной лаборатории глубинного обучения и байесовских методов ВШЭ был представлен новый метод, позволяющий настроить нейронную сеть существенно меньшего размера без потери качества, а также ускорить модель в несколько раз. Стоит отметить, что байесовские методы для обучения разреженных моделей в машинном обучении применяли очень давно, но только недавно эти результаты удалось перенести на современные нейросетевые архитектуры.
«Это исследование мы провели с моими аспирантами Кирилом Неклюдовым, Дмитрием Молчановым и Арсением Ашухой, которые сейчас работают исследователями в Международной лаборатории глубинного обучения и байесовских методов, созданной на ФКН в январе 2017 года, — говорит заведующий Международной лаборатории глубинного обучения и байесовских методов, профессор-исследователь Дмитрий Ветров. — У Кирилла, новобранца группы и первого автора статьи, это был первый опыт подготовки научной публикации на столь высоком уровне и я очень рад и горд, что ему сразу удалось достичь такого успеха. К сожалению, Кирилл и Дмитрий не смогли попасть на конференцию из-за проблем с получением американской визы».
«Два доклада от сотрудников ФКН на одной из важнейших конференций в области нейросетей и машинного обучения — это серьезное достижение. И мы гордимся нашими коллегами, чья научная экспертиза так высоко ценится международным профессиональным сообществом» — сказал декан факультета компьютерных наук Иван Аржанцев.
Также с постерным докладом «Recycling Privileged Learning and Distribution Matching for Fairness» выступил научный руководитель Международной лаборатории глубинного обучения и байесовских методов Нови Квадрианто. В рамках дополнительных секций (workshops) выступали представители МФТИ и Яндекса.
Аржанцев Иван Владимирович
Декан факультета компьютерных наук
Ашуха Арсений Павлович
Стажер-исследователь Международной лаборатории глубинного обучения и байесовских методов
Ветров Дмитрий Петрович
Руководитель Департамента больших данных и информационного поиска
Молчанов Дмитрий Александрович
Преподаватель Департамента больших данных и информационного поиска
Неклюдов Кирилл Олегович
Стажер-исследователь Международной лаборатории глубинного обучения и байесовских методов
Осокин Антон Александрович
Доцент Департамента больших данных и информационного поиска