Мы используем файлы cookies для улучшения работы сайта НИУ ВШЭ и большего удобства его использования. Более подробную информацию об использовании файлов cookies можно найти здесь, наши правила обработки персональных данных – здесь. Продолжая пользоваться сайтом, вы подтверждаете, что были проинформированы об использовании файлов cookies сайтом НИУ ВШЭ и согласны с нашими правилами обработки персональных данных. Вы можете отключить файлы cookies в настройках Вашего браузера.

  • A
  • A
  • A
  • АБВ
  • АБВ
  • АБВ
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Открылась новая лаборатория Стохастических алгоритмов и анализа многомерных данных

Международная конференция «Структурное оценивание в высокоразмерных задачах»

На факультете компьютерных наук НИУ ВШЭ открылась Международная лаборатория стохастических алгоритмов и анализа многомерных данных (HDI Lab). О фундаментальных и прикладных аспектах исследований лаборатории, как они связаны с машинным обучением, а также об академических связях России и Франции рассказывают научный руководитель HDI Lab Эрик Мулине и главный научный сотрудник Владимир Спокойный.

HDI Lab объединяет исследователей, работающих на стыке математических дисциплин от теории вероятностей до современной математической статистики, для решения актуальных задач анализа данных. Формально лаборатория существует с апреля 2018 года, но официальным запуском стало проведение в сентябре международной конференции «Структурное оценивание в высокоразмерных задачах». Мероприятие также открыло серию ежегодных встреч исследователей из Франции и России, работающих в области теории вероятностей и математической статистики.

Математические методы в машинном обучении: зачем учить ИИ сомневаться?

Эрик Мулине, научный руководитель HDI Lab

Наша лаборатория будет заниматься разработкой новых методов и подходов машинного обучения, которые в дальнейшем могут быть использованы в различных приложениях. Мы проверим теорию практикой. Сегодня перед учеными открыты широкие возможности для исследований в области машинного обучения и искусственного интеллекта. Однако было бы ошибкой ограничиваться лишь методами традиционной математической статистики. С точки зрения математики, машинное обучение — это продолжение статистики. Но если вы спросите студентов, чем они хотят заниматься — статистикой или искусственным интеллектом, — мне кажется, что они выберут ИИ. В нашей лаборатории представлены как теоретики, так и люди, более направленные на приложения, к ним я отношу и себя. Вместе мы способны предложить новые интересные методы для прикладных исследований и представить результаты на конференциях по машинному обучению.

Существует много областей машинного обучения, которые разрабатываются очень быстро, например, количественная оценка неопределенности, разработка новых байесовских методов, топологический анализ данных, глубинное обучение, справедливый дискриминантный анализ.

Алгоритмы машинного обучения часто бывают слишком «самонадеянны», они должны уметь признаваться в своем «незнании» 

Это имеет большое значение, например, при создании беспилотных автомобилей. Машина анализирует в реальном времени объекты на дороге. Если беспилотник замечает абсолютно новый объект, который не видел до этого, то он должен сообщить об этом оператору и замедлиться или полностью передать управление водителю. Таким образом, машина должна уметь точно определять — уверена ли она в принимаемом решении, или необходимо вмешательство водителя.

Машина учится не так, как человек. Для того чтобы достичь такой же эффективности, нужно еще многое сделать. Я считаю, что, например, уже через 10 лет компьютер сможет полностью понимать человеческую речь. Тем не менее, компьютер не заменит человеческий мозг. Это как с изобретением летательных аппаратов: самолеты не летают, как птицы, но они летают. Кроме того, ни одна птица не может переносить 500 человек на скорости 1000 км/ч. Компьютеры смогут выполнять определенные задачи, но они будут выполнять их не так, как люди, хотя и более эффективно. Для некоторых задач по-прежнему будет нужен человек.

Владимир Спокойный, главный научный сотрудник HDI Lab

Анализ многомерных данных: как извлекать полезную информацию из огромных массивов?

Анализ больших массивов многомерных данных — это действительно, как сейчас говорят, челлендж, т.е. сложнейшая задача, не допускающая простого универсального решения. В современном мире мы со всех сторон наблюдаем обилие информации, которая копится всеми возможными способами: это изображения, речевые данные, интернет-сети. Казалось бы, дефицит информации побежден. Но перед человечеством возникла новая проблема — как эту накопленную в огромных массивах данных информацию использовать, чтобы извлечь из нее нужную и понятную нам?

Типичный пример — цифровое изображение. Формально это вектор размерности в несколько миллионов — по числу пикселей. Как понять, что изображено на картинке? Есть там кошка, собака, человек? Как понять, один ли человек на разных фото? Человеческий глаз это делает легко, но как научить компьютер?

Кроме того, что этих данных очень много, они имеют сложные, отчасти вероятностные структуры — то есть в них есть элемент неопределенности. Природа неопределенности может быть различной, зависеть от ошибок измерения или передачи данных. Например, в медицине неопределенность связана с условиями анализов, состоянием пациента, а в социологических данных случайность обусловлена влиянием субъективных факторов. Вероятность также относится к любому будущему событию — например, к курсу акций или прогнозу погоды: его можно дать с какой-то степенью вероятности, но нельзя дать точно.

Поэтому мы занимаемся извлечением информации из сложных данных при имеющемся элементе неопределенности — стохастической (вероятностной) природе данных. Это огромная область. Туда входят как различные разделы прикладной математики, так и современные методы машинного обучения, например, глубинные сети. Наша лаборатория ставит своей целью развитие математических методов и подходов к анализу сложных структурированных данных.

Основополагающее предположение, лежащее в основе современных подходов анализа данных, состоит в том, что даже очень сложные данные, такие как изображения, видео, социальные сети, имеют определенную структуру. Например, важную роль в распознавании фотографий играют форма и расположение контуров глаз, носа, рта. Знание этих структур сильно облегчило бы анализ, и вопрос как раз в том, как извлечь из данных структурную информацию и как ее эффективно использовать. Для этого мы сочетаем методы из современных областей прикладной математики: статистики, теории вероятности, теории оптимизации, оптимального управления, уравнения в частных производных — и пытаемся применить к анализу сложных данных неизвестной структуры.

В мире аналогичная нашей деятельности работа проходит под именем statistical learning theory. Если машинное обучение и искусственный интеллект больший упор делают на создание новых алгоритмов, то learning theory — это развитие и анализ структурных подходов к анализу данных и понимание того, насколько эти методы эффективны. 

Например, сейчас все без ума от глубинных сетей, но почему это работает, пока никто толком не объяснил. Теоретических основ пока не разработано 

Мы пытаемся не просто построить модель данных и оценить ее параметры как в статистике — этим занимались ученые в XX веке. Структурное моделирование гораздо сложнее: сначала надо на основе имеющихся практических примеров понять вид и форму структурных предположений о данных. Это позволяет радикально снизить размерность и сложность задачи.  Далее оцениваются и структурные параметры, и параметры модели.

Важный вопрос в современном анализе данных — построение эффективных (скалируемых) алгоритмов. Сложность решения должна быть пропорциональна объему данных. Оказывается, есть так называемые NP-сложные задачи, которые известны как нерешаемые алгоритмически, их сложность слишком велика для любого компьютера, даже квантового. Типичная такая задача — перебор всех возможных подмножеств заданного множества или всех возможных сценариев развития сложной системы.Исследование подобных задач требует привлечение методов статистики и машинного обучения с одной стороны, и теоретической информатики с другой.

Из практических задач лаборатории — анализ финансовых рынков, анализ биомедицинских изображений, даже видеопотоков, анализ графов и сетей. Это огромная индустрия, в которой задействованы многие институты и фирмы. Мы не можем конкурировать с огромными коллективами, разрабатывающими программные пакеты.  Но мы пытаемся получить новые результаты, которые позволят понимать, какие методы работают эффективно. А также пытаемся разрабатывать новые методы, основанные на структурном моделировании.


Фото: Михаил Дмитриев, Высшая школа экономики

О партнерах лаборатории, планах на будущее и академическом сотрудничестве Франции и России

Владимир Спокойный: Основные наши партнеры представлены на конференции: это Политехническая школа во Франции (École Polytechnique), Высшая нормальная школа в Париже, ENSAE ParisTech, Университет Тулузы, я сам представляю также Берлинский университет им. Гумбольдта. У нас есть лаборатория, есть несколько грантов РНФ и еще ждем в декабре результатов другого большого гранта. Грантов много, но сейчас важно сфокусироваться на углублении текущей кооперации. Мы только начали и надеемся на интенсивное развитие.

На примере совместной магистерской программы «Статистическая теория обучения», которую мы проводим совместно со Сколтехом, уже отчётливо понятно, что если ФКН имеет 200 человек бакалавриата, к нам придет от силы десятая часть. И это хорошо, больше нам не надо. Мы предлагаем им конкретный путь, как из студенческого возраста прийти к научной работе в институте или университете, было бы желание.

Эрик Мулине: Мы также планируем сотрудничать с лабораторией компании Самсунг, руководитель Дмитрий Ветров. Наши лаборатории имеют очевидные возможности для совместных исследований: лаборатория Дмитрия больше фокусируется на прикладных аспектах машинного обучения, в то время как мы скорее сосредоточены на «математике» машинного обучения. Таким образом, мы могли бы отлично дополнять друг друга.

У Политехнической школы, в которой я сейчас работаю, давние партнерские отношения с ВШЭ, и мы намерены развивать это сотрудничество. Пару лет назад был подписан меморандум о сотрудничестве, но в нем было мало конкретики, и поток студентов из Москвы в Париж и из Парижа в Москву был совсем небольшой. Поэтому мы планируем расширять сотрудничество, тем более что ВШЭ — наш основной партнер.

 Примечательно, что у России и Франции много общего в смысле научной культуры

Например, в наших странах студенты, специализирующиеся в компьютерных науках, достаточно глубоко изучают математические дисциплины по сравнению с другими зарубежными университетами . Хорошее владение математическим аппаратом очень важно для проведения исследований в области статистического машинного обучения. Поэтому нам проще сотрудничать. Также отмечу, что во Франции работает достаточно много специалистов по статистике из России и бывшего Советского Союза, например, Александр Цыбаков, Олег Лепский, Юрий Голубев, Юрий Кутоянц. Они очень активно обучают студентов.

Большинство специалистов по статистическому машинному обучению во Франции имеют тесные связи с Россией. Исторически Россия является местом, где активно развивалась теория статического машинного обучения и непараметрической статистики.  Достаточно назвать такие  великие имена в статистике, как Владимир Вапник, Ильдар Ибрагимов, Рафаил Хасьминский, которые   вместе со своими талантливыми учениками заложили основы современной статистики.

Робот Гэри рекомендует

Мы создали робота Гэри и назвали его в честь Гэри Селдона, умеющего предсказывать будущее персонажа писателя-фантаста Айзека Азимова. В его основе модель машинного обучения. Она подбирает новости исходя из поведенческих метрик пользователей на портале Вышки.

Не волнуйтесь, мы не собираем для этого персональные данные.

На информационном ресурсе применяются рекомендательные технологии (информационные технологии предоставления информации на основе сбора, систематизации и анализа сведений, относящихся к предпочтениям пользователей сети «Интернет», находящихся на территории Российской Федерации). Подробнее…

«Вместо компьютерных игр изучайте математику, комбинаторику, числа Каталана»

В начале ноября прошел финал ИТ-чемпионата True Tech Champ от МТС, собравшего более 12,5 тысячи школьников, студентов и молодых специалистов. Победителем трека «Алгоритмическое программирование» стал студент факультета компьютерных наук (ФКН) НИУ ВШЭ Александр Бабин.

19 ноября, 2024 г.

Как обеспечить себе место в магистратуре НИУ ВШЭ заранее

1 декабря состоится вебинар «В магистратуру Вышки без экзаменов», на котором представители университета расскажут о проектах преднабора, дающих преференции при поступлении в магистратуру. Мероприятие ориентировано на студентов и выпускников бакалавриата/специалитета, заинтересованных в дальнейшем обучении. Для участия требуется регистрация.

13 ноября, 2024 г.

НИУ ВШЭ открывает прием заявок на юбилейную Ясинскую конференцию

Высшая школа экономики объявила о приеме заявок с научным докладом на XXV Ясинскую (Апрельскую) международную научную конференцию. Программа конференции ориентирована на пять научных тем по проблемам развития экономики и общества, сохранит междисциплинарность и будет открыта для участия ведущих ученых России и мира. Основные мероприятия XXV ЯМНК пройдут в Москве с 15 по 18 апреля 2025 года.

18 ноября, 2024 г.

Путь девушек в IT: исследование Яндекс Образования и НИУ ВШЭ

Более четверти студентов образовательных проектов Яндекса — девушки, и их количество с годами растет. Наибольшее число женщин учится на совместных с вузами бакалаврских и магистерских программах (41%) и в сервисе онлайн-образования Практикум (42%). В Школе анализа данных их доля составляет 36%, в Лицее 24%. С целью выяснить, что помогает девушкам на пути в IT, Яндекс Образование и НИУ ВШЭ провели исследование «Факторы, способствующие профессиональному закреплению женщин в IT».

21 ноября, 2024 г.