«Мы вернулись в Москву воодушевленными и полными идей»
Студенты магистерской программы «Компьютерная лингвистика» Мария Пономарёва и Кирилл Милинцевич представили на конференции EMNLP 2017 в Копенгагене нейросетевой акцентуатор для русского языка. Мы публикуем их вдохновенно-ироничный отчет о поездке.
Копенгаген встретил нас теплой, но дождливой погодой. Люди, пробираясь через толпы велосипедистов, лениво шли куда-то по своим датским делам. Похожая атмосфера царила и на самом воркшопе SCLeM (Subword and Character LEvel Models in NLP). Первым приглашенным спикером был Томаш Миколов, доклад которого должен был состояться в 9:10. Мы прибыли примерно в девять утра, и, представ перед длинной змейкой очереди на регистрацию, боялись не успеть на его доклад. Однако, увидев Томаша на хвосте этой змейки, мы почувствовали себя немного спокойнее.
Всего нам представилась возможность послушать два доклада (Subword-level Information in NLP using Neural Networks, Tomas Mikolov и Chewing the Fat about Mincing Words, Noah Smith), посвященных относительно новому движению в области NLP, а именно разработке языковых моделей, основанных на символах и подсловных единицах (Subword and Character level models, SCLeM).
Мы привезли на конференцию наш акцентуатор. Он представляет собой рекуррентную нейросеть, расставляющую ударения в тексте на русском языке. Задача его создания появилась в рамках научно-исследовательского семинара (руководитель нашего НИСа — Анатолий Старостин, разработчик компании Яндекс) и курса машинного обучения (преподаватель — Екатерина Черняк). На постерной сессии мы рассказывали об экспериментах с нейросетями и о том, как важно правильно подобрать обучающую выборку. Результаты нашей работы опубликованы в сборнике конференции. (Авторы статьи: М.Пономарева, К.Милинцевич, Е.Черняк, А. Старостин).
Рабочим языком конференции был английский, однако мы часто слышали от людей, после их долгого и вдумчивого взгляда на наш постер, родное «ну так и что?» Приятно было видеть на конференции большое количество соотечественников, заинтересованных в продвижении разработок в области NLP для русского языка.
Воркшоп SCLeM проводился впервые, но организаторы планируют сделать его постоянным. Идея работать с символьными n-граммами для решения самых разных задач (помимо традиционной задачи распознавания языка) кажется все более привлекательной, большую популярность приобретают символьные эмбеддинги. В частности, Томаш Миколов рассказывал про молодой проект fastText, развивающий принципы word2vec. На panel discussion звучали самые смелые идеи и предложения не мелочиться и скорее перейти на уровень байтов и пикселей, и иногда это звучало настолько убедительно, что иные из нас всерьез забеспокоились о судьбе компьютерной лингвистики с парсерами и теггерами (но мы-то знаем, что истина где-то посередине). Мы вернулись в Москву воодушевленными и полными идей.
Артемова Екатерина Леонидовна