Компьютерные лингвисты Вышки побывали на мастер-классах по DKPro и выделению игры слов
Студенты магистерской программы «Компьютерная лингвистика» НИУ ВШЭ приняли участие в серии мастер-классов доктора Тристана Миллера (Технический университет Дармштадта) – специалиста по автоматическому определению игры слов в тексте, а также одного из разработчиков открытой системы работы с неструктурированной информацией DKPro.
Инфраструктура DKPro разрабатывается в Техническом университете Дармштадта под руководством профессора Ирины Гуревич, директора лаборатории универсальной обработки знаний (UKP Lab). Основное назначение этой системы – обеспечить легкое переиспользование готовых компонентов высокоуровневой обработки естественного языка: морфологических, синтаксических и семантических парсеров, классификаторов, алгоритмов тематического моделирования, средств извлечения структурированной информации и т.п. Базой для DKPro служит Apache UIMA – открытый стандарт обработки естественного языка, разрабатываемый сообществом Apache Foundation.
В своём докладе доктор Тристан Миллер рассказывал о том, как исследователи и студенты могут использовать готовые компоненты DKPro, чтобы быстро получить обработанный текст – например, с размеченными именованными сущностями, синтаксической разметкой и т.д. Система позволяет быстро выстраивать цепочки из нескольких ресурсов для ступенчатой обработки текста и сэкономить таким образом много времени на подготовительных этапах исследования. Изначально DKPro написана на языке Java, однако её также можно использовать с помощью более простого скриптового языка Groovy и интегрировать в проекты на Python с помощью Jython.
После доклада Тристан Миллер ответил на вопросы участников мастер-класса, среди которых были как студенты-лингвисты, так и преподаватели школы лингвистики. В частности, обсуждалась возможность использования DKPro в университетской образовательной практике, в том числе на гуманитарных направлениях. Докладчик признал, что достаточно трудно вовлечь не-программистов в работу с инструментом без графического интерфейса, но отметил, что именно сейчас идет разработка такого веб-приложения на базе DKPro, которое будет доступно пользователям без опыта программирования.
Помимо рассказа о DKPro, Тристан Миллер сделал еще два доклада. Первый из них был посвящён его исследованию в области автоматического снятия лексической неоднозначности (Word Sense Disambiguation). Работа касалась одного специфического и крайне сложного случая неоднозначности – игры слов. Даже в языках с наиболее развитыми инструментами автоматической обработки компьютер пасует перед случаями вроде «Такси Сатурн – бьемся за каждого клиента», «A lumberjack’s world revolves on its axes», «I wasn't originally going to get a brain transplant, but then I changed my mind» и прочими каламбурами в духе анекдотов про Штирлица. Тристан рассказал о подходе, позволяющем автоматически обнаруживать игру слов в английском и указывать на присутствие в тексте двух различных значений. На втором докладе была представлена платформа CodaLab Competitions, позволяющая устраивать соревнования по программированию искусственного интеллекта. Кроме того, часть выступления Тристан посвятил разговору о применении компьютерными лингвистами системы верстки LaTeX.
Доклад Тристана Миллера был организован Международной научно-учебной лабораторией интеллектуальных систем и структурного анализа Факультета компьютерных наук НИУ ВШЭ.