О проекте
«Ровесники Вышки»
2022 год — юбилейный для Высшей школы экономики, которой исполняется 30 лет. Здесь работают и учатся немало ее ровесников, родившихся, как и Вышка, в 1992 году. 30-летние выпускники НИУ ВШЭ заняты сейчас во всех сферах нашей жизни — от бизнеса и финтеха до IT и современного искусства. Чем живут и за что любят свой университет, они расскажут в новом проекте редакции портала «Ровесники Вышки».
Выпускник ВШЭ Сергей Михайлов в юности хотел стать дипломатом, пошел учиться на историка, а работает в сфере компьютерной лингвистики. В интервью «Ровесникам Вышки» он рассказал о работе с фармкомпаниями, речевых актах Джона Остина и о том, что одна бесконечность может быть больше другой.
— Как вы попали в Вышку?
— Я родился в Балаково Саратовской области, в юношестве мечтал о переезде в Петербург. Выбирая вуз, я продолжал об этом думать, хотя рассматривал и Москву. У меня была странная идея, что я хочу быть дипломатом, но в МГИМО я не проходил. Зато попал в первый набор питерского истфака Вышки. Это был 2012 год. Я подумал, что все складывается идеальным образом и истфак в целом достойная альтернатива с точки зрения образования. Однако во время учебы кардинально изменились и мои ценности, и восприятие того, чем я хочу заниматься. В конце 1-го курса я даже не вспоминал о том, чего хотел в школе.
— А история вас еще интересовала?
— Сложный вопрос. Одно дело — интересоваться историей в школе, смотреть передачи, что-то читать, играть в исторические видеоигры, а другое дело — изучать историю в первом наборе на факультете, который очень сильно заточен на науку. Было интересно, но нелегко: очень много домашних заданий, проектов.
Где-то на 2-м курсе я пытался разбудить в себе научного историка, искал тему, которой я бы мог заниматься всю жизнь, — а ставки там ровно такие. В итоге писал курсовые работы и диплом про участие Российской империи в создании Всемирного почтового союза. Не могу сказать, что меня научная работа сильно увлекала, хотя я работал и научным ассистентом, и ассистентом преподавателя долгое время. Мне было прикольно, но связывать свою жизнь с наукой я не хотел.
Я считаю себя человеком практического склада ума. Мне важно, когда я что-то делаю, видеть конечный результат. А наука не имеет конца и края: ты бесконечно можешь чем-то заниматься и никогда не докопаться до истины. Понятно, что работа каждого ученого — это вклад в мировое море науки, но это не тот формат, который меня удовлетворял.
Тем не менее я регулярно участвовал во всякой академической активности на факультете. И во время работы в научно-учебной группе, посвященной созданию геоинформационных систем, мы познакомились с компьютерными лингвистами из московской Вышки. Я загорелся желанием попробовать себя в этой сфере. И поступил в магистратуру московской Вышки на компьютерную лингвистику.
— Чем она вам понравилась?
— В первую очередь темой изучения языка, предполагаемой связью между сознанием и языком. Эта тема меня очень привлекала, еще когда мы в бакалавриате проходили теорию речевых актов Джона Остина или изучали работы Людвига Витгенштейна. Притом что компьютерная лингвистика больше не про философский подход к языку, а про практику: например, съездить в экспедицию, собрать данные, потом их оцифровать и построить на этом аналитику.
Кроме того, мне нравится симбиоз гуманитарных тем и цифровых методов их изучения. У нас в магистратуре была математика, и она реально расширила границы моего сознания: я начал думать о вещах, о которых никогда раньше не думал. На первой лекции по математике мы сравнивали две бесконечности чисел, и я помню, что ехал домой и пытался осознать идею, что одна бесконечность может быть больше другой.
— А программировать вы умели?
— На 4-м курсе бакалавриата я начал осваивать Python, но, конечно, мои сокурсники по магистратуре имели намного более серьезный бэкграунд, некоторые перешли напрямую с технических специальностей. А я, по сути, глобально поменял сферу жизни и воспользовался шансом выучить что-то новое. Первый год магистратуры я активно пытался войти в ритм, догнать своих коллег. Это было тяжело, но я открыл для себя абсолютно новую вселенную — цифровых методов, программирования, лингвистики как науки. Я кайфовал от процесса. Мне нравилось осваивать новое, узнавать, как устроен язык, как его изучали. Это все меня очень завораживало и мотивировало.
— Какая была ваша первая работа как компьютерного лингвиста?
— В начале 2-го курса магистратуры меня пригласила на работу мой научный руководитель Ирина Ефименко. Тогда в ее компании Semantic Hub начали набирать людей в отдел компьютерной лингвистики. Я был одним из первых сотрудников и с тех пор не менял работу. Чем занимается наш отдел? Если в одном предложении, то это обработка естественного языка (Natural Language Processing, NLP) в медицине. Если чуть подробнее, то мы пишем программы, которые извлекают медицинские факты из текстов открытых источников (соцсети, форумы) на разных языках.
— То есть можно написать программу для определенного языка, даже не зная его?
— В этом и суть: компьютерный лингвист необязательно должен владеть языком как носитель. Нам важнее знать, как работает язык, какие методы мы можем использовать для его анализа, с какой стороны технически подойти для того, чтобы что-то извлечь, что-то распознать.
Когда мы работаем с иностранными языками, мы обычно привлекаем экспертов по языку. Просим сделать нам ликбез по языку, рассказать интересующие нас вещи, в первую очередь то, как работает морфология, синтаксис, есть ли нюансы, связанные со сленговыми выражениями в определенных темах, языковыми конструкциями, которые меняют значение, исходя из медицинского контекста. Мы оцениваем язык также и количественно. Если необходимо, можем посчитать частотность слов, распознать специализированную лексику. Кроме работы с экспертами, я использую онлайн-переводчики, читаю разборы грамматики — это все необходимо для того, чтобы писать программы.
— Вышка учила вас этим навыкам?
— На компьютерной лингвистике мы знакомились с разными методами, которые позволяют это делать. Чаще мы работали с русским и английским языками, но другие языки тоже бывали в качестве примера. Есть библиотеки в Python, которые позволяют работать с очень разными языками. Если ты освоил такую библиотеку для работы с английским, то тебе ничего не мешает тут же переключиться на работу с условным немецким.
— Кому и зачем нужны ваши услуги?
— Наши основные заказчики — фармкомпании. Допустим, компания X собирается запустить новый препарат для заболевания Y. Чтобы запуск прошел успешно, компания X хочет собрать как можно больше информации о пациентах: какие у них потребности, как заболевание Y сказывается на их качестве жизни, к каким специалистам они обращаются, какие симптомы вызывают наибольший дискомфорт и т.д. С этими вопросами компания X идет к нам. И что же делаем мы? Из открытых источников, где люди обсуждают эти темы, мы «краулим» (собираем) большие объемы текстовых данных и пишем программы, которые извлекают разные факты. Например, человек пишет о том, что в его городе нет профильного специалиста по заболеванию Y. Это пример факта, который мы извлекаем, наравне со многими другими, и затем наш аналитический отдел по этим фактам строит аналитику, инфографику и передает это компании X. Для фармкомпаний подобная аналитика — это элемент системы поддержки принятия решения. Они могут эти данные использовать для своих целей: например, познакомить врачей с выявленными особенностями пациентской лексики, чтобы задавать более точные вопросы пациентам об их состоянии. Или принять решение о том, что в какой-то регион следует поставлять большие или меньшие объемы конкретного препарата.
— У вас есть конкуренты или это уникальное предложение на рынке?
— Есть компании, которые занимаются вещами, близкими к тому, что делаем мы, но не совсем тем же самым. Наша сфера довольно сложная и комплексная, поэтому удается пока не конкурировать напрямую. В целом фармкомпании только-только начинают по-настоящему использовать возможности больших данных, интерес к этому действительно серьезный.
Но сама идея, что можно анализировать открытые данные из интернета и получать новые знания, не то чтобы новая. Все больше компаний и сфер понимают, что Сеть — важный источник полезной и коммерческой исследовательской информации, которую можно использовать. Тем не менее это еще не распространено повсеместно. Так что для фармы мы новаторы.
— Чем занимаются ваши сокурсники по магистратуре?
— Мы все занимаемся NLP или смежными темами, так что мы по-прежнему на одной волне с точки зрения дружеских взаимоотношений и рабочего опыта. Можем иногда спросить совета друг у друга, несмотря на то что работаем в разных сферах. Скажем, я работаю с текстом и медициной, мой друг — с картинками и нейронными сетями, но мы можем друг другу что-то подсказать, новую мысль закинуть.
— Чего вам не хватало в процессе учебы?
— В бакалавриате мы учились так много, что мне иногда недоставало студенческой жизни. Я играл в «Что? Где? Когда?», посещал разные студенческие мероприятия. Но наш факультет был отпочкован от основной студенческой движухи. Это было связано еще и с тем, что для учебы нам сняли несколько офисов по соседству с учебными корпусами, и мы ходили туда как на работу. А хотелось находиться рядом с другими факультетами, чтобы столовка была огромная, чтобы в коридорах толпился народ… Но, чтобы настроить все, понадобилось время. В магистратуре со студенческой жизнью было лучше: у нас образовалось замечательное комьюнити, мы дружим до сих пор.
— Ощущалось, что НИУ ВШЭ в Москве и в Санкт-Петербурге — одно учебное заведение?
— Да. LMS везде один, стандарты, символика, мерч. К нам на истфак приезжали преподаватели из московской Вышки, а во время работы с научно-учебной группой мы кооперировались с ребятами из Москвы. Но по ощущениям московская Вышка более строгая. В Питере чувствовалось больше свободы в самом широком смысле.
— Что бы вы пожелали Вышке на 30-летие?
— Оставаться вузом, который не боится принимать новые вызовы в науке, любит и ценит инновации. И чтобы стремление к новаторству всегда окупалось и двигало Вышку вперед.
— Кто, на ваш взгляд, человек Вышки?
— Человек с пытливым умом, который никогда не удовлетворяется стандартными ответами и всегда ищет способ узнать что-то новое даже о привычном. Научный подход, критика источника, попытки рассмотреть вопрос со всех сторон — вот характерные черты вышкинца.