Мы используем файлы cookies для улучшения работы сайта НИУ ВШЭ и большего удобства его использования. Более подробную информацию об использовании файлов cookies можно найти здесь, наши правила обработки персональных данных – здесь. Продолжая пользоваться сайтом, вы подтверждаете, что были проинформированы об использовании файлов cookies сайтом НИУ ВШЭ и согласны с нашими правилами обработки персональных данных. Вы можете отключить файлы cookies в настройках Вашего браузера.

  • A
  • A
  • A
  • АБВ
  • АБВ
  • АБВ
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Студенты магистратуры побывали на мастер-классе по тематическому моделированию

Участники мастер-класса узнали, как качественно извлечь из огромного массива текстов проблемные темы, связанные с различными этносами.

Студенты магистратуры побывали на мастер-классе по тематическому моделированию

В пятницу 17 марта студенты магистерской программы «Компьютерная лингвистика» приняли участие в мастер-классе по тематическому моделированию. На нём слушатели узнали как о простейших традиционных моделях (LSA/LDA), так и о более сложных современных решениях, основанных на регуляризации.

Также спикер Мурат Апишев рассказал аудитории об open-source библиотеке тематического моделирования больших текстовых коллекций BigARTM и её интерфейсах для языков программирования Python и C++ . На примере BigARTM были показаны разработки из реального проекта по извлечению тем, связанных с т.н. «этно-проблемами». 

В качестве входных данных выступали записи в LiveJournal, а также словарь этнонимов и иных слов, указывающих на этническую принадлежность. С помощью BigARTM в текстах были выделены темы, связанные с различными этносами.

Автор мастер-класса Мурат Апишев — один из разработчиков библиотеки BigARTM, сотрудник Группы алгоритмов антиспама компании «Яндекс».

Видеозапись мастер-класса: