Семинар "Математическая экономика"
30 марта в 11.30 в Национальном исследовательском университете "Высшая школа экономики" состоялось заседание Общемосковского семинара «Математическая экономика».
Тема: «Метод таксономического контент-анализа тематических текстовых коллекций»
Докладчик: Б.Г. Миркин (ФКН, МЦАВР НИУ ВШЭ)
Руководители семинара:
- д.ф.-м.н. В.И.Данилов
- академик В.М.Полтерович
Аннотация:
Исходные данные для метода - коллекция текстов, относящихся к какой-либо предметной области и таксономия - корневое дерево понятий этой области (чем ближе к корню, тем общее). Листовые понятия таксономии выступают элементарными единицами смысла. Метод включает три этапа:
(1) построение матрицы оценок релевантности "тексты - листовые понятия";
(2) формирование нечетких кластеров листовых тем (так сказать, релевантных одним и тем же текстам);
(3) оптимальный подъем нечетких кластеров в таксономии в так называемые "головные темы".
Качество интерпретации результатов подъема определяет степень успешности применения метода. Все три этапа осуществляются собственными методами, так сказать, in-house. Каждый прошел довольно серьезную апробацию в соответствующей среде (методы анализа текстов и методы нечеткого кластер-анализа).
В настоящее время критерием оптимальности этапа (3) является максимальная экономия суммарного штрафа за внесение новых элементов смысла: "головные понятия", "пробелы" и "выбросы". Однако удалось сформулировать критерий и метод максимального правдоподобия для этой задачи - в настоящее время занимаемся реализацией.
Метод был применен к анализу двух коллекций научных статей в области науки данных, а также к коллекциям: (а) отзывов о ресторанах и кафе г. Москвы, (б) об автомобилях, продаваемых через интернет, (с) всех статей, опубликованных в журнале "Journal of Classification" (Springer) в 1984-2018 гг, и др.
В работе участвовали S. Nascimento (Lisbon, Portugal), T. Fenner (London, UK), Д. Фролов (ФКН и МЦАВР НИУ ВШЭ), а также студенты ФКН НИУ ВШЭ А. Власов, А. Ушакова, Д. Бабин, А. Гужарина, А. Ситников, А. Денисенко, Ж. Айрапетян. Работа была поддержана грантом на выполнение исследовательского проекта «Разработка методов структуризации и концептуализации текстовых данных на основе таксономии предметной области» № 19-04-019 по конкурсу исследовательских проектов научно-учебных групп Программы «Научный фонд НИУ ВШЭ» (НУГ) в 2019-2020 гг.