Модели связывания именованных сущностей в биомедицинском доменеEntity linking models in biomedical domain
Соискатель:
Мифтахутдинов Зульфат Шайхинурович
Руководитель:
Члены комитета:
Макаров Илья Андреевич (АНО “Институт Искусственного Интеллекта", PhD, председатель комитета), Жарикова (Баймурзина) Диляра Римовна (Федеральное государственное автономное образовательное учреждение высшего образования «Московский физико-технический институт" (Национальный исследовательский университет), к.т.н., член комитета), Ильвовский Дмитрий Алексеевич (Национальный исследовательский университет «Высшая школа экономики», к.т.н., член комитета), Турдаков Денис Юрьевич (Федеральное государственное бюджетное учреждение науки Институт системного программирования имени В. П. Иванникова Российской академии наук., к.ф.-м.н., член комитета), Фильченков Андрей Александрович (Федеральное государственное автономное образовательное учреждение высшего образования "Национальный исследовательский университет ИТМО", к.ф.-м.н., член комитета)
Диссертация принята к предварительному рассмотрению:
10/12/2022
Диссертация принята к защите:
11/18/2022
Дисс. совет:
Совет по компьютерным наукам
Дата защиты:
12/23/2022
Огромный объем текстовых данных в различных источниках представляет широкие возможности для их использования в качестве ресурса, например, в системе здравоохранения. Источниками данных могут выступать социальные сети, базы научных статей, патентов и клинических испытаний. Однако, большая часть этих данных хранится в неструктурированном виде и требует применения методов извлечения информации к ним. Одним из важнейших этапов извлечения информации является связывание именованных сущностей. Данная диссертационная работа посвящена разработке моделей связывания именованных сущностей в биомедицинском домене. В работе предложены модели на основе классификационного подхода, которые успешно применены к решению задачи связывания именованных сущностей. Также разработаны модели, основанные на классификационном подходе, с использованием векторов семантической близости в качестве дополнительных признаков. Другая предложенная модель связывания именованных сущностей - DILBERT, которая разработана с помощью обучения метрике (metric learning) и негативного сэмплирования (negative sampling). Данная модель позволяет построить единое векторное пространство для сущностей и концептов. В едином пространстве связывание именованных сущностей осуществляется на основе мер сходства. Оценка всех моделей проведена на 10 корпусах. Также эффективность предлагаемых моделей подтверждена в рамках открытых тестирований CLEF eHealth 2017 Task 1, Social Media Mining for Health Applications (#SMM4H) Shared Tasks 2019-го, 2020-го и 2021-го годов, где модели показали наилучшие результаты среди остальных команд участников.
Диссертация [*.pdf, 2.29 Мб] (дата размещения 10/18/2022)
Резюме [*.pdf, 950.07 Кб] (дата размещения 10/18/2022)
Summary [*.pdf, 909.49 Кб] (дата размещения 10/18/2022)
Публикации, в которых излагаются основные результаты диссертации
Miftahutdinov Z., Kadurin A., Kudrin R., Tutubalina E. Drug and Disease Interpretation Learning with Biomedical Entity Representation Transformer (смотреть на сайте журнала)
Miftahutdinov Z., Kadurin A., Kudrin R., Tutubalina E. Medical concept normalization in clinical trials with drug and disease representation learning (смотреть на сайте журнала)
Tutubalina E., Miftahutdinov Z., Nikolenko S., Malykh V. Medical concept normalization in social media posts with recurrent neural networks (смотреть на сайте журнала)
Отзывы
Отзыв научного руководителя
- Тутубалина Елена Викторовна (дата размещения 10/17/2022)
Сведения о результатах защиты:
Комитет по диссертации рекомендовал присудить ученую степень кандидата наук (протокол №2 от 23.12.2022). Решением диссертационного совета (протокол № 1 от 20.01.2023) присуждена ученая степень кандидата компьютерных наук.
См. на ту же тему
Разработка алгоритмов построения пайплайнов машинного обучения методами обработки естественного языка, основанными на данныхКандидатская диссертация
Соискатель: Трофимова Екатерина Алексеевна
Руководитель: Устюжанин Андрей Евгеньевич
Моделирование репродуктивного поведения россиян в периоды шоков 2000-2023 годовКандидатская диссертация
Соискатель: Горский Дмитрий Ильич
Руководитель: Вакуленко Елена Сергеевна
Моделирование влияния сентимента на биржевые характеристики криптоактивовКандидатская диссертация
Соискатель: Бакланова Валерия Сергеевна
Руководитель: Теплова Тамара Викторовна