Модели и методы автоматической обработки неструктурированных данных в биомедицинской областиModels and methods for automatic processing of unstructured data in biomedical domain
Соискатель:
Члены комитета:
Воронцов Константин Вячеславович (МГУ им. М.В.Ломоносова, д.ф.-м.н., председатель комитета), Бурнаев Евгений Владимирович (Сколковский институт науки и технологий, д.ф.-м.н., член комитета), Грибова Валерия Викторовна (ФГБУН Институт автоматики и процессов управления Дальневосточного отделения РАН, д.т.н., член комитета), Кобринский Борис Аркадьевич (ФИЦ "Информатика и управление" РАН, д.м.н., член комитета), Кольцов Сергей Николаевич (НИУ ВШЭ в Санкт-Петербурге, д.комп.н., член комитета)
Диссертация принята к предварительному рассмотрению:
7/27/2023
Диссертация принята к защите:
10/9/2023
Дисс. совет:
Совет по компьютерным наукам
Дата защиты:
11/7/2023
Диссертационная работа представляет собой комплексное исследование, направленное на улучшение эффективности моделей и методов автоматической обработки текстов в биомедицинской области на основе современных языковых моделей архитектуры Трансформер. Разработаны новые модели и методы классификации и извлечения информации, в том числе модель связывания именованных сущностей, оптимизирующая сходство представлений сущностей и концептов, многоязычные модели для распознавания именованных сущностей, мультимодальные методы для обнаружения побочных реакций на лекарственные препараты. Впервые предложены и созданы аннотированные корпуса текстов на английском и русском языках из различных биомедицинских источников: научные абстракты (корпус NEREL-BIO), пользовательские отзывы о лекарствах (RuDReC), электронные медицинские карты (RuCCoN) и клинические испытания. Предложены новые подходы к оценке моделей связывания именованных сущностей. Эффективность предложенных моделей и методов подтверждена в рамках большого числа вычислительных экспериментов и открытых тестирований CLEF eHealth 2017 Task 1, #SMM4H Shared Tasks 2019-2021 годов. Предложенные корпуса, кодовая база и другие материалы находятся в открытом доступе.
Диссертация [*.pdf, 10.78 Мб] (дата размещения 7/27/2023)
Резюме [*.pdf, 1.89 Мб] (дата размещения 7/27/2023)
Summary [*.pdf, 1.81 Мб] (дата размещения 7/27/2023)
Публикации, в которых излагаются основные результаты диссертации
Elena Tutubalina, Zulfat Miftahutdinov, Sergey Nikolenko, Valentin Malykh Medical concept normalization in social media posts with recurrent neural networks (смотреть на сайте журнала)
Zulfat Miftahutdinov, Artur Kadurin, Roman Kudrin & Elena Tutubalina Drug and Disease Interpretation Learning with Biomedical Entity Representation Transformer (смотреть на сайте журнала)
Zulfat Miftahutdinov, Elena Tutubalina Deep Neural Models for Medical Concept Normalization in User-Generated Texts (смотреть на сайте журнала)
Arjun Magge , Elena Tutubalina, Zulfat Miftahutdinov, Ilseyar Alimova, Anne Dirkson, Suzan Verberne, Davy Weissenbacher, Graciela Gonzalez-Hernandez DeepADEMiner: a deep learning pharmacovigilance pipeline for extraction and normalization of adverse drug event mentions on Twitter (смотреть на сайте журнала)
Ilseyar Alimova; Elena Tutubalina; Sergey I. Nikolenko Cross-Domain Limitations of Neural Models on Biomedical Relation Classification (смотреть на сайте журнала)
Zulfat Miftahutdinov, Artur Kadurin, Roman Kudrin, Elena Tutubalina Article Navigation JOURNAL ARTICLE Medical concept normalization in clinical trials with drug and disease representation learning (смотреть на сайте журнала)
Zulfat Miftahutdinov & Elena Tutubalina Deep Learning for ICD Coding: Looking for Medical Concepts in Clinical Documents in English and in French (смотреть на сайте журнала)
Natalia Loukachevitch, Suresh Manandhar, Elina Baral, Igor Rozhkov, Pavel Braslavski, Vladimir Ivanov, Tatiana Batura, Elena Tutubalina NEREL-BIO: a dataset of biomedical abstracts annotated with nested named entities (смотреть на сайте журнала)
Elena Tutubalina, Ilseyar Alimova, Zulfat Miftahutdinov, Andrey Sakhovskiy, Valentin Malykh, Sergey Nikolenko The Russian Drug Reaction Corpus and neural models for drug reactions and effectiveness detection in user reviews (смотреть на сайте журнала)
Anton Alekseev, Zulfat Miftahutdinov, Elena Tutubalina, Artem Shelmanov, Vladimir Ivanov, Vladimir Kokh, Alexander Nesterov, Manvel Avetisian, Andrey Chertok, Sergey Nikolenko Medical Crossing: a Cross-lingual Evaluation of Clinical Entity Linking (смотреть на сайте журнала)
Aleksandr Nesterov, Galina Zubkova, Zulfat Miftahutdinov, Vladimir Kokh, Elena Tutubalina, Artem Shelmanov, Anton M. Alekseev, Manvel Avetisian, Andrey Chertok, Sergey Nikolenko RuCCoN: Clinical Concept Normalization in Russian (смотреть на сайте журнала)
Elena Tutubalina, Zulfat Miftakhutdinov, Vladimir Muravlev, Anastasia Shneyderman A Comprehensive Evaluation of Biomedical Entity-centric Search (смотреть на сайте журнала)
Elena Tutubalina, Artur Kadurin, Zulfat Miftakhutdinov Fair Evaluation in Concept Normalization: a Large-scale Comparative Analysis for BERT-based Models (смотреть на сайте журнала)
Zulfat Miftahutdinov, Ilseyar Alimova & Elena Tutubalina On Biomedical Named Entity Recognition: Experiments in Interlingual Transfer for Clinical and Social Media Texts (смотреть на сайте журнала)
Andrey Sakhovskiy, Elena Tutubalina Multimodal model with text and drug embeddings for adverse drug reaction classification (смотреть на сайте журнала)
Ilseyar Alimova, Elena Tutubalina Multiple features for clinical relation extraction: A machine learning approach (смотреть на сайте журнала)
Сведения о результатах защиты:
Комитет по диссертации рекомендовал присудить ученую степень доктора наук (протокол №2 от 07.11.2023). Решением диссертационного совета (протокол № 14 от 24.11.2023) присуждена ученая степень доктора компьютерных наук.
См. на ту же тему
Разработка алгоритмов построения пайплайнов машинного обучения методами обработки естественного языка, основанными на данныхКандидатская диссертация
Соискатель: Трофимова Екатерина Алексеевна
Руководитель: Устюжанин Андрей Евгеньевич
Моделирование репродуктивного поведения россиян в периоды шоков 2000-2023 годовКандидатская диссертация
Соискатель: Горский Дмитрий Ильич
Руководитель: Вакуленко Елена Сергеевна
Моделирование влияния сентимента на биржевые характеристики криптоактивовКандидатская диссертация
Соискатель: Бакланова Валерия Сергеевна
Руководитель: Теплова Тамара Викторовна