Методы автоматического выделения тезаурусных отношений на основе словарных толкованийMethods for automatic wordnet relation extraction from dictionary definitions
Соискатель:
Алексеевский Даниил Андреевич
Руководитель:
Члены комитета:
Козеренко Елена Борисовна (Федеральный исследовательский центр "Информатика и управление" РАН, канд.филол.наук, председатель комитета), Копотев Михаил Вячеславович (Хельсинкский университет, PhD, адъюнкт-профессор, член комитета), Леонтьев Алексей Петрович (ООО "Аби Продакшн", канд.филол.наук, член комитета), Лопухина Анастасия Александровна (Национальный исследовательский университет "Высшая школа экономики", канд.филол.наук, член комитета), Орехов Борис Валерьевич (Национальный исследовательский университет "Высшая школа экономики", канд.филол.наук, член комитета)
Диссертация принята к предварительному рассмотрению:
6/29/2018
Диссертация принята к защите:
7/6/2018
Дисс. совет:
Совет по филологии
Дата защиты:
11/20/2018
С некоторыми задачами обработки текстов человек справляется лучше, чем компьютер. Например, в отличие от компьютера человек может легко найти в коротком отрывке все упоминания жидкостей и сосудов. Чтобы компьютер смог отвечать на такого рода вопросы, ему нужны базовые представления о мире, например, что чашка -- это сосуд, а чай -- это жидкость. Такие знания называются тезаурусными отношениями. В читаемом для людей виде они содержатся в толковых словарях: "Чашка 1. Небольшой, обычно округлой формы, с ручкой, сосуд для питья". Понятным компьютеру способом представления таких знаний являются семантические сети: тезаурусы и онтологии. Защищаемая работа посвящена автоматизации построения тезауруса на основе толкового словаря. В работе предложен новый подход к извлечению отношений, состоящий из трёх этапов. Для того, чтобы извлекать отношения из толкований, нужно обозреть всё их разнообразие. В помощь исследователю предлагается автоматически группировать похожие по синтаксической структуре толкования так, чтобы легко было убедиться, что все типы толкований охвачены. Это и есть первый этап. На втором этапе исследователь описывает интересные ему свойства каждой группы толкований, а компьютер по описаниям извлекает из толкований тезаурусные отношения. В результате получается набор пар слов, связанных отношениями. Чтобы собрать из них тезаурус, необходимо объединить их в одну сеть: из набора пар чашка-сосуд, чашка-миска, сосуд-вместилище, сосуд-орган нужно понять, в каких случаях мы говорим об одном понятии. Наша цель получить в этом случае цепочку чашка-сосуд-вместилище. Решение такой задачи называется дизамбигуацией и является заключительным этапом работы. Для каждого этапа исследованы и описаны существующие подходы, проведены эксперименты для сравнения различных подходов, предложено наилучшее решение среди исследованных.
Диссертация [*.pdf, 1.14 Мб] (дата размещения 9/20/2018)
Резюме [*.pdf, 169.73 Кб] (дата размещения 9/20/2018)
Summary [*.pdf, 222.18 Кб] (дата размещения 9/20/2018)
Публикации, в которых излагаются основные результаты диссертации
Word sense disambiguation features for taxonomy extraction (смотреть на сайте журнала)
Word sense disambiguation in monolingual dictionaries for building Russian WordNet (смотреть на сайте журнала)
Применение контекстно-свободных грамматик для извлечения онтологии из текстов коротких описаний статей биологической тематики (смотреть на сайте журнала)
Отзывы
Отзыв научного руководителя
- Толдова С.Ю. (дата размещения 9/27/2018)
Сведения о результатах защиты:
Комитет по диссертации рекомендовал присудить ученую степень кандидата филологических наук НИУ ВШЭ (протокол № 2 от 20.11.2018). Решением диссертационного совета (протокол № 1 от 15.02.2019) присуждена ученая степень кандидата филологических наук НИУ ВШЭ.
См. на ту же тему
Методы и алгоритмы для извлечения, связывания, векторизации и разрешения неоднозначности лексико-семантических графовДокторская диссертация
Соискатель: Панченко Александр Иванович
Дата защиты: 12/18/2024
Модели и методы автоматической обработки неструктурированных данных в биомедицинской областиДокторская диссертация
Соискатель: Тутубалина Елена Викторовна
Дата защиты: 11/7/2023
Анализ тональности текстов из социальных сетей на основе методов машинного обучения для мониторинга общественных настроенийКандидатская диссертация
Соискатель: Сметанин Сергей Игоревич
Руководитель: Комаров Михаил Михайлович
Дата защиты: 12/15/2022