Диссертации, представленные на защиту и подготовленные в НИУ ВШЭ
Сортировка:по дате защитыпо имени научного руководителяпо имени соискателя
Показаны работы: 1 - 10 из 11
Топологическая и гомотопическая классификация диффеоморфизмов Морса-Смейла на поверхностяхКандидатская диссертацияУченая степень НИУ ВШЭ
Соискатель:
Морозов Андрей Игоревич
Руководитель:
Дисс. совет:
Совет по математике
Дата защиты:
2.09.2024
Диссертация посвящена вопросу гомотопической и топологической классификации сохраняющих ориентацию диффеоморфизмов Морса-Смейла на поверхностях. В работе приводится реализация структурно устойчивого представителя, а именно диффеоморфизма Морса-Смейла с ориентируемой гетероклиникой в каждом гомотопическом классе второго типа Нильсена-Терстона. Также разработан алгоритм, позволяющий по индексам пересечения седловых сепартарис определить, к какому типу Нильсена-Терстона относится сохраняющий ориентацию диффеоморфизм Морса-Смейла поверхности. Важными результатами являются топологическая классификация сохраняющих ориентацию диффеоморфизмов Морса-Смейла поверхности, а так же комбинаторный инвариант для класса сохраняющих ориентацию диффеоморфизмов Морса-Смейла поверхности с ориентируемой гетроклиникой.
Диссертация [*.pdf, 5.74 Мб] (дата размещения 26.06.2024)
Резюме [*.pdf, 4.00 Мб] (дата размещения 26.06.2024)
Summary [*.pdf, 4.00 Мб] (дата размещения 26.06.2024)
Применение методов автоматической обработки языка для исследования освещения межэтнических отношений и других социально-проблемных тем в больших массивах пользовательских текстовДокторская диссертацияУченая степень НИУ ВШЭ
Диссертация посвящена разработке методологии автоматического анализа письменной речи на русском языке для социологических задач, с фокусом на анализ репрезентаций этнических групп и межэтнических отношений в текстах социальных медиа. В работе тестируется применимость обширного набора новых вариаций алгоритмов машинного обучения к интерпретируемому анализу этих репрезентаций. Алгоритмы представлены двумя группами: тематическое моделирование, направленное на выявление имплицитных контекстов упоминания этнических групп и отношений между ними, и алгоритмы классификации, направленные на выявление заранее заданных классов отношений к этническим группам. Алгоритмы тестируются на большом наборе специально созданных датасетов из сообщений социальных сетей, часть из которых размечена на категории, обоснованные социологическими теориями межэтнических отношений (включая язык вражды). В работе установлено, что на коллекциях, не обогащенных этнорелевантными текстами, тематическое моделирование эффективно только с частичным обучением, причем наиболее эффективно обучение на основе специально составленного словаря этнонимов. На обогащенных коллекциях обучение не требуется, однако при этом может происходить потеря текстов с имплицитным освещением тематики этничности. Также установлено, что классификация сообщений на классы уровня текста, такие как «наличие межэтнического конфликта», легко решается стандартными классификационными методами, тогда как задача классификации отношений к отдельным этническим группам в тексте требует работы на уровне вхождения именованной сущности «этическая группа» в текст, в связи с большой долей текстов, в которых упоминается более одной этнической группы. В этой задаче лучшие результаты получены при сочетании языковой модели Conversational RuBERT с нейросетевым алгоритмом, состоящим из одного плотного слоя. В работе даны рекомендации для пользователей алгоритмов машинного обучения по составлению коллекций, выбору настроек алгоритмов и интерпретации результатов совместного использования тематического моделирования и классификации.
Диссертация [*.pdf, 8.28 Мб] (дата размещения 22.02.2024)
Резюме [*.pdf, 611.42 Кб] (дата размещения 22.02.2024)
Summary [*.pdf, 423.05 Кб] (дата размещения 22.02.2024)
Подходы машинного обучения для анализа разрывов раковых геномовКандидатская диссертация
Соискатель:
Челошкина Ксения Сергеевна
Руководитель:
Дисс. совет:
Совет по компьютерным наукам
Дата защиты:
28.06.2023
Обнаружение и лечение рака являются первостепенными задачами науки и медицины 21 века. Сложность решения этих задач обусловлена сложностью процессов развития рака и гетерогенностью раковых мутаций в геноме. Для изучения мутационных процессов в раковых геномах, определения биомаркеров и генов-драйверов были собраны большие массивы данных раковых геномов и их различных характеристик. Однако несмотря на большое количество доступных данных, мутагенез раковых разрывов еще не был достаточно изучен и качество предсказания раковых разрывов моделями машинного обучения было намного ниже, чем для точечных раковых мутаций. Данная диссертационная работа посвящена комплексному изучению раковых разрывов с помощью методов машинного обучения. В диссертации предлагается подход по предсказанию областей повышенной плотности раковых разрывов на основе омиксных данных с помощью моделей машинного обучения. Предложенный подход был протестирован на реальных данных и превзошел другие известные на тот момент модели машинного обучения. Помимо этого, был изучен вклад различных геномных признаков в формирование областей повышенной плотности разрывов. Также было обнаружено, что области более высокой плотности разрывов более отличимы от остальных участков раковых геномов, чем участки с меньшей плотностью разрывов.
Ключевые слова:
Диссертация [*.pdf, 38.28 Мб] (дата размещения 13.04.2023)
Резюме [*.pdf, 34.12 Мб] (дата размещения 13.04.2023)
Summary [*.pdf, 25.16 Мб] (дата размещения 13.04.2023)
Модули топологической сопряженности Ω-устойчивых потоков на поверхностяхКандидатская диссертацияУченая степень НИУ ВШЭ
Соискатель:
Круглов Владислав Евгеньевич
Руководитель:
Дисс. совет:
Совет по математике
Дата защиты:
21.06.2023
При качественном изучении потоков с конечным числом неподвижных точек и замкнутых траекторий традиционно используется метод выделения ячеек, то есть областей с одинаковым асимптотическим поведением траекторий. Классическими комбинаторными инвариантами таких потоков являются, например, схема Леонтович-Майера дляпотоков в ограниченной части плоскости, ориентированный граф Пейшото и молекула Ошемкова-Шарко для потоков Морса-Смейла на произвольных замкнутых поверхностях, орбитальный комплекс Неймана-О’Брайена для класса потоков на произвольных замкнутых поверхностях, содержащего Ω-устойчивые потоки. Все перечисленные инварианты различают потоки только с точностью до топологической эквивалентности. Классификация с точностью до топологической сопряжённости в некоторых классах потоков даже с очень простой динамикой становится намного сложнее за счёт возникновения модулей топологической сопряжённости (модулей устойчивости), открытых Ж. Палисом. Простейшим примером модуля топологической сопряжённости является период предельного цикла, однако это далеко не единственный случай возникновения модулей, и их описание становится весьма нетривиальной задачей. Целью настоящей работы является нахождение модулей топологической сопряжённости у Ω-устойчивых потоков на поверхностях, выделение подклассов с конечным числом модулей и классификация потоков с конечным числом модулей с точностью до топологической сопряжённости, включая реализацию инвариантов и построение эффективных алгоритмов распознавания их изоморфности. В рамках исследования: -- доказано, что градиентно-подобные потоки на поверхностях топологически сопряжены тогда и только тогда, когда они топологически эквивалентны; -- построены эффективные алгоритмы распознавания изоморфности основных топологических инвариантов градиентно-подобных потоков на поверхностях;-- установлено, что в общем случае потоки Морса-Смейла на поверхностях имеют бесконечное число модулей, получен критерий конечности числа модулей;-- для потоков Морса-Смейла с конечным числом модулей получен полный инвариант топологической сопряжённости -- оснащённый граф;-- для Ω-устойчивых потоков получена полная топологическая классификация в смысле эквивалентности посредством оснащённого графа;-- установлено, что потоки со сколь угодно длинной цепочкой седловых связок имеют конечное число модулей топологической сопряжённости.
Диссертация [*.pdf, 3.86 Мб] (дата размещения 12.04.2023)
Резюме [*.pdf, 2.32 Мб] (дата размещения 12.04.2023)
Summary [*.pdf, 1.87 Мб] (дата размещения 12.04.2023)
Построение оптимальных оценок с помощью метода адаптивных весов в задачах обучения с размеченными и неразмеченными даннымиКандидатская диссертацияУченая степень НИУ ВШЭ
Соискатель:
Руководитель:
Дисс. совет:
Совет по математике
Дата защиты:
26.05.2023
В диссертационной работе развиваются методы адаптивного сглаживания для задач непараметрической статистики. Одним из преимуществ адаптивных методов является то, что с их помощью можно строить новые оценки, обладающие оптимальной скоростью сходимости при довольно мягких предположениях. В рамках диссертационного исследования рассмотрено две задачи: непараметрическая многоклассовая классификация и оценка гладкого многообразия. В задаче многоклассовой классификации рассмотрен алгоритм поточечной адаптации, основанный на агрегировании оценок k ближайших соседей. Получена новая верхняя оценка на ожидаемый избыточный риск классификатора. Для задачи оценки гладкого многообразия предложен новый алгоритм, основанный на идее поточечной адаптации, а также доказаны новые верхняя и нижняя оценки на точность восстановления гладкого многообразия по конечной выборке в терминах метрики Хаусдорфа. Полученные оценки являются оптимальными в минимаксном смысле.
Диссертация [*.pdf, 7.47 Мб] (дата размещения 25.03.2023)
Резюме [*.pdf, 491.34 Кб] (дата размещения 25.03.2023)
Summary [*.pdf, 464.68 Кб] (дата размещения 25.03.2023)
Анализ тональности текстов из социальных сетей на основе методов машинного обучения для мониторинга общественных настроенийКандидатская диссертацияУченая степень НИУ ВШЭ
Соискатель:
Сметанин Сергей Игоревич
Руководитель:
Дисс. совет:
Совет по компьютерным наукам
Дата защиты:
15.12.2022
Данная работа посвящена разработка моделей, методов и программных комплексов, предназначенных для мониторинга общественных настроений путем анализа тональности текстовых постов из социальных сетей, написанных на русском языке. Предлагаемые модели и методы открывают путь к дальнейшему развитию мониторинга общественных настроений на основе контента из социальных сетей и позволяют заинтересованным сторонам измерять общественные настроения не только автоматически, но и за прошлые периоды времени. Для анализа настроений были выявлены наиболее эффективные подходы с точки зрения качества классификации русскоязычных текстов. Для решения проблемы отсутствия 100% точности классификационных алгоритмов была предложена новая модель и метод моделирования, позволяющий оценить влияние погрешности ошибочной классификации на вычисляемые индексы общественного настроения. Для расчета индексов настроений была предложена новая модель и метод расчета индекса настроений на основе цифровых следов, учитывающий демографические характеристики пользователей. Предложенные модели и методы были применены к данным социальной сети «Одноклассники» и был рассчитан индекс общественного настроения на основе текстовых постов. Полученный индекс продемонстрировал высокую корреляцию с традиционным опросным Индексом счастья ВЦИОМ.
Диссертация [*.pdf, 12.22 Мб] (дата размещения 14.10.2022)
Резюме [*.pdf, 4.11 Мб] (дата размещения 14.10.2022)
Summary [*.pdf, 4.02 Мб] (дата размещения 14.10.2022)
Автоматический анализ ритмических характеристик текстов на естественном языкеКандидатская диссертацияУченая степень НИУ ВШЭ
Соискатель:
Лагутина Ксения Владимировна
Руководитель:
Соколов Валерий Анатольевич
Дисс. совет:
Совет по компьютерным наукам
Дата защиты:
24.02.2022
Выбор стилометрических характеристик текста является одной из важных проблем автоматического анализа текста. Сложные характеристики, основанные на структурных, семантических, лексических особенностях текста, исследованы мало и фрагментарно. В ходе работы над диссертацией был разработан и исследован комплекс ритмических характеристик текста. Были предложены алгоритмы поиска ритмических характеристик, основанных на повторениях слов, фраз и грамматических конструкций. Применение ритмических характеристик к решению задач классификации текстов по авторам и периодам публикации показало их способность быть качественными маркерами стиля. Дополнительным достоинством разработанного комплекса параметров текста является их интерпретируемость экспертами предметной области. В ходе научных исследований был разработан инструмент ProseRhythmDetector, который позволяет автоматизировать поиск ритмических средств и даёт возможность проводить объёмные эксперименты по анализу ритма текстов.
Диссертация [*.pdf, 2.46 Мб] (дата размещения 16.12.2021)
Резюме [*.pdf, 342.01 Кб] (дата размещения 16.12.2021)
Summary [*.pdf, 316.64 Кб] (дата размещения 16.12.2021)
Генеалогическая классификация семитских языков в свете лексических изоглоссДокторская диссертацияУченая степень НИУ ВШЭ
Основной темой работы являются различные аспекты взаимодействия между морфологическим и лексическим факторами при построении генеалогической классификации семитских языков. Каждая из тематических глав посвящена рассмотрению этой проблемы на материале того или иного семитского классификационного подразделения. Кроме того, в работе рассматриваются некоторые теоретические аспекты развития базового словаря на семитском языковом материале, а также лингвистические и филологические методы определения функционального статуса лексем в живых и древнеписьменных семитских идиомах. Значительное место в работе занимают конкретные этимологические сближения, как ранее предлагавшиеся в литературе (как правило, с существенными уточнениями и дополнениями), так и вновь введенные в научный обиход автором диссертации.По мнению автора диссертации, работа над генеалогической классификацией является одной из важнейших задач диахронного исследования семитской языковой семьи. Представленная к защите работа является первым и единственным монографическим исследованием, посвященным данной проблеме. Ключевой особенностью работы является систематическое сопоставление классификационных решений, полученных с помощью различных методов: релевантные для генеалогического членения морфологические инновации систематически сопоставляются с данными, полученными при помощи диахронической стратификации базового словаря.В работе содержатся десятки ранее не известных этимологических сближений, относящихся ко всем классификационным подразделениям семитской языковой семьи.Впервые в научный обиход вводятся многочисленные ранее не известные лексические данные современных южноаравийских языков, полученные, в том числе, в ходе собственных полевых исследований автора диссертации.
Диссертация [*.pdf, 4.66 Мб] (дата размещения 1.10.2020)
Резюме [*.pdf, 741.79 Кб] (дата размещения 1.10.2020)
Summary [*.pdf, 630.98 Кб] (дата размещения 1.10.2020)
Индексы интересности замкнутых описаний в задачах анализа данных и обнаружения знанийКандидатская диссертацияУченая степень НИУ ВШЭ
Соискатель:
Махалова Татьяна Павловна
Руководитель:
Дисс. совет:
Совет по компьютерным наукам
Дата защиты:
29.05.2020
В условиях роста и накопления массивов данных особенно актуальной является задача обобщения, т.е. поиска паттернов — повторяющихся фрагментов, несущих полезную информацию. В качестве паттернов в работе исследуются замкнутые описания (формальные и интервальные узорные понятия). В диссертации рассматриваются две группы подходов к поиску паттернов: статические и динамические. В статических подходах оценка интересности паттернов осуществляется посредством применения индексов интересности, в динамических — на основе оценки информативности паттернов относительно всего набора данных и других паттернов. В работе предложена классификация существующих индексов (метрик) интересности, эмпирически выявлены группы схожих индексов, а также индексов, устойчивых к шуму. Предложена схема адаптации индексов интересности произвольных паттернов к оценке замкнутых. Предложен метод интеграции статических (на основе индексов) и динамических (на основе принципа минимальной длины описания) подходов к майнингу паттернов. Разработан динамический подход к майнингу числовых паттернов, основанный на принципах сжатия.
Ключевые слова:
Диссертация [*.pdf, 4.94 Мб] (дата размещения 19.03.2020)
Резюме [*.pdf, 2.23 Мб] (дата размещения 19.03.2020)
Summary [*.pdf, 1.71 Мб] (дата размещения 19.03.2020)
Теоретический и эмпирический анализ фундаментальных проблем организации компьютерных сетей и распределенных вычисленийКандидатская диссертацияУченая степень НИУ ВШЭ
Соискатель:
Чуприков Павел Сергеевич
Руководители
Коган Кирилл, Николенко Сергей Игоревич
Дисс. совет:
Совет по компьютерным наукам
Дата защиты:
14.11.2019
В сфере облачных вычислений набирают популярность бессерверные вычисления, позволяющие существенно сократить расходы конечных пользователей. В диссертации предложена новая целостная формализация модели распределения ресурсов для бессерверных вычислений, представлены новые алгоритмы распределения ресурсов и проведен их подробный теоретический анализ. Диссертация также предлагает альтернативу существующему подходу к проектированию, использующему сеть исключительно как связующее звено, что позволит уменьшить нагрузку на традиционные облачные ресурсы и уменьшить время задержки. В частности, разработаны два новых метода: промежуточная агрегация данных внутри сети и обработка данных внутри сетевых элементов. Последний метод использует новые эффективные алгоритмы классификации сетевых пакетов, а также алгоритмы управления очередью с двумя характеристиками пакетов.
Диссертация [*.pdf, 5.12 Мб] (дата размещения 9.09.2019)
Резюме [*.pdf, 374.78 Кб] (дата размещения 9.09.2019)
Summary [*.pdf, 360.40 Кб] (дата размещения 9.09.2019)