Студенческие проекты
SentEval
Надежда Мотина, Дина Писаревская, Дмитрий Шубенок (научные руководители – Светлана Юрьевна Толдова, Андрей Кутузов)
В проекте SentEval мы занимаемся разработкой системы анализа тональности отзывов о ресторанах по аспектам: цена, кухня, сервис, обстановка и общее впечатление. С помощью словарей оценочной лексики и различных методов машинного обучения мы разрабатываем программу на Python, придумываем разные возможности для оценки отзывов и осваиваем методы машинного обучения.
Senteval (PDF, 290 Кб)
Поэтический корпус (выход на новый уровень)
Азеркович Илья, Кротова Елена, Рябова Анна
На сайте Национального корпуса русского языка (НКРЯ) имеется так называемый «поэтический корпус». Наши главные задачи – обнаружить, чего в нём ещё не хватает, и улучшить его.
Для этого мы планируем:
- добавить разметку и поиск стихов по темам (Topic Modelling);
- исправить ошибки при снятии морфологической омонимии;
- улучшить поиск за счет исправления ошибок метаразметки и добавления новых полей;
- дополнить пользовательскую инструкцию.
В итоге мы надеемся получить, помимо массы ценного опыта, обновленный поэтический корпус качественно нового уровня.
Электронный словарь Зализняка
Кира Дроганова, Надежда Буйлова (научный руководитель – Ольга Николаевна Ляшевская)
Проект посвящен разработке методики выявления «новых слов» и предсказанию помет и индексов для этих слов.
Мы - Надя Буйлова и Кира Дроганова - работаем над проектом "Электронный словарь Зализняка" под руководством Ольги Ляшевской. В проекте принимает участие Сергей Слепов (технический гуру).
Мы начали с того, что пообщались с Сергеем, который создал и поддерживает сайт Odict. Сайт предназначен для ручного добавления слов в электронный словарь oDict, в основе которого лежит бумажная версия словаря Зализняка.
Для начала мы попробовали вносить слова вручную, а затем перешли к автоматической обработке текста. Вскоре у нас появился корпус блогов, и Кира начала писать код. В первую очередь мы при помощи mystem выделили кандидатов на добавление в словарь и для каждого из них посчитали частотность. Потом то же самое мы сделали с газетным корпусом. Итак, что нового в современном русском языке мы можем увидеть?
Следующим шагом была разработка модуля лемматизации (библиотека PyMorphy2) и модуля постобработки. Затем Надя вручную разобрала леммы, и мы выяснили, что точность лемматизации составляет 89%.
В ближайшем будущем хочется докрутить модуль постобработки и увеличить точность лемматизации, а затем заняться модулем построения гипотез, который, скорее всего, будет реализован с использованием библиотеки PyMorphy2.
1. Подаем на вход программе тексты (корпус блогов и газетный корпус)
2. Разбиваем их на токены, считаем частоту для каждой словоформы.
3. Выявляем "новые слова".
5. Проводим лемматизацию при помощи PyMorphy2.
6. Проводим постобработку - в текстах много фамилий, которые PyMorphy2 лемматизирует с ошибками. Однако можно найти некоторые закономерности и исправить часть ошибок.
7. Выполняем построение гипотез. Модуль пока не реализован.
Языки России
Ира Крылова, Катя Степанова, Люда Зайдельман (научный руководитель - Борис Валерьевич Орехов)
*голове нужен ум, уму – голова (удмуртский) [Источник]
Оказывается, в России говорят не только на русском языке, но еще на чуть менее популярном татарском, на совсем непопулярном алеутском и еще на сотне других языков. В идеальном мире целью нашего проекта было бы создание корпусов для всех этих языков. Но мы смотрим на вещи реально и понимаем, что примерно половина языков в интернете не представлена совсем, и найти тексты на этих языках будет очень сложно. Мы хотим выяснить, какие из языков России хорошо представлены в интернете, и составить для них корпуса. Для поиска страниц на нужных языках мы используем лексические маркеры – частотные графически уникальные слова – и специальные api для поиска (Яндекс.XML) и выкачивания текстов из социальных сетей (в основном, ВКонтакте).
Модуль автоматического поиска ошибок в глагольном управлении в корпусе эритажных текстов.
Евгения Мещерякова, Светлана Пужаева (Научный руководитель – Екатерина Владимировна Рахилина)
Мы продолжаем работу над модулем автоматической разметки ошибок в русском эритажном корпусе, начатую выпускницей Школы лингвистики Еленой Клячко и магистрантами второго курса (Д. Лошкаревой, Н. Филипповой). В отличие от предыдущих работ, опирающихся на n-gramm’ы и правила, мы решили подойти к проблеме с точки зрения машинного обучения. Задача нашей системы — находить ошибки на глагольное предложное управление, которые являются одними из самых частотных в корпусе. Возможно, носители эритажного русского и изучающие русский как иностранный допускают такие ошибки из-за различий в выражении предлогами пространственно-временных и иных отношений в русском языке и их доминирующем языке.
Разрабатываемый нами модуль поможет ускорить процесс разметки, а также в дальнейшем может быть применён не только к эритажным текстам, но и к любым текстам на русском языке.
Проект «Эритаж» — масштабный проект, развивающийся в различных направлениях: от создания удобного для исследователя корпуса до автоматической разметки ошибок.
Цель магистрантов 2014-2016 г. — создать жизнеспособный модуль автоматического поиска ошибок в предложном управлении глаголов, чтобы упростить работу экспертов по разметке текстов. Данный проект является следующей ступенью на пути решения проблемы автоматического поиска ошибок. Ошибки в глагольном предложном управлении в текстах носителей эритажного русского и людей, изучающих язык, — одни из самых частотных. Примеры из корпуса:
● Анна моя любимая подруга потому что когда я в университете мы ещё разговариваим НА телефоне.
● Интервю был очень хороший – я услушала всё, сидя ПРИ неё всё время.
Работа в рамках проекта включает в себя лингвистическую и техническую часть, а именно
1) Анализ частотных ошибок в корпусе
Мы выяснили, что одним из наиболее частотных видов ошибок в корпусе являются ошибки в предлогах после глагола (особенно, если между предлогом и глаголом вставлен сирконстант).
2) Создание обучающей и тестовой выборки
В качестве обучающей выборки взяли часть НКРЯ [ruscorpora.ru]. В качестве тестовой выборки подготовили примеры из реальных текстов эритажного русского языка.
3) Выбор подходящего метода машинного обучения на основе статей по теме
Специфика обучающей и тестовой выборок (мы считаем все употребления в корпусе корректными) обусловила постановку задачи: имея в обучающей выборке экземпляры лишь одного класса, найти элементы этого класса в тестовой выборке.
4) Создание модуля автоматического поиска ошибок, включающего исправление орфографических ошибок
Изучающие русский язык допускают огромное количество орфографических ошибок, что затрудняет морфологический анализ текста. Чтобы выделить обучающие признаки (например, лемму слова), мы используем известные спелл-чекеры для русского.
Аналогичная задача для английского языка решалась участниками Shared Task на конференции CoNLL, однако в их распоряжении имелся достаточно большой для тренировки модели аннотированый учебный корпус. Насколько мы знаем, для русского языка такая задача решается впервые.
BioNLP (Biomedical Text Mining)
Константин Дружкин, Козлова Ольга, Попов Иван (научный руководитель – Даниил Андреевич Алексеевский)
Что такое BioNLP
BioNLP (или "Biomedical Text Mining") – область компьютерной лингвистики, которая последнее время активно развивается в англоязычном мире.
Исследователи, работающие в этой области, заняты извлечением информации из научных статей по биологии и медицине.
Зачем нужно BioNLP
Число научных публикаций по биологии и медицине растёт так быстро, что даже специалисты не успевают с ними ознакомиться.
Поэтому автоматическое извлечение информации из больших коллекций (типа PubMed) может оказать исследователю большую услугу.
Что мы делаем:
Наша группа пытается воспроизвести результаты, полученные участниками недавнего соревнования по BioNLP (http://2013.bionlp-st.org/).
Зачем мы это делаем:
В текущем (2014-15) учебном году мы занимаемся этим для собственного профессионального роста, не преследуя никакой общественной пользы.
Но в перспективе мы надеемся внести вклад в популяризацию этой области в России.
Генерация биржевых новостей
Любовь Клименченко, Владимир Пискунов (научный руководитель – Анастасия Александровна БончОсмоловская)
Проект по генерации биржевых новостей был запущен по просьбе команды РБК.
Перед нами была поставлена задача, сделать программу, которая бы, получая на вход данные о котировках, генерировала новости об изменениях индексов на фондовом рынке.
На данный момент у нас имеется программа, основанная на шаблонах, которая умеет порождать два типа новостей: утренние новости и новости-описания поведения индексов в течение дня. Лексическое наполнение текстов, получаемых на выходе, довольно разнообразно, но в некоторых случаях возникают ошибки, связанные с лексической сочетаемостью. Мы планируем устранить ошибки и добработать программу так, чтобы генерируемые новости были максимально похожи на тексты, написанные человеком.
Бридж-анафорический корпус
Цыганкова Виктория, Ройтберг Анна (научный руководитель – Светлана Юрьевна Толдова).
На данный момент основная задача проекта - создание корпуса с размеченными бриджинг-анафорическими отношениями.
Бриджинг – это вид анафоры, при котором анафорически связанные элементы не кореферентны. Например, Я вошел в комнату, потолки были высокими {Под «потолками» понимаются не просто потолки, а потолки именно ‘этой комнаты’}.
Для первого этапа разметки были выбраны такие пары бриджинг-элемент (якорь) и бриджинг-элемент потенциально могли быть участниками одной генитивной конструкции.
В автобусе начался пожар. (1)
Водитель (автобуса) самостоятельно потушил возгорание. (2)
Слова « водитель» и «автобус» могут образовать генитивную конструкцию «водитель автобуса», но в действительности слово «автобус» пропущено, т.к. было названо в предыдущем предложении и все еще актуализировано для слушателя (читателя).
На данный момент у нас собран небольшой новостной корпус, который мы размечаем в системе аннотирования brat.
Наш корпус является тренировочным корпусом для создаваемой системы автоматического разрешения бриджинг-анафоры. Все особенности аннотационной схемы продиктованы назначением корпуса.
«Большая» цель проекта – создание системы автоматического разрешения генитивной бриджинг-анафоры для русского языка. Мы постараемся составить набор отличительных признаков пар слов, связанных бриджинг-отношениями. Данный набор формальных признаков будет использован для обучения системы автоматического разрешения бриджинг-анафоры.
Проекты 2015