.png)
Развернуть все
Описание проекта
Проект "(Не)Прямая речь" включает в себя парсер прямой речи в художественных произведениях и небольшой «золотой» корпус, размеченный вручную. Парсер, основанный на регулярных выражениях, принимает на вход текст и возвращает его с тэгами, выделяющими речь персонажей, слова автора и глаголы речи. В размеченный вручную эталонный «золотой» корпус входят небольшие отрывки из русской литературы XIX и XX веков. Корпус содержит примерно 7500 токенов (≈словоупотреблений). На сайте проекта можно загрузить текст, чтобы выделить в нём прямую речь и получить статистику по количеству употреблений прямой речи в тексте. Также можно скачать эталонный корпус.
Репозиторий проекта на GitHub
Команда
- Ирина Никишина
- Ирина Соколова
- Даниил Тихомиров
.png)
Описание проекта
Анализатор разработан в рамках проекта по исследованию научно-популярных текстов на русском языке с использованием методов компьютерной лингвистики. Подробнее об исследовании
Анализатор включает в себя четыре модуля.
Извлечение научных терминов
Модуль извлекает из текста узкоспециальные термины; может использоваться как дополнительный инструмент для извлечения ключевых слов (для научных текстов).
Извлечение имен ученых
Модуль позволяет выделить из текста имена известных ученых. Благодаря этим данным можно оценить частоту упоминаний исследователей в научно-популярных текстах. Модуль основан на контекстно свободной грамматике Томита-парсер.
Определение тематики текста
Модуль использует методы классификации для определения научной области, к которой относится текст.
Оценка уровня сложности текста (ридабилити)
Модуль для оценки ридабилити позволяет определить сложность текста по различным метрикам, а также получить различные статистические признаки. Всего модуль считает три типа признаков.
Репозиторий проекта на GitHub
Команда
- Анна Лапидус
- Анна Кузнецова
- Юлия Коломенская
- Ксения Самойленко
- Наталья Семенова
.png)
Описание проекта
С развитием технологий компьютерной лингвистики растет число специалистов, которые рассматривают корпуса не как источник примеров отдельных языковых явлений, а как источник статистики и обучающую выборку под различные задачи машинного обучения. В нашем проекте мы создаем уникальный корпус русского языка из открытых источников, собранный, чтобы удовлетворять актуальным нуждам исследователей - 1) большой 2) с открытыми исходными текстами 3) с синтаксической и морфологической разметкой в формате universal dependencies 4) с большим набором дополнительной разметки текстов В нашем корпусе можно выделить отдельные однородные сегменты: - новости - социальные сети - художественная литература - субтитры - стихи - журналы всего около 600 млн токенов на состояние начала 2018 года В разметке корпуса применены методы, опирающиеся на машинное обучение - синтаксические модели, участвующие в разметке, чувствительны к жанру текста, что позволяет добиваться более высокого качества автоматической разметки на типично "проблемных" жанрах текстов - коротких диалогах, сообщениях соцсетей.
Команда
.png)
Описание проекта
Акцентуатор для русского языка - автоматическая система, принимающая на вход текст на русском языке и расставляющая в нем ударения. Акцентуатор может быть встроен как модуль в системы для генерации речи, также он может быть полезен изучающим русский язык иностранцам.
Команда
.png)
Описание проекта
В качестве исследовательского проекта группа занималась созданием трибанков для малоресурсных языков. Так, был создан трибанк для фарерского языка с помощью автоматического перевода корпуса на близкородственные языки (шведский, датский и норвежский), для которых есть готовые трибанки Universal Dependencies, парсинга полученных корпусов и проецирования разметки назад на корпус фарерского. Итоговый трибанк формировался с помощью MST-алгоритма, который выбирал лучшее из полученных синтаксических деревьев.
В качестве пользовательского сервиса был создан сервис-ассистент на базе Annotatrix (инструмента для синтаксической разметки корпусов в формате Universal Dependencies), который предлагает пользователю вариант аннотации предложения и может выполнять функцию как разметки с нуля, так и доразмечивания корпуса на основании связей заданных пользователем и полученных парсером. Все варианты, предложенные сервисом, могут быть как приняты, так отредактированы или отклонены.
Репозиторий проекта на GitHub
Команда
- Мария Шеянова
- Павел Степачев
- Константин Виногородский
.png)
Описание проекта
Корпус академического русского языка состоит из современных научных статей социально-гуманитарной направленности. Источниками статей стали журналы, входящие в Перечень журналов, публикации в которых учитываются при назначении академических надбавок в НИУ ВШЭ. Для каждого текста указана научная область — мы выделяем шесть областей:
- Политология
- Лингвистика
- Юриспруденция
- Психология
- Экономика
- Социология
Общий объём корпуса — порядка 2 млн. токенов (словоупотреблений).
Репозиторий проекта на GitHub
Команда
- Анастасия Баранчикова
- Анна Дмитриева
- Александр Климов
- Станислав Краснов
- Мария Фёдорова
.png)
Описание проекта
Новые слова появляются в языке постоянно - некоторые из них приживаются и остаются употребительными, а другие исчезают. Современные словари не успевают за изменениями в языке - требуется время, чтобы неологизм был добавлен в словарь. По этой причине большое количество новых слов - довольно быстро исчезнувших, но какое-то время бывших употребительными - остается незадокументированным. К сожалению, до сих пор не существовало ресурса в открытом доступе, который бы в онлайн-режиме собирал новые слова, появляющиеся в русском языке. Цель данного проекта - создание системы для автоматизации поиска новых слов на популярных интернет-ресурсах, а также словаря найденных новых слов.
Команда
.png)
Описание проекта
Вышка.Словари - это ресурс, на котором можно искать информацию об интересующем слове сразу по нескольким словарям. В данный момент базу данных ресурса составляют толковые словари. Со временем планируется добавление различных переводных словарей.
Информация об словах появляется в форме карточек. Сейчас на сайте доступны следующие "карточки":
- толкование
- примеры употребления
- грамматическая информация
- ударение
- антонимы
- синонимы
- эпитеты
- этимология
- пометы
На сайте также есть расширенный поиск, который позволяет найти все слова по заданным характеристикам (например, все заимствования из французского).
Команда
.gif)
Описание проекта
Размечен и опубликован первый Корпус риторических структур русского языка. Исследователи письменного дискурса могут пользоваться удобным интерфейсом с поиском по большому числу параметров. Корпус позволяет искать различные цепочки ЭДЕ (Элементарных Дискурсивных Единиц), а древовидная визуализация помогает лучше понять структуру размеченных текстов. Корпус РС может использоваться для теоретических исследований и экспериментов по генерации текста, автоматическому реферированию и др.
Команда
.png)
Описание проекта
Для большинства задач компьютерной лингвистики требуются большие корпуса текстов с морфологической разметкой. Такая разметка обычно осуществляется с помощью морфологических анализаторов (теггеров), таких как Mystem, Pymorphy и др. Однако большинство теггеров плохо справляются со сложными случаями омонимии, такими как омонимия форм внутри парадигмы и омонимия лемм внутри одной части речи. Мы сравнили различные теггеры с точки зрения общего качества разметки и разрешения омонимии, а также протестировали несколько собственных подходов к автоматическому морфологическому анализу.
На нашем сайте вы можете посмотреть данные по качеству разметки и скорости обучения разных систем, разметить свой текст с помощью одного из 6 теггеров, а также скачать обученную на НКРЯ модель для любого из них. Там же можно ознакомиться с документацией.
В репозитории можно найти исходный код для тестирования теггеров и наши собственные разработки.
В блоге можно почитать о наших радостях, горестях, страданиях и открытиях.
Команда
.png)
Описание проекта
В России говорят не только на русском языке, но и на менее распространённом татарском, и на совсем нераспространенном нанайском, и еще на множестве других языков. Эти языки принадлежат к разным языковым семьям, имеют разное число носителей и в большинстве своем мало похожи друг на друга. Но в одном они сходны: для всех этих языков практически не существует компьютерно-лингвистических инструментов, так необходимых лингвистам-исследователям. Мы решили попробовать изменить такой порядок вещей и сделать первый шаг в сторону создания таких инструментов – собрать коллекции текстов на малых языках России. Это и является целью нашего проекта. К сожалению, далеко не все языки России можно встретить в интернете: некоторые из них находятся на грани исчезновения, другие – вытесняются русским.
Отдельный интерес для нас представляют тексты из социальных сетей. Пока мы работаем только с социальной сетью«Вконтакте». Ссылки на страницы Вконтакте мы, как и прежде, собираем с помощью Яндекс.XML. Изначально мы решили сконцентрироваться на страницах сообществ, а не на личных страницах пользователей. С помощью API «Вконтакте» со страницы сообщества мы получаем список постов в этом сообществе, список комментариев к ним, а также метаинформацию о сообществе (его название, количество участников). Кроме того, мы сохраняем всю доступную нам информацию об авторах постов: пол, дату рождения, город (эти данные анонимизируются: имя и фамилия пользователей из наших наборов данных удалены). Полученные данные впоследствии могут быть использованы в социологических и социолингвистических исследованиях.
Окончательные результаты можно увидеть на нашем сайте. На нем мы разместили все коллекции текстов, которые нам удалось собрать, а также списки интернет-страниц, на основе которых формировались эти коллекции. Для части языков мы не подготовили коллекции текстов, однако по выложенным спискам страниц любой желающий сможет собрать коллекцию самостоятельно. У каждого малого языка на нашем сайте есть своя персональная «карточка», на которой кроме общей информации о языке есть также статистические данные об объеме и составе коллекции текстов ( карточка абазинского языка ).
Команда
Куратор
Машиночитаемый словарь
.png)
Описание проекта
Машиночитаемый словарь — первый русскоязычный ресурс своего рода. Он создан на базе нескольких толковых словарей и выполнен на основе стандарта TEI (Text Encoding Initiative) — формального языка разметки на основе XML. Машиночитаемость предполагает пригодность информации для использования компьютером без предварительной обработки.
Версия для скачивания создана на основе словарей С.А. Кузнецова и Д.В. Дмитриева, толкования которых хорошо дополняют друг друга. Эта версия также станет удобным источником данных для решения многих лингвистических задач. В таком формате предусмотрена возможность пополнения информацией из других словарей.
Сетевой ресурс позволяет осуществлять поиск по словарным статьям, он полезен для широкого круга пользователей: лингвистов, филологов, людей, занимающихся изучением русского языка.
Команда
Кураторы
Дополнительные ссылки
Репозиторий с кодом для разметки словарей
Репозиторий с кодом сайта словаря
Taskee
.jpg)
Описание проекта
Языковой тренажер для людей, по каким-либо причинам не владеющих русским языком в достаточной степени. Тренажер представляет собой набор упражнений, предусматривающих операции с единицами языка и формирующие навыки.
Тренажер содержит задания для развития семантических и грамматических навыков.
Все задания имеют один вид и строятся по следующему алгоритму:
субъект — предикат — предлог — характеристика объекта — объект
В Тренажере для создания семантических дистракторов (возможных вариантов ответов в задании) использовался инструмент word2vec. Для создания грамматических дистракторов использовался инструмент pymorphy2.
Статьи
Код проекта
В открытом доступе на GitHub
Команда:
Чтобы связаться с нами, просто напишите нам письмо: ask.taskee@gmail.com
Кураторы:
Описание проекта
Russian National Corpus Sketches (RNCS) - лингвистический продукт, представляющий собой базу устойчивых синтаксических связей между лексемами в НКРЯ. Сервис является синтезом не только методов работы с данными таких ресурсов как Sketch Engine, Bigramma и Google Ngrams, но и нового взгляда на понимание обработки и визуализации синтаксических отношений. В обновленной версии RNCS пользователю будет доступна работа с переработанным списком СинтО и улучшенным алгоритмом их установления, а также статистические данные в готовом для использования виде, тезаурус и доступная для последующей обработки визуализация.
Команда
Кураторы
Ru-Syntax
.png)
Описание проекта
Синтаксический парсер для русского языка, доступный для использования человеку без какой-либо программистской подготовки. Ru-Syntax представляет собой сборку из нескольких инструментов автоматической обработки языка, которые вместе осуществляют токенизацию, морфологический и синтаксический анализ текста, выдавая результат в формате CoNLL. На тестах инструмент показал F-меру в 90% без учета типов синтаксических единиц (unlabeled attachment score) и 85% — с учетом (labeled attachment score). Точность морфологического анализа сейчас составляет 88%, точность определения части речи — 97%.
Команда
Куратор
.png)
Описание проекта
Сентинет - это база данных, в которой хранятся словосочетания тональных прилагательных с существительными и оценки, которые каждой паре приписали пользователи. Сентинет отличается от существующих словарей оценочных прилагательных тем, что приписывает тональность целому словосочетанию, которая может отличаться от тональности только прилагательного. Кроме того, все существительные разбиты на семантические классы, что позволяет проследить как меняется оценка прилагательного в зависимости от класса существительного, с которым оно употреблено.
Оценку словосочетания мы получаем при помощи краудсорсинга. Для удобства разметки и расширения круга потенциальных асессоров, мы сделали небольшую игру, в которую вы всегда можете поиграть по ссылке "Краудсорсинговая игра".
Команда
NER
.png)
Описание проекта
Задачей исследовательской группы является создание системы извлечения именованных сущностей из русскоязычных текстов. Предполагается извлекать три класса сущностей: персоны, организации и локации.
Описание итогового продукта
В конечном итоге система будет будет представлена в двух форматах:
- в виде отдельного программного модуля, написанного на языке Python, позволяющего извлекать из русскоязычных текстов объекты трёх категорий: персоны, организации и локации (топонимы).
- в виде Web-сервиса (находится в финальной стадии разработки), позволяющего работать с системой online и не требующего специальных знаний
Команда
Куратор