• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта
Бакалавриат 2023/2024

Научно-исследовательский семинар "Компьютерные методы для анализа мультиязычных параллельных корпусов"

Направление: 45.03.03. Фундаментальная и прикладная лингвистика
Когда читается: 3-й курс, 3, 4 модуль
Формат изучения: без онлайн-курса
Охват аудитории: для всех кампусов НИУ ВШЭ
Язык: русский
Кредиты: 3
Контактные часы: 36

Программа дисциплины

Аннотация

Мультиязычные параллельные корпуса — это инструмент, который меняет формат работы с языковыми данными. В отличие от традиционного подхода, который требует ручного анализа примеров, собранных из различных источников, параллельные корпуса дают нам возможность использовать материал большего объема и разносторонне анализировать его при помощи компьютерных методов. Преимущество использования параллельных корпусов состоит в том, что мы можем наблюдать и фиксировать функциональную вариативность исследуемого языкового явления, и делать обобщения, которые сложно было бы сформулировать, анализируя данные традиционным методом. В рамках курса мы обсудим основные характеристики параллельных корпусов, такие как выравнивание, унифицированная разметка, однородность представленных переводных соответствий. Также мы подробно рассмотрим современные исследования на основе мультиязычных параллельных корпусов. Курс предусматривает также непосредственную работу с параллельными корпусами. Студенты научатся пользоваться инструментами для выравнивания и разметки, а также применять различные методы анализа к материалу параллельных корпусов. По завершению курса студенты научатся подготавливать мультиязычные данные и проводить собственные исследования.
Цель освоения дисциплины

Цель освоения дисциплины

  • Научить пользоваться инструментами для работы с параллельными корпусами
  • Познакомить с существующими подходами к анализу грамматических явлений на основе материала параллельных корпусов
Планируемые результаты обучения

Планируемые результаты обучения

  • Студент формулирует основные аспекты устройства параллельных корпусов
  • Студент называет разные инструменты для выравнивания параллельных текстов, формулирует особенности подходов к выравниванию
  • Студент использует программный пакет Lingtrain Aligner и выравнивает с помщью него тексты
  • Студент формулирует основные сложности, возникающие при построении датасета на материале параллельного корпуса
  • Студент разрабатывает собственный датасет на материале параллельного корпуса
  • Студент называет примеры существующих исследований на материале параллельных корпусов и применяемые в них методы анализа
  • Студент формулирует основные нюансы создания и устройства параллельных корпусов в составе НКРЯ
  • Студент использует метод многомерного шкалирования для построения семантических карт на основе датасета
  • Студент использует логистическую регрессию для на анализа собранных данных
  • Студент использует графовые модели для на анализа собранных данных
  • Студент формулирует основные нюансы создания и устройства китайско-русского параллельного корпуса в составе НКРЯ
  • Студент формулирует сложности, возникающие при работе с церковно-славянскими текстами, называет возможные решения возникающих проблем
  • Студент формулирует основные цели и задачи проекта, посвященного построению базы данных универсальных грамматических контекстов на материале корпуса Нового завета. Студент формулирует особенности выявления контекстов с экспериентивом.
Содержание учебной дисциплины

Содержание учебной дисциплины

  • Особенности параллельных корпусов и работы с ними
  • Выравнивание текстов в параллельном корпусе: подходы и инструменты
  • Элайнеры для предложений: обзор и знакомство с Lingtrain Aligner
  • Построение датасета на примере пассива: Разметка и подводные камни, извлечение контекстов из корпуса
  • Создание собственного датасета
  • Методы анализа, исследования на материале корпусов
  • Параллельные корпуса в НКРЯ
  • Семантические карты
  • Факторный анализ
  • Сетевой анализ и многообразие средств выражения
  • Case study: Проект по церковно-славяским текстам
  • Case study: Экспериентив в Новом Завете
Элементы контроля

Элементы контроля

  • неблокирующий Выравнивание текстов с помощью Lingtrain Aligner
    Студентам необходимо выровнять параллельные тексты и представить результат в нужном формате
  • неблокирующий Поиск статьи по тематике курса и написание по ней краткого резюме
  • неблокирующий Сбор материала для датасета
  • неблокирующий Проведение собственного исследования
Промежуточная аттестация

Промежуточная аттестация

  • 2023/2024 учебный год 4 модуль
    0.1 * Выравнивание текстов с помощью Lingtrain Aligner + 0.3 * Поиск статьи по тематике курса и написание по ней краткого резюме + 0.5 * Проведение собственного исследования + 0.1 * Сбор материала для датасета
Список литературы

Список литературы

Рекомендуемая основная литература

  • Statistics for linguists : an introduction using R, Winter, B., 2020
  • Национальный корпус русского языка и проблемы гуманитарного образования, , 2007

Рекомендуемая дополнительная литература

  • Logistic regression : from introductory to advanced concepts and applications, Menard, S. W., 2010
  • Добрушина Н. Р., & Левинзон А. И. (2006). Информационные Технологии В Гуманитарном Образовании: Национальный Корпус Русского Языка. Вопросы Образования // Educational Studies, 4, 163.