• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта
Бакалавриат 2024/2025

Компьютерная лингвистика

Статус: Курс по выбору (Филология)
Направление: 45.03.01. Филология
Когда читается: 4-й курс, 1-3 модуль
Формат изучения: без онлайн-курса
Охват аудитории: для своего кампуса
Язык: русский
Кредиты: 6

Программа дисциплины

Аннотация

Курс предполагает знакомство студентов с основными направлениями и методами компьютерной лингвистики, формированию у них практических навыков работы с лингвистическими ресурсами и программами компьютерного анализа текстов, построение собственного корпуса текстов или лингвистической базы данных и проведение лингвистического исследования с использованием компьютерных средств. Курс предназначен для студентов-филологов и не требует специальной компьютерной подготовки или навыков программирования. Предлагаемый курс будет полезен не только студентам лингвистического направления, но и студентам-литературоведам, поскольку синтез традиционного и компьютерного подхода в филологических исследованиях является весьма перспективным.
Цель освоения дисциплины

Цель освоения дисциплины

  • ● Получение студентами знания об основных методах и направлениях развития компьютерной лингвистики.
  • ● Приобретение студентами навыков адекватного пользование основными программными продуктами, необходимыми при работе с текстами и корпусами текстов, и навыков создания собственных корпусов текстов для решения локальных научных и академических задач.
Планируемые результаты обучения

Планируемые результаты обучения

  • Студент знает программы по автоматической обработке текстов на лексическом и морфологическом уровнях и умеет ими пользоваться
  • Студент знает программы по автоматической обработке текстов на синтаксическом, семантическом и прагматическом уровнях и умеет ими пользоваться.
  • Студент знаком с основами статистического анализа, методами и подходами квантитативной лингвистики
  • Студент имеет представление об основных задачах и приложениях компьютерной лингвистики.
  • Студент знает базовые принципы работы с мультимедийным контентом
Содержание учебной дисциплины

Содержание учебной дисциплины

  • Основные задачи, основания и приложения компьютерной лингвистики
  • Возможности и программы автоматической обработки текстов на лексическом и морфологическом уровнях
  • Возможности и программы автоматической обработки текстов на синтаксическом, семантическом и прагматическом уровнях
  • Возможности аннотирования и автоматического анализа мультимедийного контента (аудио- и видеозаписей)
  • Основы статистики. Элементы квантитативной лингвистики
  • Способы лингвистической обработки
  • Объектно-ориентированного программирование.
  • Дистрибутивная семантика.
  • Машинный перевод на основе правил
  • Статистический машинный перевод и введение в машинное обучение.
  • Механизм внимания и трансформеры для машинного перевода.
  • Проект.
Элементы контроля

Элементы контроля

  • неблокирующий Домашнее задание
    Выполняется письменно, не разбивается на варианты и состоит из небольших упражнений, проверяющих усвоение материала лекций и семинаров. Направляется студентам по электронной почте в течение модуля. Студенты направляют ответ преподавателю также по электронной почте. Преподаватель дает обратную связь студентам на следующем семинаре, разбирая основные ошибки.
  • неблокирующий Проект
    Представляет собой исследовательскую работу с применением пройденных методов и инструментов компьютерной лингвистики
  • неблокирующий Проект
    Проект представляет собой разработку модели обработки естественного языка с использованием глубокого обучения. Для начинающих студентов следует выбрать проект, который соответствует их уровню знаний и навыков. Цель проекта: Разработать модель машинного обучения для анализа тональности текстов, которая способна определять, является ли текст положительным, отрицательным или нейтральным. Задачи проекта: Сбор и подготовка данных: Найти и загрузить набор данных, содержащий отзывы, комментарии или тексты с разной тональностью (положительной, отрицательной и нейтральной). Предобработка данных: Очистить и подготовить тексты для обучения, включая токенизацию, удаление стоп-слов, лемматизацию и преобразование текстов в числовой формат. Разработка модели: Создать нейронную сеть для классификации тональности текстов, например, с использованием сверточных нейронных сетей (CNN). Обучение модели: Обучить модель на подготовленных данных. Оптимизировать гиперпараметры модели для улучшения ее производительности. Оценка модели: Оценить производительность модели с использованием метрик, таких как точность, полнота, F1-мера и матрица ошибок. Тестирование: Провести тестирование модели на новых данных, чтобы убедиться, что она способна классифицировать тональность текстов. Инструменты и технологии: Python, библиотеки для машинного обучения (например, TensorFlow или PyTorch), библиотеки для обработки текста (например, NLTK или spaCy).
  • неблокирующий Аудиторная и домашняя работа
    Изучение основ обработки текстов с использованием библиотек Python Цель аудиторной и домашней работы: Освоить основы обработки текстов и текстовых данных с использованием Python и соответствующих библиотек.
  • неблокирующий Контрольная работа
    Основы обработки текстов и нейронных сетей в NLP. Для каждого вопроса студентам предполагается выбрать правильный вариант ответа (A, B, C или D). Регламент: 60 минут на завершение контрольной работы.
Промежуточная аттестация

Промежуточная аттестация

  • 2024/2025 2nd module
    0.4 * Домашнее задание + 0.6 * Проект
  • 2024/2025 3rd module
    0.4 * Аудиторная и домашняя работа + 0.2 * Контрольная работа + 0.4 * Проект
Список литературы

Список литературы

Рекомендуемая основная литература

  • Davies, A., & Elder, C. (2004). The Handbook of Applied Linguistics. Malden, MA: Wiley-Blackwell. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=108713
  • Lappin, S., Fox, C., & Clark, A. (2010). The Handbook of Computational Linguistics and Natural Language Processing. Chichester, West Sussex: Wiley-Blackwell. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=330500

Рекомендуемая дополнительная литература

  • Baker, P., Hardie, A., & McEnery, T. (2006). A Glossary of Corpus Linguistics. Edinburgh: Edinburgh University Press. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=169612

Авторы

  • Шерстинова Татьяна Юрьевна
  • Кессель Ксения Витальевна
  • Фирсанова Виктория Игоревна