Мы используем файлы cookies для улучшения работы сайта НИУ ВШЭ и большего удобства его использования. Более подробную информацию об использовании файлов cookies можно найти здесь, наши правила обработки персональных данных – здесь. Продолжая пользоваться сайтом, вы подтверждаете, что были проинформированы об использовании файлов cookies сайтом НИУ ВШЭ и согласны с нашими правилами обработки персональных данных. Вы можете отключить файлы cookies в настройках Вашего браузера.

  • A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта
Бакалавриат 2023/2024

Автоматическая обработка естественного языка

Направление: 45.03.03. Фундаментальная и прикладная лингвистика
Когда читается: 3-й курс, 1 модуль
Формат изучения: без онлайн-курса
Охват аудитории: для своего кампуса
Преподаватели: Еникеева Екатерина Владимировна, Мартынова Анна Владимировна, Орлов Александр Викторович
Язык: русский
Кредиты: 3
Контактные часы: 30

Программа дисциплины

Аннотация

Целями освоения дисциплины «Автоматическая обработка естественного языка» являются овладение студентами основными методами автоматической обработки текста на разных уровнях лингвистического анализа. Изучение дисциплины «Автоматическая обработка естественного языка» базируется на следующих дисциплинах: курс по теории языка программы подготовки бакалавра курс по дискретной математики программы подготовки бакалавра начальный курс по программированию программы подготовки бакалавра английский язык Для освоения учебной дисциплины студенты должны владеть следующими знания-ми и компетенциями: владеть базовыми представлениями о грамматических категориях и анализе языковых единиц; владеть базовыми знаниями в области теории алгоритмов и основ математики; владеть базовыми знаниями в области теории вероятностей и статистики; уметь читать научные работы и технические описания на английском языке; владеть базовыми навыками программирования на языке Python.
Цель освоения дисциплины

Цель освоения дисциплины

  • В результате освоения дисциплины студент должен: знать:  основные задачи компьютерной лингвистики;  основные формальные модели, лежащие в основе различных модулей автоматической обработки текста;  необходимые этапы морфологического анализа и проблемы, возникающие при моделировании каждого из этапов;  основные алгоритмы, используемые для построения автоматического синтаксического анализа;  наиболее известные доступные для свободного использования компоненты автоматического анализа, в том числе синтаксические и морфологические парсеры;  принципы оценки качества таких систем; уметь:  создавать модули первичной обработки текста;  строить формальную модель морфологии для создания системы автоматического морфологического анализа;  проводить оценку качества систем автоматического морфологического, синтаксического и семантического анализа;  использовать соответствующие модули в различных приложениях; владеть:  разработки программ первичной обработки текста;  использования систем автоматического морфологического анализа;  тестирования систем морфологического и синтаксического анализа. Основные положения дисциплины должны быть использованы в дальнейшем при изучении следующих дисциплин:  автоматическая обработка естественного языка: семантика, анализ контента; а также в исследованиях при написании курсовых работ.
Планируемые результаты обучения

Планируемые результаты обучения

  • запускает синтаксический анализатор
  • знает основные задачи АОТ
  • осуществляет морфологическую аннотацию текста, определяет качество морфологического таггера; например, строит конечный автомат для анализа одного из морфонологических явлений в одном из малоресурсных языках
  • осуществляет первичную обработку текста, разбиение на предложения, распознавание языка
Содержание учебной дисциплины

Содержание учебной дисциплины

  • Введение в компьютерную лингвистику
  • Первичная обработка текста. Модель информационного поиска. Векторизация текста
  • Автоматический морфологический анализ
  • Автоматический синтаксический анализ
  • Проект по АОЕЯ
Элементы контроля

Элементы контроля

  • неблокирующий Домашние задания
  • неблокирующий Квиз
  • неблокирующий Проект
  • неблокирующий домашние задания
  • неблокирующий квиз
  • неблокирующий проект
Промежуточная аттестация

Промежуточная аттестация

  • 2023/2024 учебный год 1 модуль
    0.4 * Домашние задания + 0.4 * Домашние задания + 0.25 * Квиз + 0.25 * Квиз + 0.35 * Проект + 0.35 * Проект
  • 2024/2025 учебный год 2 модуль
    0.4 * домашние задания + 0.4 * домашние задания + 0.25 * квиз + 0.25 * квиз + 0.35 * проект + 0.35 * проект
Список литературы

Список литературы

Рекомендуемая основная литература

  • Manning, C. D., & Schèutze, H. (1999). Foundations of Statistical Natural Language Processing. Cambridge, Mass: The MIT Press. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=24399
  • Speech and language processing, Jurafsky, D., 2014
  • Федоров, Д. Ю.  Программирование на языке высокого уровня Python : учебное пособие для среднего профессионального образования / Д. Ю. Федоров. — 2-е изд. — Москва : Издательство Юрайт, 2019. — 161 с. — (Профессиональное образование). — ISBN 978-5-534-11961-9. — Текст : электронный // Образовательная платформа Юрайт [сайт]. — URL: https://urait.ru/bcode/446505 (дата обращения: 28.08.2023).

Рекомендуемая дополнительная литература

  • Мандель, Б. Р. Современный русский язык: лексика, словообразование, морфология [Электронный ресурс] : Учеб. пособие / Б. Р. Мандель. - М.: Вузовский учебник: ИНФРА-М, 2013. - 374 с. - ISBN 978-5-9558-0300-5 (Вузовский учебник), 978-5-16-006528-1 (ИНФРА-М). - Режим доступа: http://znanium.com/catalog/product/403676

Авторы

  • Зыкова Вероника Игоревна
  • Орлов Александр Викторович