Мы используем файлы cookies для улучшения работы сайта НИУ ВШЭ и большего удобства его использования. Более подробную информацию об использовании файлов cookies можно найти здесь, наши правила обработки персональных данных – здесь. Продолжая пользоваться сайтом, вы подтверждаете, что были проинформированы об использовании файлов cookies сайтом НИУ ВШЭ и согласны с нашими правилами обработки персональных данных. Вы можете отключить файлы cookies в настройках Вашего браузера.

  • A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта
Бакалавриат 2020/2021

Автоматическая обработка естественного языка

Лучший по критерию «Полезность курса для Вашей будущей карьеры»
Лучший по критерию «Полезность курса для расширения кругозора и разностороннего развития»
Направление: 45.03.03. Фундаментальная и прикладная лингвистика
Когда читается: 3-й курс, 1 модуль
Формат изучения: без онлайн-курса
Преподаватели: Еникеева Екатерина Владимировна, Орлов Александр Викторович
Язык: русский
Кредиты: 3
Контактные часы: 30

Программа дисциплины

Аннотация

Целями освоения дисциплины «Автоматическая обработка естественного языка» являются овладение студентами основными методами автоматической обработки текста на разных уровнях лингвистического анализа. Изучение дисциплины «Автоматическая обработка естественного языка» базируется на следующих дисциплинах:  курс по теории языка программы подготовки бакалавра  курс по дискретной математики программы подготовки бакалавра  начальный курс по программированию программы подготовки бакалавра  английский язык Для освоения учебной дисциплины студенты должны владеть следующими знания-ми и компетенциями:  владеть базовыми представлениями о грамматических категориях и анализе языковых единиц;  владеть базовыми знаниями в области теории алгоритмов и основ математики;  владеть базовыми знаниями в области теории вероятностей и статистики;  уметь читать научные работы и технические описания на английском языке;  владеть базовыми навыками программирования на языке Python.
Цель освоения дисциплины

Цель освоения дисциплины

  • В результате освоения дисциплины студент должен: знать:  основные задачи компьютерной лингвистики;  основные формальные модели, лежащие в основе различных модулей автоматической обработки текста;  необходимые этапы морфологического анализа и проблемы, возникающие при моделировании каждого из этапов;  основные алгоритмы, используемые для построения автоматического синтаксического анализа;  наиболее известные доступные для свободного использования компоненты автоматического анализа, в том числе синтаксические и морфологические парсеры;  принципы оценки качества таких систем; уметь:  создавать модули первичной обработки текста;  строить формальную модель морфологии для создания системы автоматического морфологического анализа;  проводить оценку качества систем автоматического морфологического, синтаксического и семантического анализа;  использовать соответствующие модули в различных приложениях; владеть:  разработки программ первичной обработки текста;  использования систем автоматического морфологического анализа;  тестирования систем морфологического и синтаксического анализа. Основные положения дисциплины должны быть использованы в дальнейшем при изучении следующих дисциплин:  автоматическая обработка естественного языка: семантика, анализ контента; а также в исследованиях при написании курсовых работ.
Планируемые результаты обучения

Планируемые результаты обучения

  • знает основные задачи АОТ
  • осуществляет первичную обработку текста, разбиение на предложения, распознавание языка
  • осуществляет морфологическую аннотацию текста, определяет качество морфологического таггера; например, строит конечный автомат для анализа одного из морфонологических явлений в одном из малоресурсных языках
  • запускает синтаксический анализатор
Содержание учебной дисциплины

Содержание учебной дисциплины

  • Введение в компьютерную лингвистику
    Введение в компьютерную лингвистику. Задачи компьютерной лингвистики. Модель информационного поиска. Новостная агрегация и рубрикация. Извлечение информации из текста. Основные типы ресурсов. Основные формальные модели: конечные автоматы, контекстно-свободные грамматики Свойства естественного языка, создающие сложности для автоматической обработки: омонимия, отсутствие взаимооднозначного соответствия между формой и смыслом. Цепочка обработки: основные этапы обработки. Основные платформы и пакеты для разработки систем АОТ.
  • Первичная обработка текста. Модель информационного поиска. Векторизация текста
    Графематический анализ. Сегментация текста. Проблемы токенизации: токены; Стоп-слова; обработка специальных символов; обработка слов с дефисом. Типизация токенов. Оффсеты. Сегментация на предложения. Сегментация текста в библиотеке NLTK. Модель информационного поиска. Модель мешка слов. Индексация. Матрица терм-документ. N-грамы. tf.idf. Оценка качества. Векторная модель документа, векторная модель слова. Поиск похожих текстов. Косинусная мера близости. Векторизация текстов в библиотеке scikit-learn.
  • Автоматический морфологический анализ
    Введение в автоматический морфологический анализ. Постановка задачи. Основные типы морфологической обработки. Явления неконкатенативной морфологии. Конечные автоматы и конченые преобразователи. Примеры построения конченых автоматов для морфологического анализа. Проблемы морфологической неоднозначности. Методы дизамбигуации. Языковые модели. Скрытые марковские модели. Алгоритм Витерби. Оценка качества частеречного тагера: практикум.
  • Автоматический синтаксический анализ
    Основные модели автоматического синтаксического анализа: непосредственные составляющие, зависимости. Контекстно-свободные грамматики. Унификационные грамматики. Синтаксический анализ: основные проблемы автоматического анализа (омонимия, типичные случаи синтаксической омонимии, синтаксические нули). Контекстно-свободные грамматики. базовые алгоритмы (нисходящий алгоритм, алгоритм спуска, алгоритм Кока-Янгера-Касами) Зависимостные грамматики. Алгоритмы анализа в терминах зависимостей. Универсальные зависимости (UD): основные стандарты морфологической и синтаксической разметки в терминах UD. Запуск системы синтаксического анализа в терминах UD (UD-pipe).
  • Проект по АОЕЯ
Элементы контроля

Элементы контроля

  • неблокирующий домашние задания
    Оценка по домашним заданиям вычисляется как среднее по всем домашним задания. Сдача задания после дедлайна рассчитывается как 0.7 от полной оценки за выполненное задание. Возможна досдача и пересдача домашних заданий в конце модуля. Оценка при этом рассчитывается как 0.3 от полной оценки за выполненное задание. При пересдаче необходимо исправить недочеты в домашних заданиях, выполнить невыполненные в течение модуля задания.
  • неблокирующий экзамен
  • неблокирующий проектное задание
    В течение недели после начала работы по окончании пропуска, но не позднее 10 дней до сессии, если преподавателем не предложено иное. При пересдаче необходимо устранить недостатки проекта. Предполагается переработка проекта и его защита.
  • неблокирующий мини-тесты
Промежуточная аттестация

Промежуточная аттестация

  • Промежуточная аттестация (1 модуль)
    0.3 * домашние задания + 0.15 * мини-тесты + 0.3 * проектное задание + 0.25 * экзамен
Список литературы

Список литературы

Рекомендуемая основная литература

  • Федоров Д. Ю. - ПРОГРАММИРОВАНИЕ НА ЯЗЫКЕ ВЫСОКОГО УРОВНЯ PYTHON 2-е изд. Учебное пособие для СПО - М.:Издательство Юрайт - 2019 - 161с. - ISBN: 978-5-534-11961-9 - Текст электронный // ЭБС ЮРАЙТ - URL: https://urait.ru/book/programmirovanie-na-yazyke-vysokogo-urovnya-python-446505

Рекомендуемая дополнительная литература

  • Мандель, Б. Р. Современный русский язык: лексика, словообразование, морфология [Электронный ресурс] : Учеб. пособие / Б. Р. Мандель. - М.: Вузовский учебник: ИНФРА-М, 2013. - 374 с. - ISBN 978-5-9558-0300-5 (Вузовский учебник), 978-5-16-006528-1 (ИНФРА-М). - Режим доступа: http://znanium.com/catalog/product/403676