Мы используем файлы cookies для улучшения работы сайта НИУ ВШЭ и большего удобства его использования. Более подробную информацию об использовании файлов cookies можно найти здесь, наши правила обработки персональных данных – здесь. Продолжая пользоваться сайтом, вы подтверждаете, что были проинформированы об использовании файлов cookies сайтом НИУ ВШЭ и согласны с нашими правилами обработки персональных данных. Вы можете отключить файлы cookies в настройках Вашего браузера.

  • A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта
Бакалавриат 2020/2021

Компьютерная лингвистика

Лучший по критерию «Полезность курса для Вашей будущей карьеры»
Лучший по критерию «Полезность курса для расширения кругозора и разностороннего развития»
Лучший по критерию «Новизна полученных знаний»
Направление: 01.03.02. Прикладная математика и информатика
Когда читается: 4-й курс, 3 модуль
Формат изучения: без онлайн-курса
Преподаватели: Карпов Николай Вячеславович, Слащинин Сергей Владимирович
Язык: русский
Кредиты: 4
Контактные часы: 40

Программа дисциплины

Аннотация

Курс направлен на подготовку специалистов, способных проводить информационное моделирование предметной области и решать прикладные задачи обработки информации на высоком техническом уровне. Практические занятия служат для получения устойчивых навыков обработки естественного языка с использованием современных высокоуровневых языков программирования в качестве прикладного программиста. Для выполнения заданий используется скриптовый язык Python3, а также технологическая платформа Anaconda4. Для освоения учебной дисциплины, студенты должны владеть следующими знаниями и компетенциями: • современные методы проектирования и реализации информационных систем; • основные алгоритмы и структуры данных для быстрого поиска информации; • программирование на языках С, C++
Цель освоения дисциплины

Цель освоения дисциплины

  • Целями освоения дисциплины "Компьютерная лингвистика" являются формирование у студентов четкого представления места и роли современных систем извлечения данных, освоение теоретических основ моделирования и обработки информации на естественном языке, понимание тенденций развития отрасли и направления перспективных исследований, изучение студентами принципов построения современных информационно-поисковых систем
Планируемые результаты обучения

Планируемые результаты обучения

  • Уметь обрабатывать тексты с помощью основных алгоритмов
  • Уметь использовать векторные представления текстов для ответа на запросы
  • Уметь использовать вероятностную модель для поиска информации в тексте
Содержание учебной дисциплины

Содержание учебной дисциплины

  • Основы обработки текстов
    Задачи компьютерной лингвистики. Предобработка текстов. Токинизация, разбиение на предложения, нормализация, стемминг, лемматизация. Поиск подстроки в строке. Дистанция редактирования, расстояние Левенштейна. Обратный индекс. Предобработка, регуляр-ные выражения. Вычисление дистанции редактирования. Лемматизация Pymorphy2. Применение обратного индекса для поиска в документах
  • Представление текстов в векторном пространстве
    Модель мешка слов, частоты слов, стоп слова, TFIDF, тексты в векторном пространстве. Норма вектора и расстояние в метрическом пространстве. Косинусное расстояние. Разреженные матрицы. Вычисление TF и косинусных расстояний между векторами, сохранение в CSV. Лемматизация Mystem3. Парсинг XML структуры
  • Вероятностная модель извлечения информации
    Вероятностная модель BIRM. Вычисление значений коэффициентов и визуализация функции распределения для релевантных и не релевантных документов коллекции. Анализ качества работы системы извлечения информации. Ошибки первого и второго рода, точность, полнота, F-мера, ROC, AUC. Марковский процесс и N-граммная языковая модель. Перплексия. Вычисление перплексии текста, используя частоты юниграмм. Скрытая марковская модель. OpenCorpora. Задача тегирования
Элементы контроля

Элементы контроля

  • неблокирующий Домашнее задание №1
  • неблокирующий Домашнее задание №2
  • неблокирующий Домашнее задание №3
  • неблокирующий Экзамен
    Итоговый контроль в 2019/2020 учебном году состоялся в 3 модуле
  • неблокирующий Домашнее задание №1
  • неблокирующий Домашнее задание №2
  • неблокирующий Домашнее задание №3
  • неблокирующий Экзамен
    Итоговый контроль в 2019/2020 учебном году состоялся в 3 модуле
Промежуточная аттестация

Промежуточная аттестация

  • Промежуточная аттестация (3 модуль)
    0.3 * Домашнее задание №1 + 0.2 * Домашнее задание №2 + 0.3 * Домашнее задание №3 + 0.2 * Экзамен
Список литературы

Список литературы

Рекомендуемая основная литература

  • Коэльо Л.П., Ричарт В. - Построение систем машинного обучения на языке Python - Издательство "ДМК Пресс" - 2016 - 302с. - ISBN: 978-5-97060-330-7 - Текст электронный // ЭБС ЛАНЬ - URL: https://e.lanbook.com/book/82818

Рекомендуемая дополнительная литература

  • Lappin, S., Fox, C., & Clark, A. (2010). The Handbook of Computational Linguistics and Natural Language Processing. Chichester, West Sussex: Wiley-Blackwell. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=330500
  • Интеллектуальный анализ данных и систем управления бизнес-правилами в телекоммуникациях: Монография / Р.Р. Вейнберг. - Москва : НИЦ ИНФРА-М, 2016. - 173 с.: 60x90 1/16. - (Научная мысль) (Обложка) ISBN 978-5-16-011350-0 - Текст : электронный. - URL: http://znanium.com/catalog/product/520998
  • Информационные системы : учебное пособие / О. Л. Голицына, Н. В. Максимов, И. И. Попов. — 2-е изд. — М. : ФОРУМ : ИНФРА-М, 2018. — 448 с. : ил. — (Высшее образование). - Режим доступа: http://znanium.com/catalog/product/953245
  • Основы алгоритмизации и программирования на Python : учеб. пособие / С.Р. Гуриков. — М. : ФОРУМ : ИНФРА-М, 2018. — 343 с. — (Высшее образование: Бакалавриат). - Режим доступа: http://znanium.com/catalog/product/924699
  • Цифровые методы обработки информации/БорисоваИ.В. - Новосиб.: НГТУ, 2014. - 139 с.: ISBN 978-5-7782-2448-3