Бакалавриат
2020/2021
Компьютерная лингвистика
Лучший по критерию «Полезность курса для Вашей будущей карьеры»
Лучший по критерию «Полезность курса для расширения кругозора и разностороннего развития»
Лучший по критерию «Новизна полученных знаний»
Статус:
Курс по выбору (Прикладная математика и информатика)
Направление:
01.03.02. Прикладная математика и информатика
Когда читается:
4-й курс, 3 модуль
Формат изучения:
без онлайн-курса
Преподаватели:
Карпов Николай Вячеславович,
Слащинин Сергей Владимирович
Язык:
русский
Кредиты:
4
Контактные часы:
40
Программа дисциплины
Аннотация
Курс направлен на подготовку специалистов, способных проводить информационное моделирование предметной области и решать прикладные задачи обработки информации на высоком техническом уровне. Практические занятия служат для получения устойчивых навыков обработки естественного языка с использованием современных высокоуровневых языков программирования в качестве прикладного программиста. Для выполнения заданий используется скриптовый язык Python3, а также технологическая платформа Anaconda4. Для освоения учебной дисциплины, студенты должны владеть следующими знаниями и компетенциями: • современные методы проектирования и реализации информационных систем; • основные алгоритмы и структуры данных для быстрого поиска информации; • программирование на языках С, C++
Цель освоения дисциплины
- Целями освоения дисциплины "Компьютерная лингвистика" являются формирование у студентов четкого представления места и роли современных систем извлечения данных, освоение теоретических основ моделирования и обработки информации на естественном языке, понимание тенденций развития отрасли и направления перспективных исследований, изучение студентами принципов построения современных информационно-поисковых систем
Планируемые результаты обучения
- Уметь обрабатывать тексты с помощью основных алгоритмов
- Уметь использовать векторные представления текстов для ответа на запросы
- Уметь использовать вероятностную модель для поиска информации в тексте
Содержание учебной дисциплины
- Основы обработки текстовЗадачи компьютерной лингвистики. Предобработка текстов. Токинизация, разбиение на предложения, нормализация, стемминг, лемматизация. Поиск подстроки в строке. Дистанция редактирования, расстояние Левенштейна. Обратный индекс. Предобработка, регуляр-ные выражения. Вычисление дистанции редактирования. Лемматизация Pymorphy2. Применение обратного индекса для поиска в документах
- Представление текстов в векторном пространствеМодель мешка слов, частоты слов, стоп слова, TFIDF, тексты в векторном пространстве. Норма вектора и расстояние в метрическом пространстве. Косинусное расстояние. Разреженные матрицы. Вычисление TF и косинусных расстояний между векторами, сохранение в CSV. Лемматизация Mystem3. Парсинг XML структуры
- Вероятностная модель извлечения информацииВероятностная модель BIRM. Вычисление значений коэффициентов и визуализация функции распределения для релевантных и не релевантных документов коллекции. Анализ качества работы системы извлечения информации. Ошибки первого и второго рода, точность, полнота, F-мера, ROC, AUC. Марковский процесс и N-граммная языковая модель. Перплексия. Вычисление перплексии текста, используя частоты юниграмм. Скрытая марковская модель. OpenCorpora. Задача тегирования
Элементы контроля
- Домашнее задание №1
- Домашнее задание №2
- Домашнее задание №3
- ЭкзаменИтоговый контроль в 2019/2020 учебном году состоялся в 3 модуле
- Домашнее задание №1
- Домашнее задание №2
- Домашнее задание №3
- ЭкзаменИтоговый контроль в 2019/2020 учебном году состоялся в 3 модуле
Промежуточная аттестация
- Промежуточная аттестация (3 модуль)0.3 * Домашнее задание №1 + 0.2 * Домашнее задание №2 + 0.3 * Домашнее задание №3 + 0.2 * Экзамен
Список литературы
Рекомендуемая основная литература
- Коэльо Л.П., Ричарт В. - Построение систем машинного обучения на языке Python - Издательство "ДМК Пресс" - 2016 - 302с. - ISBN: 978-5-97060-330-7 - Текст электронный // ЭБС ЛАНЬ - URL: https://e.lanbook.com/book/82818
Рекомендуемая дополнительная литература
- Lappin, S., Fox, C., & Clark, A. (2010). The Handbook of Computational Linguistics and Natural Language Processing. Chichester, West Sussex: Wiley-Blackwell. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=330500
- Интеллектуальный анализ данных и систем управления бизнес-правилами в телекоммуникациях: Монография / Р.Р. Вейнберг. - Москва : НИЦ ИНФРА-М, 2016. - 173 с.: 60x90 1/16. - (Научная мысль) (Обложка) ISBN 978-5-16-011350-0 - Текст : электронный. - URL: http://znanium.com/catalog/product/520998
- Информационные системы : учебное пособие / О. Л. Голицына, Н. В. Максимов, И. И. Попов. — 2-е изд. — М. : ФОРУМ : ИНФРА-М, 2018. — 448 с. : ил. — (Высшее образование). - Режим доступа: http://znanium.com/catalog/product/953245
- Основы алгоритмизации и программирования на Python : учеб. пособие / С.Р. Гуриков. — М. : ФОРУМ : ИНФРА-М, 2018. — 343 с. — (Высшее образование: Бакалавриат). - Режим доступа: http://znanium.com/catalog/product/924699
- Цифровые методы обработки информации/БорисоваИ.В. - Новосиб.: НГТУ, 2014. - 139 с.: ISBN 978-5-7782-2448-3