Бакалавриат
2023/2024
Компьютерная лингвистика
Лучший по критерию «Новизна полученных знаний»
Статус:
Курс по выбору (Филология)
Направление:
45.03.01. Филология
Кто читает:
Департамент филологии
Где читается:
Санкт-Петербургская школа гуманитарных наук и искусств
Когда читается:
4-й курс, 1-3 модуль
Формат изучения:
без онлайн-курса
Охват аудитории:
для своего кампуса
Язык:
русский
Кредиты:
6
Контактные часы:
70
Программа дисциплины
Аннотация
Курс предполагает знакомство студентов с основными направлениями и методами компьютерной лингвистики, формированию у них практических навыков работы с лингвистическими ресурсами и программами компьютерного анализа текстов, построение собственного корпуса текстов или лингвистической базы данных и проведение лингвистического исследования с использованием компьютерных средств. Курс предназначен для студентов-филологов и не требует специальной компьютерной подготовки или навыков программирования. Предлагаемый курс будет полезен не только студентам лингвистического направления, но и студентам-литературоведам, поскольку синтез традиционного и компьютерного подхода в филологических исследованиях является весьма перспективным.
Цель освоения дисциплины
- ● Получение студентами знания об основных методах и направлениях развития компьютерной лингвистики.
- ● Приобретение студентами навыков адекватного пользование основными программными продуктами, необходимыми при работе с текстами и корпусами текстов, и навыков создания собственных корпусов текстов для решения локальных научных и академических задач.
Планируемые результаты обучения
- Студент знает программы по автоматической обработке текстов на лексическом и морфологическом уровнях и умеет ими пользоваться
- Студент знает программы по автоматической обработке текстов на синтаксическом, семантическом и прагматическом уровнях и умеет ими пользоваться.
- Студент знаком с основами статистического анализа, методами и подходами квантитативной лингвистики
- Студент имеет представление об основных задачах и приложениях компьютерной лингвистики.
- Студент знает базовые принципы работы с мультимедийным контентом
Содержание учебной дисциплины
- Основные задачи, основания и приложения компьютерной лингвистики
- Возможности и программы автоматической обработки текстов на лексическом и морфологическом уровнях
- Возможности и программы автоматической обработки текстов на синтаксическом, семантическом и прагматическом уровнях
- Возможности аннотирования и автоматического анализа мультимедийного контента (аудио- и видеозаписей)
- Основы статистики. Элементы квантитативной лингвистики
- Способы лингвистической обработки
- Объектно-ориентированного программирование.
- Дистрибутивная семантика.
- Машинный перевод на основе правил
- Статистический машинный перевод и введение в машинное обучение.
- Механизм внимания и трансформеры для машинного перевода.
- Проект.
Элементы контроля
- Домашнее заданиеОписание: Выполняется письменно, не разбивается на варианты и состоит из небольших упражнений, проверяющих усвоение материала лекций и семинаров. Направляется студентам по электронной почте в течение модуля. Студенты направляют ответ преподавателю также по электронной почте. Преподаватель дает обратную связь студентам на следующем семинаре, разбирая основные ошибки.
- ПроектОписание: Представляет собой исследовательскую работу с применением пройденных методов и инструментов компьютерной лингвистики
- ПроектОписание: Проект представляет собой разработку модели обработки естественного языка с использованием глубокого обучения. Для начинающих студентов следует выбрать проект, который соответствует их уровню знаний и навыков. Цель проекта: Разработать модель машинного обучения для анализа тональности текстов, которая способна определять, является ли текст положительным, отрицательным или нейтральным. Задачи проекта: Сбор и подготовка данных: Найти и загрузить набор данных, содержащий отзывы, комментарии или тексты с разной тональностью (положительной, отрицательной и нейтральной). Предобработка данных: Очистить и подготовить тексты для обучения, включая токенизацию, удаление стоп-слов, лемматизацию и преобразование текстов в числовой формат. Разработка модели: Создать нейронную сеть для классификации тональности текстов, например, с использованием сверточных нейронных сетей (CNN). Обучение модели: Обучить модель на подготовленных данных. Оптимизировать гиперпараметры модели для улучшения ее производительности. Оценка модели: Оценить производительность модели с использованием метрик, таких как точность, полнота, F1-мера и матрица ошибок. Тестирование: Провести тестирование модели на новых данных, чтобы убедиться, что она способна классифицировать тональность текстов. Инструменты и технологии: Python, библиотеки для машинного обучения (например, TensorFlow или PyTorch), библиотеки для обработки текста (например, NLTK или spaCy).
- Аудиторная и домашняя работаОписание: Изучение основ обработки текстов с использованием библиотек Python Цель аудиторной и домашней работы: Освоить основы обработки текстов и текстовых данных с использованием Python и соответствующих библиотек.
- Контрольная работаОписание: Основы обработки текстов и нейронных сетей в NLP
Промежуточная аттестация
- 2023/2024 учебный год 2 модуль0.4 * Домашнее задание + 0.6 * Проект
- 2023/2024 учебный год 3 модуль0.4 * Аудиторная и домашняя работа + 0.2 * Контрольная работа + 0.4 * Проект
Список литературы
Рекомендуемая основная литература
- Davies, A., & Elder, C. (2004). The Handbook of Applied Linguistics. Malden, MA: Wiley-Blackwell. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=108713
- Lappin, S., Fox, C., & Clark, A. (2010). The Handbook of Computational Linguistics and Natural Language Processing. Chichester, West Sussex: Wiley-Blackwell. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=330500
Рекомендуемая дополнительная литература
- Baker, P., Hardie, A., & McEnery, T. (2006). A Glossary of Corpus Linguistics. Edinburgh: Edinburgh University Press. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=169612