Бакалавриат
2022/2023
Программирование и лингвистические данные
Лучший по критерию «Полезность курса для Вашей будущей карьеры»
Лучший по критерию «Полезность курса для расширения кругозора и разностороннего развития»
Статус:
Курс обязательный (Фундаментальная и компьютерная лингвистика)
Направление:
45.03.03. Фундаментальная и прикладная лингвистика
Кто читает:
Школа лингвистики
Где читается:
Факультет гуманитарных наук
Когда читается:
2-й курс, 1-3 модуль
Формат изучения:
без онлайн-курса
Охват аудитории:
для своего кампуса
Преподаватели:
Бузанов Антон Олегович,
Пожидаева Марина Александровна,
Попова Дарья Павловна,
Пурыгин Михаил Павлович
Язык:
русский
Кредиты:
3
Контактные часы:
62
Программа дисциплины
Аннотация
Целями освоения дисциплины «Программирование и лингвистические данные» является получение теоретических знаний и практических навыков использования различного компьютерного инструментария в лингвистических исследованиях. Блок «Программирование» посвящен изучению основ программирования на языке Python, алгоритмов, регулярных выражений. Блок «Лингвистические данные» знакомит слушателей с основными компьютерными инструментами и электронными лингвистическими ресурсами, с методами автоматизации сбора, обработки и анализа лингвистического материала, а также со способами представления данных и результатов исследований в виде компьютерных ресурсов.
Цель освоения дисциплины
- Овладение навыками программирования на языке Python
- Овладение навыками применения регулярных выражений при работе с текстом
- Получение опыта применения языка Python для решения задач, возникающих при автоматической обработке текстов
Планируемые результаты обучения
- Знать основные конструкции языка Python
- знать основные типы лингвистических ресурсов
- Знать особенности изменяемых и неизменяемых типов данных
- Знать синтаксис и особенности работы регулярных выражений
- иметь представление об основных форматах представления текста, кодировке текста
- иметь представление, какие типы лингвистической информации и какие уровни описания языка отражает лингвистический ресурс
- Уметь выполнять основные операции с использованием регулярных выражений: поиск, замена, разделение
- уметь выполнять основные операции с текстовыми данными (сортировки, фильтрация, индексирование, выделение подстроки, сводные таблицы)
- Уметь запускать программы на Python в командной строке и интерактивном интерпретаторе Python
- Уметь искать и устанавливать модули с помощью pip
- Уметь использовать готовые модули в своих программах
- Уметь писать функции и тестировать их работу
- уметь пользоваться инструментами разметки корпуса (ELAN, UDpipe, акцентуаторы)
- Уметь пользоваться модулем collections для задач подсчета и подобных им
- уметь пользоваться полнофункциональными текстовыми и табличными редакторами
- уметь пользоваться различными типами поисковых корпусных систем
- Уметь преобразовывать строки в различные типы данных
- Уметь применять словари и списки для работы с данными
- Уметь производить основные операции с файлами: чтение, запись, изменение
- Уметь производить основные операции с файловой системой: поиск файлов и директорий, получение содержимого директории, обход директорий, копирование и перемещение файлов и папок
- Уметь работать с модулем re
- Уметь разделять программу на релевантные функции
- уметь размечать пользовательские корпусные данные на различных лингвистических и текстовом уровнях
- Уметь решать прикладные задачи с применением условных конструкций
- Уметь решать прикладные задачи с применением условных конструкций и циклов
- Уметь решать прикладные задачи с применением циклов
- уметь собирать и корректно интепретировать частотную информацию из корпуса
Содержание учебной дисциплины
- Начало работы с Python. Базовые арифметические операции. Переменные
- Управляющие конструкции в Python
- Управляющие конструкции в Python (продолжение)
- Циклы и индексы в Python
- Структуры данных в Python
- Работа с файлами
- Функции в Python
- Модули Python
- Форматы хранения данных
- Регулярные выражения
- Работа с файловой системой
- Лингвистические ресурсы
- Основы анализа и обработки текста
- Основы анализа и обработки текста (продолжение)
- Методы и инструменты создания корпусов.
Элементы контроля
- Контрольные работыПересдается в течение недели после окончания пропуска по уважительной причине, но не позднее 10 дней до сессии, если преподавателем не указано иное.
- Домашние заданияПересдается в течение недели после окончания пропуска по уважительной причине, но не позднее 10 дней до сессии, если преподавателем не указано иное.
- Тесты
- ПроектПересдается в течение недели после окончания пропуска по уважительной причине, но не позднее 10 дней до сессии, если преподавателем не указано иное.
- ЭкзаменПо общим правилам пересдачи экзамена, пропущенного по уважительной причине.
- Экзамен по КИЛИПересдается в течение недели после окончания пропуска по уважительной причине, но не позднее 10 дней до сессии.
- домашние задания
- контрольная работа
- проект
- экзамен
Промежуточная аттестация
- 2021/2022 учебный год 2 модуль-
- 2021/2022 учебный год 4 модульOитог= 0.2*Oпроект+0.2*Oконтрольные+0.2*Oэкзамен+0.2*Oтесты+0.2*Oдз
- 2022/2023 учебный год 2 модуль-
- 2022/2023 учебный год 3 модульOитог= 0.3*Oпроект+0.2*Oконтрольная+0.5*((Oдз1+Oдз2+Oдз3+Oдз4+Oдз5+Oдз6)/6)
Список литературы
Рекомендуемая основная литература
- Федоров, Д. Ю. Программирование на языке высокого уровня Python : учебное пособие для среднего профессионального образования / Д. Ю. Федоров. — 2-е изд. — Москва : Издательство Юрайт, 2019. — 161 с. — (Профессиональное образование). — ISBN 978-5-534-11961-9. — Текст : электронный // Образовательная платформа Юрайт [сайт]. — URL: https://urait.ru/bcode/446505 (дата обращения: 28.08.2023).
Рекомендуемая дополнительная литература
- Основы алгоритмизации и программирования на Python : учеб. пособие / С.Р. Гуриков. — М. : ФОРУМ : ИНФРА-М, 2017. — 343 с. — (Высшее образование: Бакалавриат). - Режим доступа: http://znanium.com/catalog/product/772265