Бакалавриат
2021/2022
Цифровые методы для гуманитариев
Статус:
Курс обязательный (Филология)
Направление:
45.03.01. Филология
Кто читает:
Департамент филологии
Где читается:
Санкт-Петербургская школа гуманитарных наук и искусств
Когда читается:
3-й курс, 1, 2 модуль
Формат изучения:
с онлайн-курсом
Онлайн-часы:
4
Охват аудитории:
для своего кампуса
Язык:
русский
Кредиты:
3
Контактные часы:
42
Программа дисциплины
Аннотация
Содержание курса охватывает основы статистики, визуализацию данных, основы количественного анализа текстов и основы программирования на R. Освоение курса поможет студентам освоить основные категории и инструменты, необходимые для выполнения количественного анализа данных в гуманитарных науках, а также заложит основу для дальнейшего обучения современным методам анализа и визуализации данных.
Цель освоения дисциплины
- Познакомить студентов-филологов с базовыми понятиями и методами анализа и визуализации данных, а также дать базовые навыки работы с программным инструментарием, необходимым для анализа и визуализации данных на примере статистического пакета R.
- Получение студентами знания об основных методах и направлениях развития цифровых гуманитарных наук (digital humanities) и применения цифровых технологий для решения практических задач, связанных с автоматическим анализом текста.
- Знакомство студентов с основными понятиями и методами статистического анализа, его применения в филологической работе.
- Получение студентами практических навыков работы в программной среде R с инструментариями автоматической обработки текста, анализа и визуализации данных.
Планируемые результаты обучения
- Студент имеет представления о концепции tidy data и case-variable structure, представлении данных в форматах текста с разделителями, XML и JSON.
- Студент знает основы прикладной статистики, умеет выполнять стандартные задания по визуализации данных и формальному анализу данных (получение дескриптивных статистик, расчет корреляций, линейной регрессии, сравнение двух и более выборок, анализ таблиц сопряженности в среде статистического программирования и анализа данных R) семинарах, экзамен.
- Студент знает принцип распределения языковых единиц в текстах и понимает его следствия для теоретических и прикладных вопросов количественного анализа текста
- Студент знаком с содержанием дистрибутивной гипотезы и современными данными по этой проблеме, имеет представление о сфере применения дистрибутивных методов в задачах количественного анализа текста
- Студент имеет представление о логике работы и сфере применения методов тематического моделирования
- Студент имеет представление о наиболее общих программных инструментах, используемых в цифровой гуманиоре, знает основы языка регулярных выражений, умеет использовать их в программных скриптах и владеет основами пользования imagemagick и OCR-Tesseract для подготовки текстов к анализу.
- Студент имеет представление о принципах креативной инфографики и умеет реализовывать свои идеи в области креативной инфографики средствами R.
- Студент имеет представление о принципе решения задач классификации в машинном обучении, умеет применять наивный байесовкий классификатор
Содержание учебной дисциплины
- Введение. Обзор инструментов.
- Данные.
- Визуализация паттернов и формальные методы анализа.
- Элементы креативной инфографики.
- Лексическая статистика.
- Классификация текстов.
- Дистрибутивная семантика.
- Тематическое моделирование.
Элементы контроля
- Домашнее заданиеВыполняется письменно и состоит из небольших упражнений, проверяющих усвоение материала семинаров. Направляется студентам по электронной почте. Студенты направляют ответ преподавателю также по электронной почте.
- Экзамен (контрольная работа)Экзамен проводится письменно в аудитории. Все вопросы разработаны на основе пройденного материала. Студенты заранее могут ознакомится с вопросами. Экзамен проходит в компьютерном классе.
Промежуточная аттестация
- 2021/2022 учебный год 2 модуль0.4 * Экзамен (контрольная работа) + 0.6 * Домашнее задание
Список литературы
Рекомендуемая основная литература
- Роберт, И. R в действии. Анализ и визуализация данных в программе R : руководство / И. Роберт, Кабаков ; перевод с английского Полины А. Волковой. — Москва : ДМК Пресс, 2014. — 588 с. — ISBN 978-5-97060-077-1. — Текст : электронный // Лань : электронно-библиотечная система. — URL: https://e.lanbook.com/book/58703 (дата обращения: 00.00.0000). — Режим доступа: для авториз. пользователей.
Рекомендуемая дополнительная литература
- Bamman, D., Eisenstein, J., & Schnoebelen, T. (2014). Gender identity and lexical variation in social media[The resear]. Journal of Sociolinguistics, 18(2), 135–160. https://doi.org/10.1111/josl.12080
- Коршунов, А., & Гомзин, А. (2012). Тематическое Моделирование Текстов На Естественном Языке. Труды Института Системного Программирования РАН. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsclk&AN=edsclk.14037894