Цифровые методы для гуманитариев

Бакалавриат 2020/2021

Статус: Курс обязательный (Филология)

Направление: 45.03.01. Филология

Кто читает: Департамент филологии

Где читается: Санкт-Петербургская школа гуманитарных наук и искусств

Когда читается: 3-й курс, 1, 2 модуль

Формат изучения: с онлайн-курсом

Преподаватели: Климов Александр Антонович, Шерстинова Татьяна Юрьевна

Язык: русский

Кредиты: 3

Контактные часы: 42

Дополнительные материалы в LMS Задать вопрос

Аннотация

Содержание курса охватывает основы статистики, визуализацию данных, основы количественного анализа текстов и основы программирования на R. Освоение курса поможет студентам освоить основные категории и инструменты, необходимые для выполнения количественного анализа данных в гуманитарных науках, а также заложит основу для дальнейшего обучения современным методам анализа и визуализации данных.

Цель освоения дисциплины

Получение студентами знания об основных методах и направлениях развития цифровых гуманитарных наук (digital humanities) и применения цифровых технологий для решения практических задач, связанных с автоматическим анализом текста.
Знакомство студентов с основными понятиями и методами статистического анализа, его применения в филологической работе.
Получение студентами практических навыков работы в программной среде R с инструментариями автоматической обработки текста, анализа и визуализации данных.

Планируемые результаты обучения

Студент имеет представление о наиболее общих программных инструментах, используемых в цифровой гуманиоре, знает основы языка регулярных выражений, умеет использовать их в программных скриптах и владеет основами пользования imagemagick и OCR-Tesseract для подготовки текстов к анализу.
Студент имеет представления о концепции tidy data и case-variable structure, представлении данных в форматах текста с разделителями, XML и JSON.
Студент знает основы прикладной статистики, умеет выполнять стандартные задания по визуализации данных и формальному анализу данных (получение дескриптивных статистик, расчет корреляций, линейной регрессии, сравнение двух и более выборок, анализ таблиц сопряженности в среде статистического программирования и анализа данных R) семинарах, экзамен.
Студент имеет представление о принципах креативной инфографики и умеет реализовывать свои идеи в области креативной инфографики средствами R.
Студент знает принцип распределения языковых единиц в текстах и понимает его следствия для теоретических и прикладных вопросов количественного анализа текста
Студент имеет представление о принципе решения задач классификации в машинном обучении, умеет применять наивный байесовкий классификатор
Студент знаком с содержанием дистрибутивной гипотезы и современными данными по этой проблеме, имеет представление о сфере применения дистрибутивных методов в задачах количественного анализа текста
Студент имеет представление о логике работы и сфере применения методов тематического моделирования

Содержание учебной дисциплины

Введение. Обзор инструментов.
(1.1)Вступление: о важности визуализации паттернов. Квартет Энскомба. Задачи анализа данных: описание разнообразия и поиск взаимосвязей. (1.2) Обзор основных инструментов, изучаемых в рамках курса и их место в задачах анализа данных. Редакторы кода. Язык регулярных выражений. Среда статистического программирования и анализа данных R. Imagemagick. OCR-Tesseract. QGIS.
Данные.
Данные и метаданные, концепция tidy data. Case-variable структура, агрегированные и дезагрегированные данные. Классификация переменных и шкал. Специфика цифрового представления данных. Кодировки текстовых файлов и обработка концов строк. Delimited text, XML, JSON.
Визуализация паттернов и формальные методы анализа.
(3.1) Отображение разнообразия: гистограммы и столбчатые диаграммы. Графические образы моделей с двумя переменными: диаграмма рассеяния, диаграммы разброса (множественный boxplot), диаграмма рассеяния с добавленным шумом, структурированные столбчатые диаграммы. (3.2) Меры центральности и разброса, их особенности. Асимметрия и эксцесс. Основные представления о нормальном распределении. (3.3) Выборочный метод. Точечные и интервальные оценки параметров. Статистическая гипотеза и ее тестирование, p-value. (3.4) Связь двух количественных переменных. Корреляция. Основные представления о линейной регрессии. Сравнение двух и более групп между собой. Параметрические и непараметрические методы. Общее понятие об обобщенной линейной модели. Анализ таблиц сопряженности.
Элементы креативной инфографики.
Использование инфографики в просопографических проектах, проектах по Distant reading, карты и социальные сети.
Лексическая статистика.
Частотное распределение лексики в языке. Закон Ципфа. Доля hapax legomena. Скорость роста словаря. Меры лексического разнообразия и их применимость. Распределение лексики в текстах коллекции. Взвешенная частотность. TF-IDF. Прочие меры лексической дисперсии. Коллокации. Формальные определения и лингвистический смысл коллокаций. Меры ассоциации. Коэффициент взаимной информации (MI). Извлечение ключевых слов. Метод контрастного корпуса. Отношение правдоподобия. Диахронический анализ лексической частотности.
Классификация текстов.
Задача классификаци в машинном обучении. Векторное представление текста для задач информационного поиска. Открытые и закрытые классы слов. Стоп-слова. Динамические списки стоп слов. Порог отсечения по частотности и DF. Классификация текстов. Теорема байеса. Популярные алгоритмы классификации: наивный байесовский метод, метод опорных векторов, деревья принятия решений.
Дистрибутивная семантика.
Дистрибутивная семантика. Совместная встречаемость и семантическая близость. Пространственное моделирование семантических отношений (word space). Методы снижения размерности векторных пространств. Латентный семантический анализ. Векторные представления дистрибуции слова в пространствах низкой размерности (word embeddings).
Тематическое моделирование.
Операционализация понятия «тема» как вероятностного распределения лексики. Латентное размещение Дирихле (LDA). Процедура тематического моделирования. Препроцессинг. Сегментация текстов. Сэмплирование Гиббса. Интерпретация тем. Оценка качества модели. Использование результатов тематического моделирования в задаче классификации текстов. Оченка качества классификации (продолжение). Таблица сопряженности. Точность, полнота, F- мера. Матрица неточностей. Каппа-статистика.

Элементы контроля

Экзамен (контрольная работа)
Экзамен проводится письменно в аудитории. Все вопросы разработаны на основе пройденного материала. Студенты заранее могут ознакомится с вопросами. Экзамен проходит в компьютерном классе.
Домашнее задание
Выполняется письменно и состоит из небольших упражнений, проверяющих усвоение материала семинаров. Направляется студентам по электронной почте. Студенты направляют ответ преподавателю также по электронной почте.

Промежуточная аттестация

Промежуточная аттестация (2 модуль)
0.6 * Домашнее задание + 0.4 * Экзамен (контрольная работа)

Программа дисциплины