• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта
Бакалавриат 2021/2022

Цифровые методы для гуманитариев

Статус: Курс обязательный (Филология)
Направление: 45.03.01. Филология
Когда читается: 3-й курс, 1, 2 модуль
Формат изучения: с онлайн-курсом
Онлайн-часы: 4
Охват аудитории: для своего кампуса
Язык: русский
Кредиты: 3
Контактные часы: 42

Программа дисциплины

Аннотация

Содержание курса охватывает основы статистики, визуализацию данных, основы количественного анализа текстов и основы программирования на R. Освоение курса поможет студентам освоить основные категории и инструменты, необходимые для выполнения количественного анализа данных в гуманитарных науках, а также заложит основу для дальнейшего обучения современным методам анализа и визуализации данных.
Цель освоения дисциплины

Цель освоения дисциплины

  • Познакомить студентов-филологов с базовыми понятиями и методами анализа и визуализации данных, а также дать базовые навыки работы с программным инструментарием, необходимым для анализа и визуализации данных на примере статистического пакета R.
  • Получение студентами знания об основных методах и направлениях развития цифровых гуманитарных наук (digital humanities) и применения цифровых технологий для решения практических задач, связанных с автоматическим анализом текста.
  • Знакомство студентов с основными понятиями и методами статистического анализа, его применения в филологической работе.
  • Получение студентами практических навыков работы в программной среде R с инструментариями автоматической обработки текста, анализа и визуализации данных.
Планируемые результаты обучения

Планируемые результаты обучения

  • Студент имеет представления о концепции tidy data и case-variable structure, представлении данных в форматах текста с разделителями, XML и JSON.
  • Студент знает основы прикладной статистики, умеет выполнять стандартные задания по визуализации данных и формальному анализу данных (получение дескриптивных статистик, расчет корреляций, линейной регрессии, сравнение двух и более выборок, анализ таблиц сопряженности в среде статистического программирования и анализа данных R) семинарах, экзамен.
  • Студент знает принцип распределения языковых единиц в текстах и понимает его следствия для теоретических и прикладных вопросов количественного анализа текста
  • Студент знаком с содержанием дистрибутивной гипотезы и современными данными по этой проблеме, имеет представление о сфере применения дистрибутивных методов в задачах количественного анализа текста
  • Студент имеет представление о логике работы и сфере применения методов тематического моделирования
  • Студент имеет представление о наиболее общих программных инструментах, используемых в цифровой гуманиоре, знает основы языка регулярных выражений, умеет использовать их в программных скриптах и владеет основами пользования imagemagick и OCR-Tesseract для подготовки текстов к анализу.
  • Студент имеет представление о принципах креативной инфографики и умеет реализовывать свои идеи в области креативной инфографики средствами R.
  • Студент имеет представление о принципе решения задач классификации в машинном обучении, умеет применять наивный байесовкий классификатор
Содержание учебной дисциплины

Содержание учебной дисциплины

  • Введение. Обзор инструментов.
  • Данные.
  • Визуализация паттернов и формальные методы анализа.
  • Элементы креативной инфографики.
  • Лексическая статистика.
  • Классификация текстов.
  • Дистрибутивная семантика.
  • Тематическое моделирование.
Элементы контроля

Элементы контроля

  • неблокирующий Домашнее задание
    Выполняется письменно и состоит из небольших упражнений, проверяющих усвоение материала семинаров. Направляется студентам по электронной почте. Студенты направляют ответ преподавателю также по электронной почте.
  • неблокирующий Экзамен (контрольная работа)
    Экзамен проводится письменно в аудитории. Все вопросы разработаны на основе пройденного материала. Студенты заранее могут ознакомится с вопросами. Экзамен проходит в компьютерном классе.
Промежуточная аттестация

Промежуточная аттестация

  • 2021/2022 учебный год 2 модуль
    0.4 * Экзамен (контрольная работа) + 0.6 * Домашнее задание
Список литературы

Список литературы

Рекомендуемая основная литература

  • Роберт, И. R в действии. Анализ и визуализация данных в программе R : руководство / И. Роберт, Кабаков ; перевод с английского Полины А. Волковой. — Москва : ДМК Пресс, 2014. — 588 с. — ISBN 978-5-97060-077-1. — Текст : электронный // Лань : электронно-библиотечная система. — URL: https://e.lanbook.com/book/58703 (дата обращения: 00.00.0000). — Режим доступа: для авториз. пользователей.

Рекомендуемая дополнительная литература

  • Bamman, D., Eisenstein, J., & Schnoebelen, T. (2014). Gender identity and lexical variation in social media[The resear]. Journal of Sociolinguistics, 18(2), 135–160. https://doi.org/10.1111/josl.12080
  • Коршунов, А., & Гомзин, А. (2012). Тематическое Моделирование Текстов На Естественном Языке. Труды Института Системного Программирования РАН. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsclk&AN=edsclk.14037894

Авторы

  • Копотев Михаил Вячеславович
  • Шерстинова Татьяна Юрьевна