Бакалавриат
2023/2024
Программирование (язык R)
Лучший по критерию «Новизна полученных знаний»
Статус:
Курс обязательный (Фундаментальная и компьютерная лингвистика)
Направление:
45.03.03. Фундаментальная и прикладная лингвистика
Кто читает:
Школа лингвистики
Где читается:
Факультет гуманитарных наук
Когда читается:
3-й курс, 2 модуль
Формат изучения:
с онлайн-курсом
Онлайн-часы:
20
Охват аудитории:
для всех кампусов НИУ ВШЭ
Преподаватели:
Мороз Георгий Алексеевич
Язык:
русский
Кредиты:
3
Контактные часы:
6
Программа дисциплины
Аннотация
Курс познакомит студентов с основами языка программирования R, кроме того, учебная программа поможет углубиться в изучение темы анализа и обработки данных. Для успешного прохождения дистанционного курса потребуется всего лишь 5-6 часов в неделю.
Цель освоения дисциплины
- Данный курс знакомит с основами программирования и обработки данных в R. Курс в первую очередь предназначен для теоретических лингвистов, хотя и не предполагает никаких предварительных знаний в какой-то конкретной области. В противовес стандартным курсам R, обычно основанным на статистической обработке данных и их визуализации, значительная часть курса посвящена работе со строками и обработке естественного языка. Курс состоит из 10 недель, которые охватывают все разделы анализа данных: загрузка, чистка, разведочный анализ, визуализация и статистическое моделирование. Большинство недель будет заканчиваться 4 часовым тестом, в ходе которого нужно будет решить несколько задач на программирование или анализ данных. В части курса, посвященной статистическому анализу данных, мы обсудим основы статистического вывода и обсудим базовые статистические тесты. Кроме того мы обсудим методы построения регрессий и кластеризации, что станет хорошей базой для дальнейших курсов посвященным продвинутому статистическому анализу и машинному обучению. Для работы на курсе необходимо будет установить программы R и RStudio. Пакеты необходимые для установки, будут перечислены в ходе лекций.
Планируемые результаты обучения
- Владеет основами работы в R.
- Владеть навыками работы с базовыми структурами в R
- научится работать с датафреймами в dplyr
- изучит как работают циклы в R, и как их избегать
- познакомится с понятием tidy data
- научится визуализировать разные типы данных в R
- научатся использовать фасетизацию
- научится делать html документы в R
- научится делать интерактивную визуализацию
- научится работать с пакетом lingtypology и строить карты языков
- научится переводить набор текстов в формат tidytext
- научится считать частотность слова и определять наиболее важные для текста слова
- научится считать TfIdf для корпуса текстов
- научится применять статистические тесты в R
- научится работать с выдачей статистических функций в R
- научится работать со строками в R
- научится работать с регулярными выражениями в R
- изучит понятие расстояние между строками и научиться его считать
Содержание учебной дисциплины
- Введение в R: основные элементы, функции, циклы
- Продвинутая обработка данных: пакет tidyverse. Циклы в R
- Работа со строками: строки в R, регулярные выражения
- Визуализация данных: ggplot2
- Интерактивная визуализация: rmarkdown, plotly, lingtypology
- Работа с текстами: пакет tidytext
- Введение в статистику: основы фриквентисткой статистики, формулировка гипотез
Промежуточная аттестация
- 2023/2024 2nd module0.125 * Тест 1 + 0.125 * Тест 10 + 0.125 * Тест 2 + 0.125 * Тест 5 + 0.125 * Тест 6 + 0.125 * Тест 7 + 0.125 * Тест 8 + 0.125 * Тест 9
Список литературы
Рекомендуемая основная литература
- An introduction to R : a programming environment for data analysis and graphics, Venables, W. N., 2009
Рекомендуемая дополнительная литература
- Applied spatial data analysis with R, Bivand, R. S., 2008
- Методы прикладной статистики в R и Excel : учеб. пособие для вузов, Буре, В. М., 2018