Бакалавриат
2020/2021
Программирование и лингвистические данные
Лучший по критерию «Новизна полученных знаний»
Статус:
Курс обязательный (Фундаментальная и компьютерная лингвистика)
Направление:
45.03.03. Фундаментальная и прикладная лингвистика
Кто читает:
Школа лингвистики
Где читается:
Факультет гуманитарных наук
Когда читается:
3-й курс, 1, 2 модуль
Формат изучения:
с онлайн-курсом
Преподаватели:
Мороз Георгий Алексеевич
Язык:
русский
Кредиты:
3
Контактные часы:
6
Программа дисциплины
Аннотация
Курс знакомит студентов с основами работы в R и RSrudio, с основными типами данных, методами сбора, обработки и трансформации данных, формирует умение преобразовывать и визуализировать данные, тренирует навык самостоятельного анализа данных.
Цель освоения дисциплины
- знакомство с основами работы в R и RStudio
- знакомство с основными типами данных (таблицы, тексты, изображение с текстом)
- знакомство с основными методами сбора, обработки и трансформации данных
- знакомство с основными методами визуализации и представления данных
- знакомство с основными методами регрессионного анализа
Планируемые результаты обучения
- знает чем наука о данных отличается от машинного обучения и статистики.
- владеет основами программирования на R
- владеет методами обработки данных
- владеет методам анализа строк
- владеет методами визуализации данных
- знает лингвистические пакеты на R
- применяет основные фриквентисткие тесты
- применяет корреляционный и регрессионный анализы
- применяет метод логистической регресии
- Понимает критерии солгасия
Содержание учебной дисциплины
- Введение в Data Science
- Введение в R: основные элементы, функции, циклы
- Продвинутая обработка данных: пакеты tidyr и dplyr
- Работа со строками: строки в R, регулярные выражения
- Визуализация данных: base R vs. ggplot2
- Лингвистические пакеты
- Введение в статистику: основы фриквентисткой статистики, формулировка гипотез
- Корреляция и линейная регрессия
- Логистическая и мультиномиальная регрессия
- Критерии согласия
Промежуточная аттестация
- Промежуточная аттестация (2 модуль)0.6 * Промежуточные тесты + 0.4 * Финальный тест
Список литературы
Рекомендуемая основная литература
- Wickham, H., & Grolemund, G. (2016). R for Data Science : Import, Tidy, Transform, Visualize, and Model Data (Vol. First edition). Sebastopol, CA: Reilly - O’Reilly Media. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=1440131
Рекомендуемая дополнительная литература
- Mailund, T. (2017). Beginning Data Science in R : Data Analysis, Visualization, and Modelling for the Data Scientist. New York: Apress. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=1484645