Бакалавриат
2021/2022
Анализ данных для лингвистов
Лучший по критерию «Полезность курса для расширения кругозора и разностороннего развития»
Лучший по критерию «Новизна полученных знаний»
Статус:
Курс по выбору (Фундаментальная и компьютерная лингвистика)
Направление:
45.03.03. Фундаментальная и прикладная лингвистика
Кто читает:
Школа лингвистики
Где читается:
Факультет гуманитарных наук
Когда читается:
4-й курс, 3 модуль
Формат изучения:
без онлайн-курса
Охват аудитории:
для всех кампусов НИУ ВШЭ
Преподаватели:
Мороз Георгий Алексеевич
Язык:
русский
Кредиты:
3
Контактные часы:
36
Программа дисциплины
Аннотация
Задачей курса «Анализ данных для лингвистов» является продолжение знакомства с различными методами анализа данных. Курс разделен на несколько тематических блоков: первый связан с применением байесовских статистических методов (байесовский апдейт, байесовский доверительный интервал, байесовский фактор, байесовкская эмпирическая оценка), второй связан с методами уменьшения размерности (PCA, LDA, CA, MCA), третий блок связан с методами кластеризации (k-means, иерархическая кластеризация, смешанные модели) и последний блок будет посвящен проблемам применения регрессионного анализа (регрессия со смешанными эффектами, обобщённая аддитивная модель).
Цель освоения дисциплины
- знать особенности работы R, основные особенности анализа различных типов данных
- познакомиться с основами методами анализа данных
- владеть навыками самостоятельного анализа данных, а также критической интерпретации анализа данных, представленной в научных работах
Планируемые результаты обучения
- Владеет методами визуализации данных
- Владеет методами обработки данных
- Владеет методом анализа строк
- Владеет основами языка программирования R
- Знает лингвистические пакеты на R
- Знает, чем наука о данных отличается от машинного обучения и статистики
Содержание учебной дисциплины
- Статистические распределения
- Бейесовский вывод
- Байесовский анализ биномиальных и нормально распределенных данных
- Байесовский доверительный интервал
- Уменьшение размерностей: PCA, LDA, CA, DCA, MCA
- Продвинутый регрессионный анализ
Элементы контроля
- Домашние заданияЭкзамен проводится в письменной форме. Экзамен проводится на платформе googleforms. К экзамену необходимо подключиться в любое время. Компьютер студента должен удовлетворять требованиям: 1. Иметь доступ к интернету. 2. Иметь установленный R и, возможно, RStudio Во время экзамена студентам запрещено: взаимодействовать друг сдругом. Во время экзамена студентам разрешено: пользоваться любыми материалами. Нарушения связи любой длительности считаются досадной неприятностью, которая ни в коем случае не должны служить причиной для лискриминационного отстранения студента от участия в экзамене. Процедура пересдачи аналогична процедуре сдачи. Тематический состав КИМ-ов для пересдач не отличается от тематического состава КИМ-ов текущего контроля и промежуточной аттестации.
- Домашние заданияВсе элементы контроля подлежат пересдаче в виде 2-ух часовой контрольной работы по всем темам, во время которой можно пользоваться любыми материалами. Время проведения устанавливается факультетом гуманитарных наук. Тематический состав КИМ-ов для пересдач не отличается от тематического состава КИМ-ов текущего контроля и промежуточной аттестации.
Промежуточная аттестация
- 2021/2022 учебный год 3 модульИтоговая оценка = 1/8.68 * \int_{0}^{x} x^1.3 + b, где x = среднее арифметическое оценок за дз, b - дополнительный балл за умение студента правильно посчитать в R свою оценку по курсу.
Список литературы
Рекомендуемая основная литература
- Fox, J., Jr, & Weisberg, H. S. (2010). An R Companion to Applied Regression. Thousand Oaks: SAGE Publications, Inc. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=1236075
- R for data science : import, tidy, transform, visualize, and model data, Wickham, H., 2017
Рекомендуемая дополнительная литература
- An R companion to applied regression, Fox, J., 2011
- Wickham, H., & Grolemund, G. (2016). R for Data Science : Import, Tidy, Transform, Visualize, and Model Data (Vol. First edition). Sebastopol, CA: Reilly - O’Reilly Media. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=1440131