Бакалавриат
2023/2024
Анализ данных для лингвистов
Статус:
Курс по выбору (Фундаментальная и компьютерная лингвистика)
Направление:
45.03.03. Фундаментальная и прикладная лингвистика
Кто читает:
Школа лингвистики
Где читается:
Факультет гуманитарных наук
Когда читается:
4-й курс, 3 модуль
Формат изучения:
без онлайн-курса
Охват аудитории:
для всех кампусов НИУ ВШЭ
Преподаватели:
Мороз Георгий Алексеевич
Язык:
русский
Кредиты:
3
Контактные часы:
36
Программа дисциплины
Аннотация
Задачей курса «Анализ данных для лингвистов» является продолжение знакомства с различными методами статистики и анализа данных. Курс сконцентрирован вокруг применения байесовских методов: начиная от работы с различными распределениями и методами нахождения их параметров до применения байесовского регрессионного анализа.
Цель освоения дисциплины
- знать особенности работы R, основные особенности анализа различных типов данных
- познакомиться с основами методами анализа данных
- владеть навыками самостоятельного анализа данных, а также критической интерпретации анализа данных, представленной в научных работах
Планируемые результаты обучения
- Владеет методами визуализации данных
- Владеет методами обработки данных
- Владеет методом анализа строк
- Владеет основами языка программирования R
- Знает лингвистические пакеты на R
- Знает, чем наука о данных отличается от машинного обучения и статистики
- Знает и применяет понятие коэффициента Байеса
- Знает и использует понятие байесовского доверительного интервала
- Владеет понятием байесовский статистический вывод
- Владеет понятием и умеет применять модели смеси распределений
- Владеет и применяет метод максимального правдоподобия
- Владеет понятиями моментов статистических распределений и умеет симулировать распределния в R
- Понимает и может применить методы эмпирической байесовской оценки
- Понимает и применяет A/B тестирования
- Понимает понятие Марковской цепи Монте-Карло
- Понимает ограничения на применение регрессии
- Умеет применять и интерпретировать байесовский регрессионный анализ
- Применяет и интерпретирует байесовскую логистическую регрессию
Содержание учебной дисциплины
- Статистические распределения
- Метод максимального правдоподобия
- Модели смеси распределений
- Байесовский статистический вывод
- Байесовский доверительный интервал
- Коэффициент Байеса
Промежуточная аттестация
- 2023/2024 учебный год 3 модуль0.4 * Exam + 0.2 * HW1 + 0.2 * HW2 + 0.2 * HW3
Список литературы
Рекомендуемая основная литература
- Fox, J., Jr, & Weisberg, H. S. (2010). An R Companion to Applied Regression. Thousand Oaks: SAGE Publications, Inc. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=1236075
- R for data science : import, tidy, transform, visualize, and model data, Wickham, H., 2017
Рекомендуемая дополнительная литература
- An R companion to applied regression, Fox, J., 2011
- Wickham, H., & Grolemund, G. (2016). R for Data Science : Import, Tidy, Transform, Visualize, and Model Data (Vol. First edition). Sebastopol, CA: Reilly - O’Reilly Media. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=1440131