Магистратура
2020/2021
Введение в Науку о данных
Лучший по критерию «Полезность курса для Вашей будущей карьеры»
Лучший по критерию «Полезность курса для расширения кругозора и разностороннего развития»
Лучший по критерию «Новизна полученных знаний»
Статус:
Курс обязательный (Цифровые методы в гуманитарных науках)
Направление:
45.04.03. Фундаментальная и прикладная лингвистика
Кто читает:
Школа лингвистики
Где читается:
Факультет гуманитарных наук
Когда читается:
1-й курс, 1-4 модуль
Формат изучения:
без онлайн-курса
Прогр. обучения:
Цифровые методы в гуманитарных науках
Язык:
русский
Кредиты:
8
Контактные часы:
80
Программа дисциплины
Аннотация
Курс читается студентам 1 курса магистерской программы "Цифровые методы в гуманитарных науках". В ходе данного курса студенты знакомятся с основами работы в R и RStudio, осваивают базовые методы сбора, обработки и трансформации данных.
Цель освоения дисциплины
- Формирование представления о различных способах работы с данными.
- Ознакомление с методами визуализации результатов анализа датасетов.
- Развитие умения писать программы с использованием методов статистического, кластерного и регрессионного анализа.
Планируемые результаты обучения
- Студент освоит работу с базовыми объектами, функциями, пакетами, а также научится создавать собственные функции и сложные циклы.
- Студент применяет трансформации данных: tidyverse, dplyr; освоит работу со строками и текстами: tidytext, udpipe; сможет осуществлять сбор данных из интернета: rvest. OCR.
- Студент способен создавать визуализации данных: ggplot2, ggiraph; представление данных: rmarkdown, shiny; осуществлять работу с картографическими данными.
- Студент решает задачи по программированию , демонстрируя владение работой со строками и текстом.
- Студент анализирует данные путём применения инструментов: время, карты, OCR.
- Студент производит вычисления, применяя знания по описательной и симуляционной статистике, z-преобразованию.
- Студент создает пуассоновскую регрессию, позволяющую предсказывать результаты показателя X на основе имеющихся данных показателя Y.
- Студент способен создавать метрики расстояний, k-means, иерархические кластеризации, визуализации деревьев.
- Студент применяет PCA для анализа различных датасетов.
Содержание учебной дисциплины
- Тема 1. Основы R
- Тема 2. Трансформация данных
- Тема 3. Визуализация и представление данных
- Тема 4. Работа со строками и текстом
- Тема 5. Необычные источники данных: время, карты, OCR
- Тема 6. Основы статистики
- Тема 7. Регрессионный анализ.Корреляция и простая линейная регрессия. Множественная регрессия, link-functions. Логистическая и мультиномиальная регрессия.
- Тема 8. Кластеризация
- Тема 9. Методы уменьшения размерности: PCA, CA, MCA, MDS, t-SNE
Элементы контроля
- Самостоятельные работыЭкзамен проводится в форме двух хакатонов: один проходит в конце втором модуля, а второй проходит в конце четвертого модуля. В ходе хакатона студент может подключится в любое время. Во время хакатона студенты делятся на команды и совместно решают поставленные задачи, используя любые доступные средства (в том числе любые удобные участникам средства связи друг с другом). Теоретически студент не обязан обладать компьютером, лишь каким-то средством связи с преподавателем и другими участниками. Для участия в хакатоне студент обязан выбрать команду, в которой он хочет работать (в том числе состоящей из одного человека), и пройти по ссылке на платформе Github под своим эккаунтом. Во время хакатона студент волен делать все, что считает нужным. Нарушения связи любой длительности считаются досадной неприятностью, которая ни в коем случае не должны служить причиной для лискриминационного отстранения студента от участия в хакатоне. Все элементы контроля по курсу подлежат пересдаче в виде 2-ух часовой контрольной работы по всем темам, во время которой можно пользоваться любыми материалами. Время проведения устанавливается факультетом гуманитарных наук.
- самостоятельные работыШесть самостоятельных работ в течение курса
- итоговый хакатонЭкзамен проводится в форме двух хакатонов: один проходит в конце второго модуля, а второй проходит в конце четвертого модуля (25 июня). В ходе хакатона студент может подключится в любое время. Во время хакатона студенты делятся на команды и совместно решают поставленные задачи, используя любые доступные средства (в том числе любые удобные участникам средства связи друг с другом). Студенту понадобится компьютер и любое средство связи с участниками команды (не обязательно звуковой или видеосвязи, достаточно текстового канала). Для участия в хакатоне студент обязан выбрать команду, в которой он хочет работать (в том числе состоящей из одного человека), и пройти по ссылке на платформе Github под своим эккаунтом. Во время хакатона студент волен делать все, что считает нужным. Нарушения связи любой длительности считаются досадной неприятностью, которая ни в коем случае не должны служить причиной для дискриминационного отстранения студента от участия в хакатоне.
Список литературы
Рекомендуемая основная литература
- Horton, N. J., & Kleinman, K. (2015). Using R and RStudio for Data Management, Statistical Analysis, and Graphics (Vol. Second edition). Boca Raton, FL: Chapman and Hall/CRC. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=957543
Рекомендуемая дополнительная литература
- R for data science : import, tidy, transform, visualize, and model data, Wickham, H., 2017
- Wickham, H. (2015). Advanced R, Second Edition. Boca Raton, FL: Chapman and Hall/CRC. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=934735