We use cookies in order to improve the quality and usability of the HSE website. More information about the use of cookies is available here, and the regulations on processing personal data can be found here. By continuing to use the site, you hereby confirm that you have been informed of the use of cookies by the HSE website and agree with our rules for processing personal data. You may disable cookies in your browser settings.

  • A
  • A
  • A
  • ABC
  • ABC
  • ABC
  • А
  • А
  • А
  • А
  • А
Regular version of the site

Deep Data and Text Analysis

2024/2025
Academic Year
RUS
Instruction in Russian
6
ECTS credits
Course type:
Elective course
When:
2 year, 1, 2 module

Instructor

Программа дисциплины

Аннотация

В рамках дисциплины "Глубинный анализ данных и текстов" студенты имеют возможность ознакомится с теоретическими и методологическими основами в области систем анализа неструктурированной информации, а также с практическими навыками, необходимыми для внедрения и использования такого сорта систем. Среди рассматриваемых методов анализа, особое внимание уделяется контент анализу, деревьям решений, кластерному анализу, обучение с подкреплению и нейронным сетям.
Цель освоения дисциплины

Цель освоения дисциплины

  • Формирование у студентов комплекса теоретических знаний и практических навыков аналитики текстовых данных и углубленного анализа многомерных данных
Планируемые результаты обучения

Планируемые результаты обучения

  • Использует базовые метрики качества в задачах классификации, регрессии и кластеризации
  • Применяет методы классификации, регрессии и кластеризации для анализа данных
  • Адекватно оценивает корректность использования методов анализа данных, применяемых при решении исследовательских задач
  • Адекватно оценивает корректность использования статистических методов, применяемых при формулировке и решении задач, владеет базовыми навыками анализа данных
  • Демонстрирует уверенное владение статистическим анализом данных с использованием Python и Jupyter
  • Воспроизводит основные определения науки о данных, и оценивает направления применения анализа больших данных в различных областях
  • Корректно применяет ансамбли моделей Random Forest и Gradient Boosting в машинном обучении
  • Применяет основные подходы к построению моделей обучения с подкреплением
  • Оценивает специфику применения рекомендательных систем, соревновательных нейронных сетей и автокодировщиков
  • Воспроизводит базовые принципы применения нейронных сетей
  • Применяет сверточные и рекуррентные нейронные сети для анализа текста
Содержание учебной дисциплины

Содержание учебной дисциплины

  • Что такое большие данные и аналитика данных?
  • Введение в машинное обучение
  • Практика работы с данными на основе задачи классификации, регрессии и кластеризации
  • Ансамбли моделей в машинном обучении
  • Обучение с подкреплением
  • Нейронные сети
Элементы контроля

Элементы контроля

  • неблокирующий Контрольная работа
    Контрольная работа формируется на основе типовых заданий, решаемых в рамках семинарских занятий
  • неблокирующий Аудиторная работа
  • неблокирующий Экзамен
    Экзаменационная работа состоит из двух частей: тест и практическая часть. Тест представляет из себя вопросы закрытого типа, практическая часть – проведение анализа данных заданного типа, на основе видов молей, пройденных после проведения контрольной работы. Платформа проведения: Экзамен проводится на платформах Webinar и Canvas LMS. К экзамену необходимо подключиться за 15 минут до начала. Компьютер студента должен удовлетворять требованиям платформ. Для участия в экзамене студент обязан: Не позднее 7 дней до проведения экзамена проверить работоспособность компьютерного оборудования, необходимого для сдачи экзамена и убедиться в соответствие имеющегося оборудования требованиям к компьютеру для участия в экзамене на платформах Webinar и Canvas LMS; Войти на платформы Webinar и Canvas LMS под личной учетной записью (используется аккаунт студента @edu.hse.ru); Перед началом экзамена проверить работоспособность микрофона, колонок или наушников для передачи звука и видеокамеры, скорость работы сети Интернет (для наилучшего результата рекомендуется подключение компьютера к сети через кабель); Подготовить необходимые для проведения экзамена инструменты: ручка, листы бумаги, калькулятор и т. д.); Отключить в диспетчере задач компьютера иные приложения, кроме приложения Webinar или браузера, в котором будет выполняться вход на платформы Webinar и Canvas LMS, а также необходимого окружения Python. В случае, если одно из необходимых условий участия в экзамене невозможно выполнить, необходимо за 2 недели до даты проведения экзамена проинформировать об этом преподавателя или сотрудника учебного офиса для принятия решения об участии студента в экзаменах. Во время экзамена студентам запрещено: Выключать видеокамеру; Пользоваться конспектами, учебниками, прочими учебными материалами; Покидать место выполнения экзаменационного задания (выходить за угол обзора камеры); Отводить взгляд от экрана компьютера, рабочего стола; Пользоваться умными гаджетами (смартфон, планшет и др.); Привлекать посторонних лиц для помощи в проведении экзамена, разговаривать с посторонними во время выполнения заданий; Вслух громко зачитывать задания. Во время экзамена студентам разрешено: Использовать бумагу, ручку для ведения записей, расчетов; Использовать калькулятор для ведения расчетов; Включать микрофон во время экзамена для ответов на вопросы преподавателя; Запрашивать у преподавателя дополнительную информацию, связанную с выполнением экзаменационного задания; Взаимодействовать с другими студентами по разрешению преподавателя. Нарушения связи: Кратковременным нарушением связи во время экзамена считается потеря сетевой связи студента с платформами Webinar и Canvas LMS не более 1 минуты. Долговременным нарушением связи во время экзамена считается потеря сетевой связи студента с платформами Webinar и Canvas LMS более 1 минуты. При долговременном нарушении связи студент не может продолжить участие в экзамене. Процедура пересдачи аналогична процедуре сдачи экзамена. В случае долговременного нарушения связи с платформами Webinar и Canvas LMS во время выполнения экзаменационного задания, студент должен уведомить об этом преподавателя, зафиксировать факт потери связи с платформой (скриншот, ответ от провайдера сети Интернет) и обратиться в учебный офис с объяснительной запиской о случившемся для принятия решения о пересдаче экзамена.
  • неблокирующий Контрольное домашнее задание
    Выполнение домашнего задания предусматривает построение моделей анализа информации и текстов, выявление регулярных выражений, построение аналитических срезов и фильтров, выделение корреляций между срезами, отображение взаимосвязей и визуализацию итогов анализа
Промежуточная аттестация

Промежуточная аттестация

  • 2024/2025 2nd module
    0.1 * Аудиторная работа + 0.296 * Контрольная работа + 0.294 * Контрольное домашнее задание + 0.31 * Экзамен
Список литературы

Список литературы

Рекомендуемая основная литература

  • 9781789958294 - Raschka, Sebastian; Mirjalili, Vahid - Python Machine Learning : Machine Learning and Deep Learning with Python, Scikit-learn, and TensorFlow 2, 3rd Edition - 2019 - Packt Publishing - http://search.ebscohost.com/login.aspx?direct=true&db=nlebk&AN=2329991 - nlebk - 2329991
  • 9781838820046 - Lapan, Maxim - Deep Reinforcement Learning Hands-On : Apply Modern RL Methods to Practical Problems of Chatbots, Robotics, Discrete Optimization, Web Automation, and More, 2nd Edition - 2020 - Packt Publishing - http://search.ebscohost.com/login.aspx?direct=true&db=nlebk&AN=2366458 - nlebk - 2366458
  • Aman Kedia, & Mayank Rasu. (2020). Hands-On Python Natural Language Processing : Explore Tools and Techniques to Analyze and Process Text with a View to Building Real-world NLP Applications. Packt Publishing.
  • Haroon, D. (2017). Python Machine Learning Case Studies : Five Case Studies for the Data Scientist. [Berkeley, CA]: Apress. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=1623520
  • Python для сложных задач: наука о данных и машинное обучение - 978-5-496-03068-7 - Плас Дж. Вандер - 2018 - Санкт-Петербург: Питер - https://ibooks.ru/bookshelf/356721 - 356721 - iBOOKS
  • Sarkar, D., Bali, R., & Sharma, T. (2018). Practical Machine Learning with Python : A Problem-Solver’s Guide to Building Real-World Intelligent Systems. [United States]: Apress. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=1667293
  • Yang, X.-S. (2019). Introduction to Algorithms for Data Mining and Machine Learning. Academic Press.
  • Кудрявцев, В. Б.  Интеллектуальные системы : учебник и практикум для вузов / В. Б. Кудрявцев, Э. Э. Гасанов, А. С. Подколзин. — 2-е изд., испр. и доп. — Москва : Издательство Юрайт, 2021. — 165 с. — (Высшее образование). — ISBN 978-5-534-07779-7. — Текст : электронный // Образовательная платформа Юрайт [сайт]. — URL: https://urait.ru/bcode/471014 (дата обращения: 27.08.2024).
  • Маккинни, У. Python и анализ данных / У. Маккинни , перевод с английского А. А. Слинкина. — 2-ое изд., испр. и доп. — Москва : ДМК Пресс, 2020. — 540 с. — ISBN 978-5-97060-590-5. — Текст : электронный // Лань : электронно-библиотечная система. — URL: https://e.lanbook.com/book/131721 (дата обращения: 00.00.0000). — Режим доступа: для авториз. пользователей.
  • Шарден, Б. Крупномасштабное машинное обучение вместе с Python : учебное пособие / Б. Шарден, Л. Массарон, А. Боскетти , перевод с английского А. В. Логунова. — Москва : ДМК Пресс, 2018. — 358 с. — ISBN 978-5-97060-506-6. — Текст : электронный // Лань : электронно-библиотечная система. — URL: https://e.lanbook.com/book/105836 (дата обращения: 00.00.0000). — Режим доступа: для авториз. пользователей.

Рекомендуемая дополнительная литература

  • Aurélien Géron. (2019). Hands-On Machine Learning with Scikit-Learn, Keras, and TensorFlow : Concepts, Tools, and Techniques to Build Intelligent Systems: Vol. Second edition. O’Reilly Media.
  • Nandy, A., & Biswas, M. (2018). Reinforcement Learning : With Open AI, TensorFlow and Keras Using Python. [Berkeley, CA]: Apress. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=1651811
  • Груздев, А. В. Прогнозное моделирование в IBM SPSS Statistics, R и Python: метод деревьев решений и случайный лес : руководство / А. В. Груздев. — Москва : ДМК Пресс, 2018. — 642 с. — ISBN 978-5-97060-539-4. — Текст : электронный // Лань : электронно-библиотечная система. — URL: https://e.lanbook.com/book/123700 (дата обращения: 00.00.0000). — Режим доступа: для авториз. пользователей.
  • Подкорытова, О. А.  Анализ временных рядов : учебное пособие для вузов / О. А. Подкорытова, М. В. Соколов. — 2-е изд., перераб. и доп. — Москва : Издательство Юрайт, 2021. — 267 с. — (Высшее образование). — ISBN 978-5-534-02556-9. — Текст : электронный // Образовательная платформа Юрайт [сайт]. — URL: https://urait.ru/bcode/469322 (дата обращения: 27.08.2024).
  • Рашка, С. Python и машинное обучение: крайне необходимое пособие по новейшей предсказательной аналитике, обязательное для более глубокого понимания методологии машинного обучения : руководство / С. Рашка , перевод с английского А. В. Логунова. — Москва : ДМК Пресс, 2017. — 418 с. — ISBN 978-5-97060-409-0. — Текст : электронный // Лань : электронно-библиотечная система. — URL: https://e.lanbook.com/book/100905 (дата обращения: 00.00.0000). — Режим доступа: для авториз. пользователей.
  • Станкевич, Л. А.  Интеллектуальные системы и технологии : учебник и практикум для вузов / Л. А. Станкевич. — Москва : Издательство Юрайт, 2021. — 397 с. — (Высшее образование). — ISBN 978-5-534-02126-4. — Текст : электронный // Образовательная платформа Юрайт [сайт]. — URL: https://urait.ru/bcode/469517 (дата обращения: 27.08.2024).
  • Статистика. В 2 ч. Часть 1 : учебник и практикум для вузов / В. С. Мхитарян [и др.] ; под редакцией В. С. Мхитаряна. — 2-е изд., перераб. и доп. — Москва : Издательство Юрайт, 2021. — 249 с. — (Высшее образование). — ISBN 978-5-534-09353-7. — Текст : электронный // Образовательная платформа Юрайт [сайт]. — URL: https://urait.ru/bcode/475170 (дата обращения: 27.08.2024).
  • Статистика. В 2 ч. Часть 2 : учебник и практикум для вузов / В. С. Мхитарян, Т. Н. Агапова, С. Д. Ильенкова, А. Е. Суринов ; под редакцией В. С. Мхитаряна. — 2-е изд., перераб. и доп. — Москва : Издательство Юрайт, 2021. — 270 с. — (Высшее образование). — ISBN 978-5-534-09357-5. — Текст : электронный // Образовательная платформа Юрайт [сайт]. — URL: https://urait.ru/bcode/475171 (дата обращения: 27.08.2024).

Авторы

  • Бекларян Армен Левонович