• A
  • A
  • A
  • ABC
  • ABC
  • ABC
  • А
  • А
  • А
  • А
  • А
Regular version of the site

Data Analysis and Machine Learning

2024/2025
Academic Year
RUS
Instruction in Russian
3
ECTS credits
Course type:
Compulsory course
When:
3 year, 2-4 module

Instructor


Polyakov, Konstantin L.

Программа дисциплины

Аннотация

Данный курс ориентирован на студентов бакалавриата, которые связывают свою карьеру с анализом данных. Он охватывает, как решение задач связанных с предварительным анализом данных, так и основные задачи статистического (машинного) обучения "с учителем" - задачу распознавания образов (классификации), задачу восстановления регрессии и задачу восстановления закона распределения. В рамках курса также рассматриваются различные варианты кластерного анализа, как задачи статистического обучения без учителя. Дополнительными темами курса являются задачи анализа текстовых данных и изображений. Курс входит в систему подготовки студентов к сдаче экзамена по Data Culture.
Цель освоения дисциплины

Цель освоения дисциплины

  • Освоение методов предварительного анализа данных и методов статистического (машинного) обучения
Планируемые результаты обучения

Планируемые результаты обучения

  • Умеет анализировать качество данных, умеет обнаруживать статистические свойства данных.
  • Умеет проверять гипотезы из прикладной области с помощью построенной МЛР на основе проверки статистических гипотез.
  • Умеет проводить частотный анализ текстовых данных и визуализировать их
  • Владеет понятием нейронные сети: перцептрон. Знает виды функций активации; обучение одного перцептрона. Изучил историю развития нейронных сетей. Владеет понятием градиентный спуск. Способен сделать градиентный спуск быстрее и лучше.
  • Знать основные задачи, решаемые с использованием статистического обучения.
  • Знать основные проблемы, возникающие при использовании статистического обучения.
  • Уметь выполнить иерархическую кластеризацию данных и интерпретировать полученные результаты
  • Уметь выполнить кластеризацию к-средних с выбором оптимального числа кластеров. Уметь интерпретировать полученные результаты.
  • Уметь специфицировать и оценить модель логистической регрессии.
  • Уметь оценить качество модели логистической регрессии
  • Уметь построить регрессионное дерево
  • Уметь построить дерево классификации
  • Знать, что такое переобучение в статистическом обучении
  • Знать базовые методы анализа качества статистического обучения
  • Знать основные методы анализа изображений на Python
Содержание учебной дисциплины

Содержание учебной дисциплины

  • ISL_1. Предварительный анализ данных
  • ISL_2. Определение и задачи статистического обучения
  • ISL_3. Анализ качества результатов статистического обучения.
  • ISL_4. Задача восстановления регрессии
  • ISL_5. Обучение с учителем. Деревья принятия решений.
  • ISL_6. Обучение с учителем. Методы классификации. Модели конечного выбора.
  • ISL_7. Обучение без учителя. Классификация
  • ISL_8. Методы анализа текстовых данных
  • ISL_9. Методы анализа изображений
  • ISL_10. Основы глубинного обучения
Элементы контроля

Элементы контроля

  • неблокирующий Вопрос на лекции
    Тест в конце каждой лекции по материалу текущей и предыдущей лекций.
  • неблокирующий Экзамен
    Тест с ограниченным временем выполнения
  • неблокирующий Работа на семинарах
    Решение задач на семинарах
Промежуточная аттестация

Промежуточная аттестация

  • 2024/2025 3rd module
    0.4 * Вопрос на лекции + 0.4 * Работа на семинарах + 0.2 * Экзамен
Список литературы

Список литературы

Рекомендуемая основная литература

  • A selection of Image processing techniques : from fundamentals to research front, Zhang, Y.-J., 2022
  • Statistical learning theory, Vapnik, V. N., 1998
  • The elements of statistical learning : data mining, inference, and prediction, Hastie, T., 2017
  • Нейронные сети. Полный курс : пер. с англ., Хайкин, С., 2018
  • Технологии анализа данных: Data Mining, Visual Mining, Text Mining, OLAP : учеб. пособие, Барсегян, А. А., 2008
  • Эконометрика для начинающих : дополнительные главы, Носко, В. П., 2005
  • Эконометрика для начинающих : Осн. понятия, элементарные методы, граница применимости, интерпретация результатов, Носко, В. П., 2000
  • Эконометрика. Начальный курс : учебник для вузов, Магнус, Я. Р., 2001
  • Эконометрика. Начальный курс : учебник для вузов, Магнус, Я. Р., 2007

Рекомендуемая дополнительная литература

  • Clustering for data mining : a data recovery approach, Mirkin, B., 2005
  • Contrast data mining : concepts, algorithms, and applications, , 2013
  • Data mining : practical machine learning tools and techniques, Witten, I. H., 2011
  • Statistical image processing and multidimensional modeling, Fieguth, P., 2011
  • Введение в эконометрику : учебник для вузов, Доугерти, К., 2001
  • Прикладной анализ текстовых данных на Python : машинное обучение и создание приложений обработки естественного языка, Бенгфорт, Б., 2020
  • Эконометрика - 2: продвинутый курс с приложениями в финансах : учебник, Айвазян, С. А., 2015
  • Эконометрика : учебник и практикум для прикладного бакалавриата, Демидова, О. А., 2017

Авторы

  • Поляков Константин Львович