• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта
2019/2020

Прикладные задачи анализа данных

Лучший по критерию «Полезность курса для расширения кругозора и разностороннего развития»
Лучший по критерию «Новизна полученных знаний»
Статус: Майнор
Когда читается: 3, 4 модуль
Преподаватели: Калягин Валерий Александрович, Модвала Сергей Жоржович, Шимко Алексей Андреевич
Язык: русский
Кредиты: 5
Контактные часы: 60

Программа дисциплины

Аннотация

Данный курс посвящен техникам работы с реальными данными (обработка пропусков, работа с категориальными признаками, работа с большими данными) и разбору конкретных применений анализа данных. Рассматриваются задачи анализа текстов, анализа изображений, прогнозирования спроса, кредитного скоринга, анализа социальных сетей, предсказания вероятности клика по рекламе. Каждый класс задач разбирается на примере реальных данных
Цель освоения дисциплины

Цель освоения дисциплины

  • Изучение дисциплины «Прикладные задачи анализа данных» нацелено на освоение основных методов и алгоритмов прикладного анализа данных с применением языка программирования Python. Предполагается, что в результате освоения курса студенты будут способны самостоятельно решать прикладные задачи анализа данных с использованием языка программирования Python.
Планируемые результаты обучения

Планируемые результаты обучения

  • Иметь навыки обработки текстов в автоматическом режиме
  • Иметь навыки работы с рекомендательными системами
  • Уметь анализировать сети с помощью основных характеристик
Содержание учебной дисциплины

Содержание учебной дисциплины

  • Тема 1. Автоматическая обработка текстов
    Основные этапы обработки текстов: графематический, морфологический и синтаксиче-ский анализ. Токенизация текста по правилам. Задачи морфологического анализа: лемматизация и определение частеречных характеристик. Задача выделения ключевых слов и словосочетаний. Векторная модель документа и ее использование в задачах информаци-онного поиска. Модель “мешок слов”. Вычисление косинусной близости между вектора-ми. TF-IDF преобразование. Простейший поиск по запросу. Векторная модель семантики. Латентный семантический анализ (LSA, LSI). Дистрибутивные модели векторного представления слов: word2vec, CBOW, Skip-grams. Глубинное обучение и автоматическая об-работка текстов. Сверточные и рекуррентные нейронные сети для автоматической обработки текстов
  • Тема 2. Рекомендательные системы
    Задача анализа потребительской корзины. Поддержка и достоверность. Частые, замкнутые и максимальные частые множества. Алгоритмы Априори и FP-growth. Импликации и ассоциативные правила как объектно-признаковые зависимости. Меры “интересности правил”. Прикладные задачи: анализ посещаемости сайтов и рекомендация контекстной рекламы. Программные средства: Orange, SPMF, ConExp. Классификация рекомендательных систем. Контентные рекомендательные системы. Коллаборативная фильтрация: сходство по пользователям (user-based) и сходство по признакам (item-based). Оценка качества рекомендательных систем (Precision, Recall, F1-мера, HitRate, MAE, RMSE, NDCG). Бимодальная кроссвалидация. Прикладная задача: рекомендация фильмов на примере данных проекта MovieLens
  • Тема 3. Сетевые модели
    Сети и графы. Способы задания графа. Список смежности. Матрица инцендентности. Основные характеристики графов. Диметр графа. Плотность графа. Коэффициент кластеризации. Распределение степеней вершин. Центральность. Модель «тесного мира». Случайные графы. Модель ERGM (Exponential Random Graph Model). Ассортативное смешивание. Поиск сообществ в сетях. Алгоритмы поиска сообществ в сетях. Задача ранжирования в сети. Алгоритм PageRank
Элементы контроля

Элементы контроля

  • неблокирующий Контрольная работа
  • неблокирующий Лабораторная работа №1
  • неблокирующий Лабораторная работа №2
  • неблокирующий Экзамен
    Экзамен проводится на платформах Zoom (https://zoom.us), MS Teams (https://teams.microsoft.com). Ссылка будет отправлена преподавателем за три дня до экзамена.
Промежуточная аттестация

Промежуточная аттестация

  • Промежуточная аттестация (4 модуль)
    0.15 * Контрольная работа + 0.2 * Лабораторная работа №1 + 0.15 * Лабораторная работа №2 + 0.5 * Экзамен
Список литературы

Список литературы

Рекомендуемая основная литература

  • Коэльо Л.П., Ричарт В. - Построение систем машинного обучения на языке Python - Издательство "ДМК Пресс" - 2016 - 302с. - ISBN: 978-5-97060-330-7 - Текст электронный // ЭБС ЛАНЬ - URL: https://e.lanbook.com/book/82818

Рекомендуемая дополнительная литература

  • Dekking F. M. et al. A Modern Introduction to Probability and Statistics: Understanding why and how. – Springer Science & Business Media, 2005. – 488 pp.
  • Manning, C. D., & Schèutze, H. (1999). Foundations of Statistical Natural Language Processing. Cambridge, Mass: The MIT Press. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=24399
  • Mirkin, B. Core concepts in data analysis: summarization, correlation and visualization. – Springer Science & Business Media, 2011. – 388 pp.