2019/2020![Цель освоения дисциплины](/f/src/global/i/edu/objectives.svg)
![Планируемые результаты обучения](/f/src/global/i/edu/results.svg)
![Содержание учебной дисциплины](/f/src/global/i/edu/sections.svg)
![Элементы контроля](/f/src/global/i/edu/controls.svg)
![Промежуточная аттестация](/f/src/global/i/edu/intermediate_certification.svg)
![Список литературы](/f/src/global/i/edu/library.svg)
Прикладные задачи анализа данных
Лучший по критерию «Полезность курса для расширения кругозора и разностороннего развития»
Лучший по критерию «Новизна полученных знаний»
Статус:
Майнор
Когда читается:
3, 4 модуль
Язык:
русский
Кредиты:
5
Контактные часы:
60
Программа дисциплины
Аннотация
Данный курс посвящен техникам работы с реальными данными (обработка пропусков, работа с категориальными признаками, работа с большими данными) и разбору конкретных применений анализа данных. Рассматриваются задачи анализа текстов, анализа изображений, прогнозирования спроса, кредитного скоринга, анализа социальных сетей, предсказания вероятности клика по рекламе. Каждый класс задач разбирается на примере реальных данных
Цель освоения дисциплины
- Изучение дисциплины «Прикладные задачи анализа данных» нацелено на освоение основных методов и алгоритмов прикладного анализа данных с применением языка программирования Python. Предполагается, что в результате освоения курса студенты будут способны самостоятельно решать прикладные задачи анализа данных с использованием языка программирования Python.
Планируемые результаты обучения
- Иметь навыки обработки текстов в автоматическом режиме
- Иметь навыки работы с рекомендательными системами
- Уметь анализировать сети с помощью основных характеристик
Содержание учебной дисциплины
- Тема 1. Автоматическая обработка текстовОсновные этапы обработки текстов: графематический, морфологический и синтаксиче-ский анализ. Токенизация текста по правилам. Задачи морфологического анализа: лемматизация и определение частеречных характеристик. Задача выделения ключевых слов и словосочетаний. Векторная модель документа и ее использование в задачах информаци-онного поиска. Модель “мешок слов”. Вычисление косинусной близости между вектора-ми. TF-IDF преобразование. Простейший поиск по запросу. Векторная модель семантики. Латентный семантический анализ (LSA, LSI). Дистрибутивные модели векторного представления слов: word2vec, CBOW, Skip-grams. Глубинное обучение и автоматическая об-работка текстов. Сверточные и рекуррентные нейронные сети для автоматической обработки текстов
- Тема 2. Рекомендательные системыЗадача анализа потребительской корзины. Поддержка и достоверность. Частые, замкнутые и максимальные частые множества. Алгоритмы Априори и FP-growth. Импликации и ассоциативные правила как объектно-признаковые зависимости. Меры “интересности правил”. Прикладные задачи: анализ посещаемости сайтов и рекомендация контекстной рекламы. Программные средства: Orange, SPMF, ConExp. Классификация рекомендательных систем. Контентные рекомендательные системы. Коллаборативная фильтрация: сходство по пользователям (user-based) и сходство по признакам (item-based). Оценка качества рекомендательных систем (Precision, Recall, F1-мера, HitRate, MAE, RMSE, NDCG). Бимодальная кроссвалидация. Прикладная задача: рекомендация фильмов на примере данных проекта MovieLens
- Тема 3. Сетевые моделиСети и графы. Способы задания графа. Список смежности. Матрица инцендентности. Основные характеристики графов. Диметр графа. Плотность графа. Коэффициент кластеризации. Распределение степеней вершин. Центральность. Модель «тесного мира». Случайные графы. Модель ERGM (Exponential Random Graph Model). Ассортативное смешивание. Поиск сообществ в сетях. Алгоритмы поиска сообществ в сетях. Задача ранжирования в сети. Алгоритм PageRank
Элементы контроля
- Контрольная работа
- Лабораторная работа №1
- Лабораторная работа №2
- ЭкзаменЭкзамен проводится на платформах Zoom (https://zoom.us), MS Teams (https://teams.microsoft.com). Ссылка будет отправлена преподавателем за три дня до экзамена.
Промежуточная аттестация
- Промежуточная аттестация (4 модуль)0.15 * Контрольная работа + 0.2 * Лабораторная работа №1 + 0.15 * Лабораторная работа №2 + 0.5 * Экзамен
Список литературы
Рекомендуемая основная литература
- Коэльо Л.П., Ричарт В. - Построение систем машинного обучения на языке Python - Издательство "ДМК Пресс" - 2016 - 302с. - ISBN: 978-5-97060-330-7 - Текст электронный // ЭБС ЛАНЬ - URL: https://e.lanbook.com/book/82818
Рекомендуемая дополнительная литература
- Dekking F. M. et al. A Modern Introduction to Probability and Statistics: Understanding why and how. – Springer Science & Business Media, 2005. – 488 pp.
- Manning, C. D., & Schèutze, H. (1999). Foundations of Statistical Natural Language Processing. Cambridge, Mass: The MIT Press. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=24399
- Mirkin, B. Core concepts in data analysis: summarization, correlation and visualization. – Springer Science & Business Media, 2011. – 388 pp.