Магистратура
2020/2021
Введение в интеллектуальный анализ данных
Лучший по критерию «Полезность курса для расширения кругозора и разностороннего развития»
Лучший по критерию «Новизна полученных знаний»
Статус:
Курс обязательный (Прикладные методы социального анализа рынков)
Направление:
39.04.01. Социология
Кто читает:
Департамент социологии
Где читается:
Факультет социальных наук
Когда читается:
1-й курс, 3, 4 модуль
Формат изучения:
с онлайн-курсом
Преподаватели:
Ульянов Владимир Васильевич
Прогр. обучения:
Прикладные методы социального анализа рынков
Язык:
русский
Кредиты:
5
Контактные часы:
60
Программа дисциплины
Аннотация
Целями освоения дисциплины «Введение в интеллектуальный анализ данных» являются: знакомство с основными методами современного анализа данных; понимание того, в каких условиях, для решения каких задач и при каких ограничениях указанные методы применяются; умение применять пакет Rattle из свободной (бесплатной) программной среды вычислений R для анализа реальных социологических данных
Цель освоения дисциплины
- Знакомство с основными методами современного анализа данных
- Формирование понимания того, в каких условиях, для решения каких задач и при каких ограничениях указанные методы применяются.
- Формирование навыков работы с пакетом Rattle из свободной (бесплатной) программной среды вычислений R для анализа реальных социологических данных
Планируемые результаты обучения
- Знает основные методы современного анализа данных для решения задач классификации, кластеризации, прогноза и скоринга.
- Владеет навыками анализа реальных социологических данных с применением пакета Rattle из программной среды вычислений R.
- Умеет строить модели, оценивать их качество и сравнивать различные модели.
Содержание учебной дисциплины
- Обзор основных задач, методов и областей применения. Краткая история возникновения Data MiningВостребованность интеллектуального анализа данных (ИАД) в современных условиях. Генерация, хранение и необходимость оперативной обработки огромных массивов данных финансовыми, торговыми, телекоммуникационными, научными и другими организациями. Обзор основных задач и методов ИАД. Примеры применения ИАД по работе с клиентами, по выявлению мошенничества, по прямому маркетингу, по кредитному скорингу и т.д.
- Введение в язык программирования R и пакет RATTLEОсновные объекты и операции языка R, векторы, факторы, списки, порождающие последовательности, индексирование, матрицы, работа со списками. Обзор пакетов и функций, используемых при ИАД, запись и считывание данных, базовые статистические функции, функции для работы с матрицами, мета-функции. Создание новых функций. Пакет RATTLE
- Деревья решений. Задачи классификации, прогнозирования и скорингаОписывается метод деревьев решений. Рассматриваются элементы дерева решения, процесс его построения. Приведены примеры деревьев, решающих задачу классификации. Даны алгоритмы конструирования деревьев решений CART и C4.5.
- Построение деревьев решений с помощью пакетов языка программирования RПостроение дерева решений по массиву данных с использованием пакета rpart. Графическое представление, решение задачи усечения дерева. Оценка качества полученной модели
- Искусственные нейронные сети. Задачи классификации, прогнозирования и кластеризации.Описывается метод нейронных сетей. Рассмотрены элементы и архитектура, процесс обучения и явление переобучения нейронной сети. Приведен пример решения задачи при помощи аппарата нейронных сетей. Рассматриваются классификации нейронных сетей. Описан процесс подготовки данных для обучения. Подробно рассмотрены самоорганизующиеся карты Кохонена.
- Построение искусственных нейронных сетей с помощью пакетов языка программирования RПостроение нейронной сети по массиву финансовых данных с использованием пакета nnet с целью прогноза цен акций на бирже. Графическое представление. Оценка качества полученной модели.
- Генетические (эволюционные) алгоритмы. Задачи оптимизации и обучения нейронных сетей.История возникновения и развития генетических алгоритмов. Основные понятия: хромосомы, функции приспособленности, операторы. Создание начальной популяции, отбор, размножение, мутации. Теорема Холланда. Пример использования генетических алгоритмов для оптимизации и обучения нейронных сетей.
- Функции интенсивности отказа и анализ выживаемости в маркетинге.Анализ выживаемости. Функция выживаемости и функция интенсивности рисков. Процедура Каплана-Мейера. Доверительный интервал выживаемости. Сравнение двух функций выживаемости: логранговый критерий, критерий Гехана. Проблема удержания клиентов. Оценка ценности различных групп клиентов
- Анализ связейОсновные понятия и факты из теории графов. Визуализация данных с помощью графов с весами. Задача коммивояжёра. Алгоритм Клейнберга. Анализ связей как элемент поисковой системы Google. Пример использования анализа связей для нахождения групп клиентов компании с заданными характеристиками.
Элементы контроля
- Работа на семинарах
- Эссе
- Итоговые модели
- Доклад по эссе
- Работа на семинарах
- Эссе
- Итоговые модели
- Доклад по эссе
Промежуточная аттестация
- Промежуточная аттестация (4 модуль)0.25 * Доклад по эссе + 0.25 * Итоговые модели + 0.25 * Работа на семинарах + 0.25 * Эссе
Список литературы
Рекомендуемая основная литература
- Hall, M., Witten, Ian H., Frank, E. Data Mining: practical machine learning tools and techniques. – 2011. – 664 pp.
- Han, J., Kamber, M., Pei, J. Data Mining: Concepts and Techniques, Third Edition. – Morgan Kaufmann Publishers, 2011. – 740 pp.
- James, G. et al. An introduction to statistical learning. – Springer, 2013. – 426 pp.
- Чубукова И.А. - Data Mining - Национальный Открытый Университет "ИНТУИТ" - 2016 - 470с. - ISBN: 978-5-94774-819-2 - Текст электронный // ЭБС ЛАНЬ - URL: https://e.lanbook.com/book/100582
Рекомендуемая дополнительная литература
- Kantardzic, M., & Recorded Books, I. (2019). Data Mining : Concepts, Models, Methods, and Algorithms (Vol. Third edition). [Place of publication not identified]: Wiley-IEEE Press. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=2282578