Master
2020/2021
Applied Data Analysis Problems
Type:
Elective course (Software Development and Data Analysis)
Area of studies:
Applied Mathematics and Informatics
Delivered by:
Department of Informatics
When:
1 year, 4 module
Mode of studies:
distance learning
Instructors:
Anton Kuznetsov
Master’s programme:
Software Development and Data Analysis
Language:
English
ECTS credits:
4
Contact hours:
4
Course Syllabus
Abstract
Machine learning methods — be they classification or regression algorithms, clustering methods, or dimensional reduction algorithms — are applied to prepared data with calculated features to solve an already formulated problem. However, data analysts rarely find themselves in such an ideal situation. Usually they are assigned tasks that need to be clarified, choosing a quality metric and a testing protocol for the final model. The data that you need to work with is often presented in an unusable form: it is noisy, contains errors and outliers, is stored in an uncomfortable format, etc. In this course, we will analyze applied tasks from various areas of data analysis: text analysis and information retrieval, collaborative filtering and recommendation systems, business analytics, time series forecasting. Using their example, you will learn how to extract signs from heterogeneous data, what problems arise in this case, and how to solve them. You will learn how to reduce the customer’s task to a formal statement of the machine learning problem and understand how to check the quality of the constructed model on historical data and in an online experiment. For each task, we will study the pros and cons of the machine learning algorithms passed. After listening to this course, you will get acquainted with the common types of applied problems and will understand the schemes for solving them. The course videos were developed in Python 2. Assignments and notebooks adapted to Python 3.
Learning Objectives
- familiarity with common types of applied problems and understanding of the scheme for their solution
Expected Learning Outcomes
- knows the concepts of business tasks, knows how to solve them with the help of the application of machine learning methods
- nows the basic methods of image processing, knows how to classify images, conducts segmentation. Able to use neural network libraries
- knows how to reduce texts to a standard matrix. knows the basics of working with text data
- Able to rank, highlight relevant and interesting tasks for the user
Assessment Elements
- course assignments
- examЭкзамен проводится на платформе Zoom. Экзамен проводится в устной форме (опрос по материалам курса). По просьбе преподавателя студент должен быть готов выполнить некоторые задания в письменном виде, после чего сфотографировать и выслать на почту преподавателю. К экзамену необходимо подключиться согласно расписанию, высланному преподавателем на корпоративные почты студентов накануне экзамена. Компьютер студента должен удовлетворять требованиям: наличие рабочей камеры и микрофона, поддержка платформы Zoom. Для участия в экзамене студент обязан: выбрать себе имя в Zoom совпадающее с его именем и фамилией, явиться на экзамен согласно точному расписанию, при ответе включить камеру и микрофон. Во время экзамена студентам запрещается выключать камеру. Ипользование конспектов или других справочных материалов допускается только с разрешения преподавателя. Кратковременным нарушением связи во время экзамена считается нарушение связи менее 5 минут. Долговременным нарушением связи во время экзамена считается нарушение 5 минут и более. При долговременном нарушении связи возможность продолжения студентом участие в экзамене определяется преподавателем. Процедура пересдачи подразумевает использование усложненных заданий.
Bibliography
Recommended Core Bibliography
- Под ред. Мхитаряна В.С. - АНАЛИЗ ДАННЫХ. Учебник для академического бакалавриата - М.:Издательство Юрайт - 2019 - 490с. - ISBN: 978-5-534-00616-2 - Текст электронный // ЭБС ЮРАЙТ - URL: https://urait.ru/book/analiz-dannyh-432178
Recommended Additional Bibliography
- Shmueli, G., Bruce, P. C., Yahav, I., Patel, N. R., & Lichtendahl, K. C. (2017). Data Mining for Business Analytics : Concepts, Techniques, and Applications in R. Hoboken, New Jersey: Wiley. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=1585613