Delivered at:: School of Computer Engineering

Course type:: Compulsory course

When:: 4 year, 1-3 module

Instructors

Moiseev, Mikhail

Rybakov, Pyotr

Полная версия программы учебной дисциплины Задать вопрос

Аннотация

Курс "Искусственный интеллект в мультимедиа" представляет собой углубленное изучение современных методов и алгоритмов, используемых в области компьютерного зрения, обработки изображений, звука и видео. В рамках курса будут рассмотрены как классические подходы, так и новейшие нейросетевые решения для анализа и генерации мультимедийного контента.Основные темы курса включают: Классические алгоритмы компьютерного зрения: Изучение основ компьютерного зрения, включая алгоритмы обработки изображений и базовые методы анализа сцены. Задачи компьютерного зрения: Рассмотрение ключевых задач, таких как обнаружение, классификация и сегментация объектов, а также трекинг и оптическое распознавание символов (OCR). Нейросетевые алгоритмы для решения задач обнаружения объектов, классификации и сегментации: Овладение современными методами глубокого обучения, включая сверточные нейронные сети (CNN), для анализа изображений. Задача трекинга объектов: Изучение алгоритмов и моделей, используемых для отслеживания движущихся объектов в видео. Оптическое распознавание символов (OCR): Ознакомление с методами извлечения текстовой информации из изображений и документов. Порождающие модели (GAN, VAE, Diffusion): Обзор и применение продвинутых генеративных моделей для создания изображений, видео и других типов данных. Промышленное применение компьютерного зрения: Примеры использования компьютерного зрения в различных отраслях, таких как медицина, производство и безопасность. 3D-реконструкция: Изучение методов восстановления трёхмерных моделей объектов по их двумерным изображениям. Генерация видео: Рассмотрение алгоритмов и технологий, позволяющих создавать видео с использованием нейросетевых моделей. Обработка звука нейросетевыми методами: Освоение методов обработки звуковых сигналов, включая подавление шумов, отделение речи и разделение инструментальных дорожек. Генерация и распознавание речи: Изучение технологий синтеза и распознавания речи с применением нейросетей. Курс предназначен для студентов, интересующихся применением искусственного интеллекта в области мультимедийных технологий, и охватывает как теоретические основы, так и практические аспекты разработки и внедрения AI-решений в мультимедиа. В ходе обучения слушатели получат навыки работы с современными инструментами и библиотеками, такими как Ultralytics, OpenCV, PIL, PyTorch и освоят техники, применимые в реальных проектах.

Цель освоения дисциплины

Формирование у студентов представления о современных алгоритмах искусственного интеллекта в сфере обработки мультимедиа-данных
Формирование у студентов навыков применения методов компьютерного зрения и генеративного искусственного интеллекта для решения задач обработки мультимедиа-данных

Планируемые результаты обучения

Студенты имеют представление о том как работают системы распознавания лиц.
Дать определение компьютерного зрения
Перечислить методы и задачи компьютерного зрения
Студент способен применять на практике современные модели обнаружения объектов
Студенты способны применять на практике современные модели распознавания лиц

Содержание учебной дисциплины

Введение в машинное обучение и компьютерное зрение
Использование нейронных сетей для решения задачи обнаружения объектов на изображении
Распознавание лиц
OCR
Генеративные модели

Элементы контроля

Практическая работа 1. Работа с изображениями на языке Python.
Практическая работа 2
Практическая работа 3. Трекинг объектов
Практическая работа 4. Распознавание лиц.
Практическая работа 5. Генеративные модели.
Практическая работе 6. DeepFake

Промежуточная аттестация

2024/2025 2nd module
0.2 * Практическая работа 1. Работа с изображениями на языке Python. + 0.4 * Практическая работа 2 + 0.4 * Практическая работа 3. Трекинг объектов
2024/2025 3rd module
0.3 * Практическая работа 4. Распознавание лиц. + 0.5 * Практическая работа 5. Генеративные модели. + 0.2 * Практическая работе 6. DeepFake

Список литературы

Авторы

Рыбаков Петр Владимирович

Bachelor’s Programme 'Information Science and Computation Technology'

Artificial Intelligence in Multimedia

Instructors

Программа дисциплины