Искусственный интеллект в мультимедиа

Бакалавриат 2024/2025

Статус: Курс обязательный (Информатика и вычислительная техника)

Направление: 09.03.01. Информатика и вычислительная техника

Кто читает: Департамент компьютерной инженерии

Где читается: Московский институт электроники и математики им. А.Н. Тихонова

Когда читается: 4-й курс, 1-3 модуль

Формат изучения: без онлайн-курса

Охват аудитории: для своего кампуса

Преподаватели: Моисеев Михаил Васильевич, Рыбаков Петр Владимирович

Язык: русский

Кредиты: 9

Полная версия программы учебной дисциплины Задать вопрос

Аннотация

Курс "Искусственный интеллект в мультимедиа" представляет собой углубленное изучение современных методов и алгоритмов, используемых в области компьютерного зрения, обработки изображений, звука и видео. В рамках курса будут рассмотрены как классические подходы, так и новейшие нейросетевые решения для анализа и генерации мультимедийного контента.Основные темы курса включают: Классические алгоритмы компьютерного зрения: Изучение основ компьютерного зрения, включая алгоритмы обработки изображений и базовые методы анализа сцены. Задачи компьютерного зрения: Рассмотрение ключевых задач, таких как обнаружение, классификация и сегментация объектов, а также трекинг и оптическое распознавание символов (OCR). Нейросетевые алгоритмы для решения задач обнаружения объектов, классификации и сегментации: Овладение современными методами глубокого обучения, включая сверточные нейронные сети (CNN), для анализа изображений. Задача трекинга объектов: Изучение алгоритмов и моделей, используемых для отслеживания движущихся объектов в видео. Оптическое распознавание символов (OCR): Ознакомление с методами извлечения текстовой информации из изображений и документов. Порождающие модели (GAN, VAE, Diffusion): Обзор и применение продвинутых генеративных моделей для создания изображений, видео и других типов данных. Промышленное применение компьютерного зрения: Примеры использования компьютерного зрения в различных отраслях, таких как медицина, производство и безопасность. 3D-реконструкция: Изучение методов восстановления трёхмерных моделей объектов по их двумерным изображениям. Генерация видео: Рассмотрение алгоритмов и технологий, позволяющих создавать видео с использованием нейросетевых моделей. Обработка звука нейросетевыми методами: Освоение методов обработки звуковых сигналов, включая подавление шумов, отделение речи и разделение инструментальных дорожек. Генерация и распознавание речи: Изучение технологий синтеза и распознавания речи с применением нейросетей. Курс предназначен для студентов, интересующихся применением искусственного интеллекта в области мультимедийных технологий, и охватывает как теоретические основы, так и практические аспекты разработки и внедрения AI-решений в мультимедиа. В ходе обучения слушатели получат навыки работы с современными инструментами и библиотеками, такими как Ultralytics, OpenCV, PIL, PyTorch и освоят техники, применимые в реальных проектах.

Цель освоения дисциплины

Формирование у студентов представления о современных алгоритмах искусственного интеллекта в сфере обработки мультимедиа-данных
Формирование у студентов навыков применения методов компьютерного зрения и генеративного искусственного интеллекта для решения задач обработки мультимедиа-данных

Планируемые результаты обучения

Студенты имеют представление о том как работают системы распознавания лиц.
Дать определение компьютерного зрения
Перечислить методы и задачи компьютерного зрения
Студент способен применять на практике современные модели обнаружения объектов
Студенты способны применять на практике современные модели распознавания лиц

Содержание учебной дисциплины

Введение в машинное обучение и компьютерное зрение
Использование нейронных сетей для решения задачи обнаружения объектов на изображении
Распознавание лиц
OCR
Генеративные модели

Элементы контроля

Практическая работа 1. Работа с изображениями на языке Python.
Практическая работа 2
Практическая работа 3. Трекинг объектов
Практическая работа 4. Распознавание лиц.
Практическая работа 5. Генеративные модели.
Практическая работе 6. DeepFake

Промежуточная аттестация

2024/2025 2nd module
0.2 * Практическая работа 1. Работа с изображениями на языке Python. + 0.4 * Практическая работа 2 + 0.4 * Практическая работа 3. Трекинг объектов
2024/2025 3rd module
0.3 * Практическая работа 4. Распознавание лиц. + 0.5 * Практическая работа 5. Генеративные модели. + 0.2 * Практическая работе 6. DeepFake

Список литературы

Авторы

Рыбаков Петр Владимирович

Программа дисциплины

Программа дисциплины

Программа дисциплины

Аннотация

Цель освоения дисциплины

Планируемые результаты обучения

Содержание учебной дисциплины

Элементы контроля

Промежуточная аттестация

Список литературы

Рекомендуемая основная литература

Рекомендуемая дополнительная литература

Авторы