Бакалавриат
2024/2025
Хемометрика и хемоинформатика
Статус:
Курс обязательный (Химия)
Направление:
04.03.01. Химия
Кто читает:
Факультет химии
Где читается:
Факультет химии
Когда читается:
3-й курс, 1, 2 модуль
Формат изучения:
без онлайн-курса
Охват аудитории:
для своего кампуса
Преподаватели:
Мезенцев Игорь Александрович
Язык:
русский
Кредиты:
3
Контактные часы:
56
Программа дисциплины
Аннотация
Курс представляет собой введение в современные методы и области использования искусственного интеллекта для анализа химических данных. В блоке «Хемометрика» будут рассмотрены подходы к планированию и проведению аналитического эксперимента, автоматического сбора и агрегации результатов опытов, дизайну и построению статистических моделей анализа и визуализации экспериментальных данных в химии, включающим в себя уменьшение размерности данных, кластеризацию, классификацию и многомерную регрессию при помощи инструментария Python и методов машинного обучения. Блок «Хемоинформатика» посвящен использованию искусственного интеллекта для разработки компьютерных методов работы со структурной химической информацией, включая создание и оперирование химическими базами данных и установление и моделирование связи между структурами химических соединений и их свойствами. Для решения задач хемометрики и хемоинформатики будут рассмотрены и применены на практике традиционные подходы машинного обучения, такие как линейная регрессия с регуляризацией, деревья решений, случайный лес и градиентный бустинг; а также подходы глубинного обучения, такие как полносвязные, рекуррентные и сверточные нейронные сети. Курс рассчитан на студентов, обладающих базовыми навыками работы в python (владение основными структурами данных, такими как list, dict, tuple, array; подключение внешних библиотек; реализация арифметических операций, циклов, функций и классов; чтение внешних файлов и запись информации в них), представлениями о результатах аналитических экспериментов (вольтамперометрия, масс-спектрометрия, спектрофотометрия, ЯМР-спектроскопия, рентгеноструктурный анализ) и владеющими основными инструментами математического анализа, линейной алгебры и математической статистики (функция многих переменных, оператор набла (градиент, дивергенция, ротор), комплекснозначная функция, преобразование Фурье, операции над векторами/тензорами, линейное отображение, собственные вектора, системы линейных алгебраических уравнений, стандартное отклонение, методы построения статистических оценок, функция плотности распределения центральная предельная теорема).
Цель освоения дисциплины
- Получение навыка работы с различными типами данных аналитического эксперимента
Планируемые результаты обучения
- Получение навыка работы с различными типами данных аналитического эксперимента в Python
- Ознакомление с принципами организации хемометрического эксперимента
- Ознакомление с принципами статистических тестов, проверки гипотез и исследований корреляций в Python
- Знакомство с принципами фильтрации, аугментации и понижения размерности данных для результатов аналитического эксперимента
- Получение навыка визуального отображения результатов статистического исследования при помощи Jupyter Notebook
- Овладение навыком применения моделей машинного обучения для решения задач регрессии, классификации и кластеризации на основе данных аналитического эксперимента при помощи Python
- Ознакомление с принципами цифрового представления химических структур при помощи детерминированных алгоритмов и алгоритмов машинного обучения в Python
- Знакомство со способами работы с химическим пространством и подходами к сравнению различных химических пространств между собой в Python
- Знакомство с основными базами данных молекулярных структур, получение навыков работы с ними – работа с репозиториями и бенчмарк-датасетами и парсинг данных
- Формирование базового представления о математических основах моделей машинного и глубокого обучения
- Формирование принципов работы над задачами установления количественных корреляций структура-свойство в Python
- Получение навыка написания и использования алгоритмов машинного и глубокого обучения для получения цифровых представлений молекулярных структур в Python и установления их взаимосвязей с физическими свойствами
Содержание учебной дисциплины
- Введение: искусственный интеллект в химии
- Планирование хемометрического эксперимента и работа с данными
- Модели машинного обучения в хемометрике
- Цифровые представления молекулярной структуры
- Количественная оценка корреляций «структура-свойства»
- Генеративные алгоритмы в химии
Элементы контроля
- Домашнее задание с проверкой преподавателем 1Процедура сдачи домашних заданий с проверкой преподавателем: 1. Перед выполнением задания студент устанавливает на персональный компьютер Jupyter Notebook либо использует Google Colab. 2. Студент отправляет ipynb-файл из Jupyter Notebook или ссылку на выполненное задание в Google Colab по адресу электронной почты, обговоренной с преподавателем. Название файла должно содержать номер группы, фамилию и имя студента. В случае использования Google Colab студент должен убедиться, что по предоставленной ссылке есть доступ. 3. Преподаватель оставляет обратную связь на выполненную работу через электронную почту и выставляет оценку
- Домашнее задание с проверкой преподавателем 2Процедура сдачи домашних заданий с проверкой преподавателем: 1. Перед выполнением задания студент устанавливает на персональный компьютер Jupyter Notebook либо использует Google Colab. 2. Студент отправляет ipynb-файл из Jupyter Notebook или ссылку на выполненное задание в Google Colab по адресу электронной почты, обговоренной с преподавателем. Название файла должно содержать номер группы, фамилию и имя студента. В случае использования Google Colab студент должен убедиться, что по предоставленной ссылке есть доступ. 3. Преподаватель оставляет обратную связь на выполненную работу через электронную почту и выставляет оценку
- Итоговая работа по 2-му модулюИтоговый экзамен по дисциплине проводится в форме выполнения итоговой работы по во 2-ом модуле дисциплины. Студентам предлагается выполнить задание, которое может включать в себя элементы всех тем курса. Результатом работы студента является ipynb-файл из Jupyter Notebook, направленное по адресу электронной почты, обговоренной с преподавателем. Название файла должно содержать номер группы, фамилию и имя студента. Студент выполняет итоговое задание за два дня до назначенной даты экзамена по дисциплине. На экзамене преподаватель даёт студентам обратную связь и в рамках устного опроса определяет мотивацию использования представленных студентом методов, понимание их алгоритма работы и ограничений и выставляет оценку.
Промежуточная аттестация
- 2024/2025 2nd module0.3 * Домашнее задание с проверкой преподавателем 1 + 0.3 * Домашнее задание с проверкой преподавателем 2 + 0.4 * Итоговая работа по 2-му модулю
Список литературы
Рекомендуемая основная литература
- Прикладной анализ текстовых данных на Python. Машинное обучение и создание приложений обработки естественного языка - 978-5-4461-1153-4 - Бенджамин Бенгфорт, Ребекка Билбро, Тони Охеда - 2021 - Санкт-Петербург: Питер - https://ibooks.ru/bookshelf/365298 - 365298 - iBOOKS
- Смагунова, А. Н. Статистические методы в аналитической химии : учебное пособие для вузов / А. Н. Смагунова, О. М. Карпукова. — 2-е изд., перераб. и доп. — Москва : Издательство Юрайт, 2023. — 364 с. — (Высшее образование). — ISBN 978-5-534-13147-5. — Текст : электронный // Образовательная платформа Юрайт [сайт]. — URL: https://urait.ru/bcode/517258 (дата обращения: 27.08.2024).
Рекомендуемая дополнительная литература
- TensorFlow для глубокого обучения: Пер. с англ. - 978-5-9775-4014-8 - Рамсундар Б., Заде Р. Б. - 2019 - Санкт-Петербург: БХВ-Петербург - https://ibooks.ru/bookshelf/386499 - 386499 - iBOOKS