• A
  • A
  • A
  • АБВ
  • АБВ
  • АБВ
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта
16
Февраль

Хемометрика и хемоинформатика

2024/2025
Учебный год
RUS
Обучение ведется на русском языке
3
Кредиты
Кто читает:
Факультет химии
Статус:
Курс обязательный
Когда читается:
3-й курс, 1, 2 модуль

Преподаватели

Программа дисциплины

Аннотация

Курс представляет собой введение в современные методы и области использования искусственного интеллекта для анализа химических данных. В блоке «Хемометрика» будут рассмотрены подходы к планированию и проведению аналитического эксперимента, автоматического сбора и агрегации результатов опытов, дизайну и построению статистических моделей анализа и визуализации экспериментальных данных в химии, включающим в себя уменьшение размерности данных, кластеризацию, классификацию и многомерную регрессию при помощи инструментария Python и методов машинного обучения. Блок «Хемоинформатика» посвящен использованию искусственного интеллекта для разработки компьютерных методов работы со структурной химической информацией, включая создание и оперирование химическими базами данных и установление и моделирование связи между структурами химических соединений и их свойствами. Для решения задач хемометрики и хемоинформатики будут рассмотрены и применены на практике традиционные подходы машинного обучения, такие как линейная регрессия с регуляризацией, деревья решений, случайный лес и градиентный бустинг; а также подходы глубинного обучения, такие как полносвязные, рекуррентные и сверточные нейронные сети. Курс рассчитан на студентов, обладающих базовыми навыками работы в python (владение основными структурами данных, такими как list, dict, tuple, array; подключение внешних библиотек; реализация арифметических операций, циклов, функций и классов; чтение внешних файлов и запись информации в них), представлениями о результатах аналитических экспериментов (вольтамперометрия, масс-спектрометрия, спектрофотометрия, ЯМР-спектроскопия, рентгеноструктурный анализ) и владеющими основными инструментами математического анализа, линейной алгебры и математической статистики (функция многих переменных, оператор набла (градиент, дивергенция, ротор), комплекснозначная функция, преобразование Фурье, операции над векторами/тензорами, линейное отображение, собственные вектора, системы линейных алгебраических уравнений, стандартное отклонение, методы построения статистических оценок, функция плотности распределения центральная предельная теорема).
Цель освоения дисциплины

Цель освоения дисциплины

  • Получение навыка работы с различными типами данных аналитического эксперимента
Планируемые результаты обучения

Планируемые результаты обучения

  • Получение навыка работы с различными типами данных аналитического эксперимента в Python
  • Ознакомление с принципами организации хемометрического эксперимента
  • Ознакомление с принципами статистических тестов, проверки гипотез и исследований корреляций в Python
  • Знакомство с принципами фильтрации, аугментации и понижения размерности данных для результатов аналитического эксперимента
  • Получение навыка визуального отображения результатов статистического исследования при помощи Jupyter Notebook
  • Овладение навыком применения моделей машинного обучения для решения задач регрессии, классификации и кластеризации на основе данных аналитического эксперимента при помощи Python
  • Ознакомление с принципами цифрового представления химических структур при помощи детерминированных алгоритмов и алгоритмов машинного обучения в Python
  • Знакомство со способами работы с химическим пространством и подходами к сравнению различных химических пространств между собой в Python
  • Знакомство с основными базами данных молекулярных структур, получение навыков работы с ними – работа с репозиториями и бенчмарк-датасетами и парсинг данных
  • Формирование базового представления о математических основах моделей машинного и глубокого обучения
  • Формирование принципов работы над задачами установления количественных корреляций структура-свойство в Python
  • Получение навыка написания и использования алгоритмов машинного и глубокого обучения для получения цифровых представлений молекулярных структур в Python и установления их взаимосвязей с физическими свойствами
Содержание учебной дисциплины

Содержание учебной дисциплины

  • Введение: искусственный интеллект в химии
  • Планирование хемометрического эксперимента и работа с данными
  • Модели машинного обучения в хемометрике
  • Цифровые представления молекулярной структуры
  • Количественная оценка корреляций «структура-свойства»
  • Генеративные алгоритмы в химии
Элементы контроля

Элементы контроля

  • неблокирующий Домашнее задание с проверкой преподавателем 1
    Процедура сдачи домашних заданий с проверкой преподавателем: 1. Перед выполнением задания студент устанавливает на персональный компьютер Jupyter Notebook либо использует Google Colab. 2. Студент отправляет ipynb-файл из Jupyter Notebook или ссылку на выполненное задание в Google Colab по адресу электронной почты, обговоренной с преподавателем. Название файла должно содержать номер группы, фамилию и имя студента. В случае использования Google Colab студент должен убедиться, что по предоставленной ссылке есть доступ. 3. Преподаватель оставляет обратную связь на выполненную работу через электронную почту и выставляет оценку
  • неблокирующий Домашнее задание с проверкой преподавателем 2
    Процедура сдачи домашних заданий с проверкой преподавателем: 1. Перед выполнением задания студент устанавливает на персональный компьютер Jupyter Notebook либо использует Google Colab. 2. Студент отправляет ipynb-файл из Jupyter Notebook или ссылку на выполненное задание в Google Colab по адресу электронной почты, обговоренной с преподавателем. Название файла должно содержать номер группы, фамилию и имя студента. В случае использования Google Colab студент должен убедиться, что по предоставленной ссылке есть доступ. 3. Преподаватель оставляет обратную связь на выполненную работу через электронную почту и выставляет оценку
  • блокирующий Итоговая работа по 2-му модулю
    Итоговый экзамен по дисциплине проводится в форме выполнения итоговой работы по во 2-ом модуле дисциплины. Студентам предлагается выполнить задание, которое может включать в себя элементы всех тем курса. Результатом работы студента является ipynb-файл из Jupyter Notebook, направленное по адресу электронной почты, обговоренной с преподавателем. Название файла должно содержать номер группы, фамилию и имя студента. Студент выполняет итоговое задание за два дня до назначенной даты экзамена по дисциплине. На экзамене преподаватель даёт студентам обратную связь и в рамках устного опроса определяет мотивацию использования представленных студентом методов, понимание их алгоритма работы и ограничений и выставляет оценку.
Промежуточная аттестация

Промежуточная аттестация

  • 2024/2025 2nd module
    0.3 * Домашнее задание с проверкой преподавателем 1 + 0.3 * Домашнее задание с проверкой преподавателем 2 + 0.4 * Итоговая работа по 2-му модулю
Список литературы

Список литературы

Рекомендуемая основная литература

  • Прикладной анализ текстовых данных на Python. Машинное обучение и создание приложений обработки естественного языка - 978-5-4461-1153-4 - Бенджамин Бенгфорт, Ребекка Билбро, Тони Охеда - 2021 - Санкт-Петербург: Питер - https://ibooks.ru/bookshelf/365298 - 365298 - iBOOKS
  • Смагунова, А. Н.  Статистические методы в аналитической химии : учебное пособие для вузов / А. Н. Смагунова, О. М. Карпукова. — 2-е изд., перераб. и доп. — Москва : Издательство Юрайт, 2023. — 364 с. — (Высшее образование). — ISBN 978-5-534-13147-5. — Текст : электронный // Образовательная платформа Юрайт [сайт]. — URL: https://urait.ru/bcode/517258 (дата обращения: 27.08.2024).

Рекомендуемая дополнительная литература

  • TensorFlow для глубокого обучения: Пер. с англ. - 978-5-9775-4014-8 - Рамсундар Б., Заде Р. Б. - 2019 - Санкт-Петербург: БХВ-Петербург - https://ibooks.ru/bookshelf/386499 - 386499 - iBOOKS

Авторы

  • Еремейкина Елена Алексеевна
  • Постриганова Анастасия Владимировна