We use cookies in order to improve the quality and usability of the HSE website. More information about the use of cookies is available here, and the regulations on processing personal data can be found here. By continuing to use the site, you hereby confirm that you have been informed of the use of cookies by the HSE website and agree with our rules for processing personal data. You may disable cookies in your browser settings.

  • A
  • A
  • A
  • ABC
  • ABC
  • ABC
  • А
  • А
  • А
  • А
  • А
Regular version of the site

Chemometrics and Cheminformatics

2024/2025
Academic Year
RUS
Instruction in Russian
3
ECTS credits
Course type:
Compulsory course
When:
3 year, 1, 2 module

Instructors


Злобин Иван Сергеевич


Mezentsev, Igor

Программа дисциплины

Аннотация

Курс представляет собой введение в современные методы и области использования искусственного интеллекта для анализа химических данных. В блоке «Хемометрика» будут рассмотрены подходы к планированию и проведению аналитического эксперимента, автоматического сбора и агрегации результатов опытов, дизайну и построению статистических моделей анализа и визуализации экспериментальных данных в химии, включающим в себя уменьшение размерности данных, кластеризацию, классификацию и многомерную регрессию при помощи инструментария Python и методов машинного обучения. Блок «Хемоинформатика» посвящен использованию искусственного интеллекта для разработки компьютерных методов работы со структурной химической информацией, включая создание и оперирование химическими базами данных и установление и моделирование связи между структурами химических соединений и их свойствами. Для решения задач хемометрики и хемоинформатики будут рассмотрены и применены на практике традиционные подходы машинного обучения, такие как линейная регрессия с регуляризацией, деревья решений, случайный лес и градиентный бустинг; а также подходы глубинного обучения, такие как полносвязные, рекуррентные и сверточные нейронные сети. Курс рассчитан на студентов, обладающих базовыми навыками работы в python (владение основными структурами данных, такими как list, dict, tuple, array; подключение внешних библиотек; реализация арифметических операций, циклов, функций и классов; чтение внешних файлов и запись информации в них), представлениями о результатах аналитических экспериментов (вольтамперометрия, масс-спектрометрия, спектрофотометрия, ЯМР-спектроскопия, рентгеноструктурный анализ) и владеющими основными инструментами математического анализа, линейной алгебры и математической статистики (функция многих переменных, оператор набла (градиент, дивергенция, ротор), комплекснозначная функция, преобразование Фурье, операции над векторами/тензорами, линейное отображение, собственные вектора, системы линейных алгебраических уравнений, стандартное отклонение, методы построения статистических оценок, функция плотности распределения центральная предельная теорема).
Цель освоения дисциплины

Цель освоения дисциплины

  • Получение навыка работы с различными типами данных аналитического эксперимента
Планируемые результаты обучения

Планируемые результаты обучения

  • Получение навыка работы с различными типами данных аналитического эксперимента в Python
  • Ознакомление с принципами организации хемометрического эксперимента
  • Ознакомление с принципами статистических тестов, проверки гипотез и исследований корреляций в Python
  • Знакомство с принципами фильтрации, аугментации и понижения размерности данных для результатов аналитического эксперимента
  • Получение навыка визуального отображения результатов статистического исследования при помощи Jupyter Notebook
  • Овладение навыком применения моделей машинного обучения для решения задач регрессии, классификации и кластеризации на основе данных аналитического эксперимента при помощи Python
  • Ознакомление с принципами цифрового представления химических структур при помощи детерминированных алгоритмов и алгоритмов машинного обучения в Python
  • Знакомство со способами работы с химическим пространством и подходами к сравнению различных химических пространств между собой в Python
  • Знакомство с основными базами данных молекулярных структур, получение навыков работы с ними – работа с репозиториями и бенчмарк-датасетами и парсинг данных
  • Формирование базового представления о математических основах моделей машинного и глубокого обучения
  • Формирование принципов работы над задачами установления количественных корреляций структура-свойство в Python
  • Получение навыка написания и использования алгоритмов машинного и глубокого обучения для получения цифровых представлений молекулярных структур в Python и установления их взаимосвязей с физическими свойствами
Содержание учебной дисциплины

Содержание учебной дисциплины

  • Введение: искусственный интеллект в химии
  • Планирование хемометрического эксперимента и работа с данными
  • Модели машинного обучения в хемометрике
  • Цифровые представления молекулярной структуры
  • Количественная оценка корреляций «структура-свойства»
  • Генеративные алгоритмы в химии
Элементы контроля

Элементы контроля

  • неблокирующий Домашнее задание с проверкой преподавателем 1
    Процедура сдачи домашних заданий с проверкой преподавателем: 1. Перед выполнением задания студент устанавливает на персональный компьютер Jupyter Notebook либо использует Google Colab. 2. Студент отправляет ipynb-файл из Jupyter Notebook или ссылку на выполненное задание в Google Colab по адресу электронной почты, обговоренной с преподавателем. Название файла должно содержать номер группы, фамилию и имя студента. В случае использования Google Colab студент должен убедиться, что по предоставленной ссылке есть доступ. 3. Преподаватель оставляет обратную связь на выполненную работу через электронную почту и выставляет оценку
  • неблокирующий Домашнее задание с проверкой преподавателем 2
    Процедура сдачи домашних заданий с проверкой преподавателем: 1. Перед выполнением задания студент устанавливает на персональный компьютер Jupyter Notebook либо использует Google Colab. 2. Студент отправляет ipynb-файл из Jupyter Notebook или ссылку на выполненное задание в Google Colab по адресу электронной почты, обговоренной с преподавателем. Название файла должно содержать номер группы, фамилию и имя студента. В случае использования Google Colab студент должен убедиться, что по предоставленной ссылке есть доступ. 3. Преподаватель оставляет обратную связь на выполненную работу через электронную почту и выставляет оценку
  • блокирующий Итоговая работа по 2-му модулю
    Итоговый экзамен по дисциплине проводится в форме выполнения итоговой работы по во 2-ом модуле дисциплины. Студентам предлагается выполнить задание, которое может включать в себя элементы всех тем курса. Результатом работы студента является ipynb-файл из Jupyter Notebook, направленное по адресу электронной почты, обговоренной с преподавателем. Название файла должно содержать номер группы, фамилию и имя студента. Студент выполняет итоговое задание за два дня до назначенной даты экзамена по дисциплине. На экзамене преподаватель даёт студентам обратную связь и в рамках устного опроса определяет мотивацию использования представленных студентом методов, понимание их алгоритма работы и ограничений и выставляет оценку.
Промежуточная аттестация

Промежуточная аттестация

  • 2024/2025 2nd module
    0.3 * Домашнее задание с проверкой преподавателем 1 + 0.3 * Домашнее задание с проверкой преподавателем 2 + 0.4 * Итоговая работа по 2-му модулю
Список литературы

Список литературы

Рекомендуемая основная литература

  • Прикладной анализ текстовых данных на Python. Машинное обучение и создание приложений обработки естественного языка - 978-5-4461-1153-4 - Бенджамин Бенгфорт, Ребекка Билбро, Тони Охеда - 2021 - Санкт-Петербург: Питер - https://ibooks.ru/bookshelf/365298 - 365298 - iBOOKS
  • Смагунова, А. Н.  Статистические методы в аналитической химии : учебное пособие для вузов / А. Н. Смагунова, О. М. Карпукова. — 2-е изд., перераб. и доп. — Москва : Издательство Юрайт, 2023. — 364 с. — (Высшее образование). — ISBN 978-5-534-13147-5. — Текст : электронный // Образовательная платформа Юрайт [сайт]. — URL: https://urait.ru/bcode/517258 (дата обращения: 27.08.2024).

Рекомендуемая дополнительная литература

  • TensorFlow для глубокого обучения: Пер. с англ. - 978-5-9775-4014-8 - Рамсундар Б., Заде Р. Б. - 2019 - Санкт-Петербург: БХВ-Петербург - https://ibooks.ru/bookshelf/386499 - 386499 - iBOOKS

Авторы

  • Еремейкина Елена Алексеевна
  • Постриганова Анастасия Владимировна