• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта
Бакалавриат 2020/2021

Машинный поиск информации в химии

Статус: Курс обязательный (Химия)
Направление: 04.03.01. Химия
Кто читает: Факультет химии
Где читается: Факультет химии
Когда читается: 2-й курс, 3 модуль
Формат изучения: без онлайн-курса
Язык: русский
Кредиты: 3
Контактные часы: 40

Программа дисциплины

Аннотация

Дисциплина "Машинный поиск информации в химии" направлена на формирование современных представлений по основным принципам поиска научно-технической информации, ознакомление с существующими наиболее важными информационно-поисковыми системами, отработка практических навыков поиска научно-технической информации в интернете. Основные задачи данного курса заключаются в выработке навыков осмысленной работы с наиболее важными онлайновыми информационными ресурсами и поисковыми инструментами, в отработке приемов оценки достоверности документа, освоении специализированных средств конструирования, визуализации химических структур и прогнозирования физико-химических параметров, обнаружения спектральных характеристик химических объектов, в знакомстве с методами коллективной работы. Изучение данной дисциплины базируется на следующих дисциплинах: • Информатика для химиков • Математический анализ. Для освоения учебной дисциплины студенты должны владеть следующими знаниями и компетенциями: • Знать элементарные правила работы с компьютером, программным обеспечением общего назначения. • Знать номенклатуру, уметь рисовать и рассчитывать брутто-формулы, геометрию химических структур с использованием специализированного программного обеспечения, работать с удаленными и облачными базами данных, систематизировать и формализовать данные в виде таблиц. • Уметь формализовать проблемы и ситуации профессиональной деятельности, используя язык и аппарат математических наук.
Цель освоения дисциплины

Цель освоения дисциплины

  • Целями освоения дисциплины Машинный поиск информации в химии являются: формирование современных представлений по основным принципам поиска научно-технической информации, ознакомление с существующими наиболее важными информационно-поисковыми системами, отработка практических навыков поиска научно-технической информации в интернете.
Планируемые результаты обучения

Планируемые результаты обучения

  • Демонстрирует знание базовых методологий поиска информации в химии.
  • Применяет представления о номенклатуре и структуре вещества для формализации поискового задания.
  • Демонстрирует понимание структуры и наполнения источников информации в химии, включая облачные базы данных, а также формат ввода-вывода материала.
  • Фильтрует и обосновывает полученные данные. Интерпретирует полученные данные для синтеза и анализа.
Содержание учебной дисциплины

Содержание учебной дисциплины

  • Источники, виды представления и структура научной информации
    Классификация источников научной информации (НИ) — первичные (оригинальные статьи, патенты, тезисы конференций) и вторичные (аггрегаторы, реферативные сборники, справочники). Представление, классификация и аггрегация в базы данных (БД) химической информации. Разделение на информационные кластеры в соответствии с международной классификацией направлений научных исследований. 1.2. Онлайн- и офлайн базы данных. Печатные предшественники БД. Построение онлайн-архитектуры БД. Принципы взаимодействий клиент-сервер. Поисковые запросы: числовые, графические (векторные, растровые), формализованные и натуральные языки. Конвертация запросов химической информации при вводе-выводе.
  • Патентная информация в источниках НТИ.
    4.1. Патенты как первоисточники НТИ. Процедура патентования — заявка, публикация, патент. Время действия патента. Правовой статус патента. Международная классификация изобретений. Патентное семейство. Доступ к полным текстам патентов (открытый доступ). Европейское патентное ведомство. Патентное ведомство США. Патентное ведомство Японии. Патентное ведомство России – Роспатент. Патентные ресурсы с лицензионным видом доступа.
  • Базы данных по отдельным кластерам химической информации
    Отличия структуры, запросов и вида ответов в специализированные БД по отдельным наукам от универсальных. Примеры специализированных БД. Структурно-химические БД. - Информационно-поисковые системы SciFinder, REAXYS. (4 часа лекции, 4 часа практические занятия). - Структурно-химическая БД Registry. БД Registry как единый формульный указатель к БД CA Пример записи в БД Registry. Поиск по полному химическому названию. Особенности систематической номенклатуры Chemical Abstracts Service. Поиск по молекулярной формуле (порядок Хилла), фрагментам химического названия, Ring System. (Лекция - 2 часа, практические занятия - 2 часа) - Редактор STN Express для структурного поиска. Структурный поиск в БД STN. Графический интерфейс STN Express-8. Построение и проверка структурных запросов. Представление таутомеров. Основные виды поисков. Реакционная БД СASREACT (mapping, marking) (Лекция - 2 часа, практические занятия - 2 часа). - Кембриджская база структурных данных (КБСД). Поиск по параметрам кристалла. Поиск по химической структуре. Поиск структур с определённым расположением атомов в пространстве. Фильтрация кристаллических структур по качеству эксперимента/решения. Составление сложных запросов и пост-обработка найденных данных в Mercury. - Поиск и обработка результатов мультиструктурных БД (PubChem, ChEMBL, ZINC). Поиск в БД ответной части (лиганд) для исследуемой мишени (катализатор, белок). Принципы фильтрации данных по степени соответствия лиганд-мишень: несвязывающие взаимодействия – конформационная лабильность, электростатические диполь-дипольные взаимодействия, транс-влияние; специфическое химическое связывание. Эмпирическое «правило пяти» Липинского. Молекулярное моделирование комплекса лиганд-мишень для различных химических процессов. Оптимизация поиска с обратной связью: модификация скелета, энтропия, варьирование конформации, поиск по активным группам и фармакофорам. Обзор и методы поиска-фильтрации данных 3D структурных БД макромолекул (в т.ч.белков): Protein Data Bank, База данных макромолекулярных движений, JenaLib, ModBase, сети TOPSAN.
  • Универсальные библиографические базы данных
    Командный язык messenger, символы. Усечения (truncation, wildcards), логические операторы (boolean), контекстные операторы (proximity). Логические операторы. Символы усечения. Контекстные операторы. Основные команды языка Messenger. Цена проведения поиска в библиографических базах данных. Вывод информации в библиографических БД. Специальные индексы. Библиографическая БД Chemical Abstracts. Общие представления о библиографической БД Chemical Abstracts (CA). Печатное издание CA. Электронные БД CA on CD (offline), БД CA, HCA, ZCA, caplus, zcaplus, hcaplus через STN (online). Возможность поиска по цитированию. Регистрационные номера CAS (CAS rns). Ключевые слова и контролируемые термины. Роли и их применение. SCOPUS/Mendeley и Web of Science/Endnote. Другие способы систематизации литературных данных. 3.3.1. Поиск, анализ научных статей и планирование научно-исследовательской деятельности с помощью Web of Science и Scopus. Использование групповых символов, операторов при поиске. Цитирование статей. Нормализация по области науки. SciVal: Field-Weighted Citation Impact (взвешенное по области знания цитирование). ScienceDirect. 3.3.2. Сохранение ссылок из ScienceDirect в Mendeley. Импорт-экспорт ссылок в Endnote. Mendeley, Zotero.
Элементы контроля

Элементы контроля

  • блокирующий Контрольная работа 1
    Контрольная работа по теме " Химические базы"
  • блокирующий Контрольная работа 2
    Контрольная работа по теме "Литературный поиск"
  • неблокирующий Экзамен
  • неблокирующий Домашние задания
    Пять домашних заданий в течении курса с равным весовым коэффициентом.
Промежуточная аттестация

Промежуточная аттестация

  • Промежуточная аттестация (3 модуль)
    0.5 * Домашние задания + 0.15 * Контрольная работа 1 + 0.15 * Контрольная работа 2 + 0.2 * Экзамен
Список литературы

Список литературы

Рекомендуемая основная литература

  • Davies, J., Goker, A., & Wiley InterScience (Online service). (2009). Information Retrieval : Searching in the 21st Century. Chichester, U.K.: Wiley. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=308933
  • Введение в системы баз данных, Дейт, К. Дж., 2005

Рекомендуемая дополнительная литература

  • Wei, W. (2017). Information Retrieval in Biomedical Research: From Articles to Datasets.