• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта
Магистратура 2020/2021

Практическая биоинформатика

Лучший по критерию «Полезность курса для Вашей будущей карьеры»
Лучший по критерию «Полезность курса для расширения кругозора и разностороннего развития»
Лучший по критерию «Новизна полученных знаний»
Статус: Курс обязательный (Анализ данных в биологии и медицине)
Направление: 01.04.02. Прикладная математика и информатика
Когда читается: 1-й курс, 3, 4 модуль
Формат изучения: без онлайн-курса
Прогр. обучения: Анализ данных в биологии и медицине
Язык: русский
Кредиты: 4
Контактные часы: 64

Программа дисциплины

Аннотация

Курс охватывает базы данных и основные сервисы и программы для обработки биологических последовательностей, а также молекулярную филогению, семейства и домены белков, базы данных по структурам белков и РНК. В цели курса входит научить студентов использовать основные биологические базы данных, в том числе содержащие геномную, структурную и другую информацию, в научно-исследовательской работе; овладеть базовыми средствами анализа геномной, структурной и другой биологической информации. 
 Курс развивает ключевые знания и компетенции в биоинформатических задачах и позволит успешно работать с любыми типами биологических данных, которые будут встречаться в следующих курсах модуля.
Цель освоения дисциплины

Цель освоения дисциплины

  • освоение студентами современных направлений компьютерного анализа генома
  • освоение студентами новейших приложений для компьютерного анализа генома
Планируемые результаты обучения

Планируемые результаты обучения

  • Понимание основ биоинформатических данных
  • Знание баз данных Uniprot. Swiss-Prot, TrEMBL и Uniref. GenBank/EMBL/DDBJ, RefSeq
  • Умение осуществлять поиск в RefSeq и GenBank, на сайте NCBI, в ENA и DDBJ
  • Знание алогитомв выравнивания
  • Умение пользоваться программой BLAST
  • Знание статистики локального выравнивания последовательностей
  • Знание алогритмов множественного выравнивания
  • ПониманиеHMM-профиля семейства доменов
  • Знание баз данных Pfam и InterPro
  • Умение работать с программой MEGA
  • Умение работать с базой данных PDB.
  • Умение работать с программой PyMOL
  • Знание как аннотировать CDS в геноме
  • Знание аннотации эукариотического генома
  • Понимание построения PWM, LOGO
  • Умение пользоваться программами MEME
  • Умение пользоваться программой mfold
Содержание учебной дисциплины

Содержание учебной дисциплины

  • Основы и технические детали
    – Кодировка аминокислотных остатков (однобуквенная и трёхбуквенная) – Кодировка нуклеотидов (включая IUPAC Ambiguity Codes) – Формат Fasta – Свойства аминокислот – Командная строка. Пакет EMBOSS. – Бернуллиевская модель случайной последовательности, частота встреч слов разной сложности (практическая работа).
  • Банки последовательностей.
    – Общий обзор (откуда данные и куда попадают) – Uniprot. Swiss-Prot, TrEMBL и Uniref. Структура записи UniprotKB. Поля ID, AC, OS, OC, DE, KW, PE. – Поле FT – Поиск по аннотации на сайте Uniprot – Полные протеомы в Uniprot – Консорциум GenBank/EMBL/DDBJ – RefSeq – Поиск в RefSeq и GenBank на сайте NCBI – Поиск последовательностей в ENA – Поиск последовательностей в DDBJ
  • Парное выравнивание и BLAST.
    – Понятие парного выравнивания, вес выравнивания, матрицы замен и штрафы за гэпы – Вход и выход алгоритмов Needleman – Wunsh и Smith – Waterman – Как выглядит выравнивание близких, слабородственных и неродственных белков (практическая работа). – Сравнение веса выравнивания реальных последовательностей с весами выравниваний их случайных перемешиваний. Формула Карлина – Альтшуля для матожидания числа локальных выравниваний случайных последовательностей, экспериментальная проверка. – Запуск BLASTP из командной строки. Интерпретация результатов. Зависимость результатов поиска от длины слова (параметр word_size). – BLASTP на сайтах NCBI, EBI, Uniprot (достоинства и недостатки веб-интерфейсов). – PSI-BLAST – BLASTX и TBLASTN – BLASTN и MegaBLAST
  • Множественное выравнивание.
    – «Зоопарк» доступных программ (standalone и через веб-интерфейсы) – Работа в Jalview – Как выглядит «хорошее» и «плохое» выравнивание
  • Эволюционные домены.
    – Три определения доменов (функциональное, структурное, эволюционное) – HMM-профиль семейства доменов – Банки Pfam и InterPro – Задача про IQ бактерии
  • Ортологи, паралоги, деревья.
    – Формат Newick и визуализация деревьев (напр. в MEGA). – Названия и основные свойства алгоритмов и программ. Филогенетическая реконструкция в MEGA и на ngphylogeny.fr – Распознавание паралогов и горизонтальных переносов на дереве белков.
  • Пространственные структуры.
    – Банк PDB. Разрешение рентгеноструктурной модели. Многомодельные записи PDB, полученные методом ЯМР. – Основы PyMOL – Поиск на сайте PDB (самостоятельная работа). М.б. попросить написать эссе о каком-нибудь белке, проиллюстрировав изображениями структур и их частей. – Предсказание трансмембранных участков по последовательности – Предсказание вторичной структуры по последовательности – Моделирование по гомологии (Swiss-Model) – Совмещение структур родственных белков.
  • . Аннотация бактериального генома.
    – Предсказание CDS. Проблема старт-кодона (задача: найти пары ортологичных генов в родственных бактериях с разной аннотацией старт-кодонов) – Аннотация найденной CDS. – Как аннотируют эукариотический геном?
  • . Сигналы.
    – Понятия: сигнал, мотив, сильный/слабый сигнал, PWM, LOGO – Программы: MEME и какие-нибудь реализации Gibbs sampler.
  • Вторичная структура РНК.
    – Как это выглядит в 3D – Программа mfold (алгоритм Зукера)
Элементы контроля

Элементы контроля

  • неблокирующий Домашнее задание 1
  • неблокирующий Домашнее задание 2
  • неблокирующий Домашнее задание 3
  • неблокирующий Домашнее задание 4
  • неблокирующий Проектая работа аннотация генома
  • неблокирующий Домашнее задание 5
    Оценка за дисциплину выставляется в соответствии с формулой оценивания от всех пройденных элементов контроля. Экзамен не проводится.
Промежуточная аттестация

Промежуточная аттестация

  • Промежуточная аттестация (4 модуль)
    0.1 * Домашнее задание 1 + 0.1 * Домашнее задание 2 + 0.1 * Домашнее задание 3 + 0.1 * Домашнее задание 4 + 0.1 * Домашнее задание 5 + 0.5 * Проектая работа аннотация генома
Список литературы

Список литературы

Рекомендуемая основная литература

  • Анализ биологических последовательностей : вероятностные модели белков и нуклеиновых кислот, , 2006

Рекомендуемая дополнительная литература

  • Bioinformatics for Evolutionary Biologists: A Problems Approach. Haubold, B., Börsch-Haubold, A. Springer International Publishing, 2017. eBook ISBN 978-3-319-67395-0.