Магистратура
2020/2021
Практическая биоинформатика
Лучший по критерию «Полезность курса для Вашей будущей карьеры»
Лучший по критерию «Полезность курса для расширения кругозора и разностороннего развития»
Лучший по критерию «Новизна полученных знаний»
Статус:
Курс обязательный (Анализ данных в биологии и медицине)
Направление:
01.04.02. Прикладная математика и информатика
Где читается:
Факультет компьютерных наук
Когда читается:
1-й курс, 3, 4 модуль
Формат изучения:
без онлайн-курса
Преподаватели:
Коновалов Дмитрий Львович
Прогр. обучения:
Анализ данных в биологии и медицине
Язык:
русский
Кредиты:
4
Контактные часы:
64
Программа дисциплины
Аннотация
Курс охватывает базы данных и основные сервисы и программы для обработки биологических последовательностей, а также молекулярную филогению, семейства и домены белков, базы данных по структурам белков и РНК. В цели курса входит научить студентов использовать основные биологические базы данных, в том числе содержащие геномную, структурную и другую информацию, в научно-исследовательской работе; овладеть базовыми средствами анализа геномной, структурной и другой биологической информации.
Курс развивает ключевые знания и компетенции в биоинформатических задачах и позволит успешно работать с любыми типами биологических данных, которые будут встречаться в следующих курсах модуля.
Цель освоения дисциплины
- освоение студентами современных направлений компьютерного анализа генома
- освоение студентами новейших приложений для компьютерного анализа генома
Планируемые результаты обучения
- Понимание основ биоинформатических данных
- Знание баз данных Uniprot. Swiss-Prot, TrEMBL и Uniref. GenBank/EMBL/DDBJ, RefSeq
- Умение осуществлять поиск в RefSeq и GenBank, на сайте NCBI, в ENA и DDBJ
- Знание алогитомв выравнивания
- Умение пользоваться программой BLAST
- Знание статистики локального выравнивания последовательностей
- Знание алогритмов множественного выравнивания
- ПониманиеHMM-профиля семейства доменов
- Знание баз данных Pfam и InterPro
- Умение работать с программой MEGA
- Умение работать с базой данных PDB.
- Умение работать с программой PyMOL
- Знание как аннотировать CDS в геноме
- Знание аннотации эукариотического генома
- Понимание построения PWM, LOGO
- Умение пользоваться программами MEME
- Умение пользоваться программой mfold
Содержание учебной дисциплины
- Основы и технические детали– Кодировка аминокислотных остатков (однобуквенная и трёхбуквенная) – Кодировка нуклеотидов (включая IUPAC Ambiguity Codes) – Формат Fasta – Свойства аминокислот – Командная строка. Пакет EMBOSS. – Бернуллиевская модель случайной последовательности, частота встреч слов разной сложности (практическая работа).
- Банки последовательностей.– Общий обзор (откуда данные и куда попадают) – Uniprot. Swiss-Prot, TrEMBL и Uniref. Структура записи UniprotKB. Поля ID, AC, OS, OC, DE, KW, PE. – Поле FT – Поиск по аннотации на сайте Uniprot – Полные протеомы в Uniprot – Консорциум GenBank/EMBL/DDBJ – RefSeq – Поиск в RefSeq и GenBank на сайте NCBI – Поиск последовательностей в ENA – Поиск последовательностей в DDBJ
- Парное выравнивание и BLAST.– Понятие парного выравнивания, вес выравнивания, матрицы замен и штрафы за гэпы – Вход и выход алгоритмов Needleman – Wunsh и Smith – Waterman – Как выглядит выравнивание близких, слабородственных и неродственных белков (практическая работа). – Сравнение веса выравнивания реальных последовательностей с весами выравниваний их случайных перемешиваний. Формула Карлина – Альтшуля для матожидания числа локальных выравниваний случайных последовательностей, экспериментальная проверка. – Запуск BLASTP из командной строки. Интерпретация результатов. Зависимость результатов поиска от длины слова (параметр word_size). – BLASTP на сайтах NCBI, EBI, Uniprot (достоинства и недостатки веб-интерфейсов). – PSI-BLAST – BLASTX и TBLASTN – BLASTN и MegaBLAST
- Множественное выравнивание.– «Зоопарк» доступных программ (standalone и через веб-интерфейсы) – Работа в Jalview – Как выглядит «хорошее» и «плохое» выравнивание
- Эволюционные домены.– Три определения доменов (функциональное, структурное, эволюционное) – HMM-профиль семейства доменов – Банки Pfam и InterPro – Задача про IQ бактерии
- Ортологи, паралоги, деревья.– Формат Newick и визуализация деревьев (напр. в MEGA). – Названия и основные свойства алгоритмов и программ. Филогенетическая реконструкция в MEGA и на ngphylogeny.fr – Распознавание паралогов и горизонтальных переносов на дереве белков.
- Пространственные структуры.– Банк PDB. Разрешение рентгеноструктурной модели. Многомодельные записи PDB, полученные методом ЯМР. – Основы PyMOL – Поиск на сайте PDB (самостоятельная работа). М.б. попросить написать эссе о каком-нибудь белке, проиллюстрировав изображениями структур и их частей. – Предсказание трансмембранных участков по последовательности – Предсказание вторичной структуры по последовательности – Моделирование по гомологии (Swiss-Model) – Совмещение структур родственных белков.
- . Аннотация бактериального генома.– Предсказание CDS. Проблема старт-кодона (задача: найти пары ортологичных генов в родственных бактериях с разной аннотацией старт-кодонов) – Аннотация найденной CDS. – Как аннотируют эукариотический геном?
- . Сигналы.– Понятия: сигнал, мотив, сильный/слабый сигнал, PWM, LOGO – Программы: MEME и какие-нибудь реализации Gibbs sampler.
- Вторичная структура РНК.– Как это выглядит в 3D – Программа mfold (алгоритм Зукера)
Элементы контроля
- Домашнее задание 1
- Домашнее задание 2
- Домашнее задание 3
- Домашнее задание 4
- Проектая работа аннотация генома
- Домашнее задание 5Оценка за дисциплину выставляется в соответствии с формулой оценивания от всех пройденных элементов контроля. Экзамен не проводится.
Промежуточная аттестация
- Промежуточная аттестация (4 модуль)0.1 * Домашнее задание 1 + 0.1 * Домашнее задание 2 + 0.1 * Домашнее задание 3 + 0.1 * Домашнее задание 4 + 0.1 * Домашнее задание 5 + 0.5 * Проектая работа аннотация генома
Список литературы
Рекомендуемая основная литература
- Анализ биологических последовательностей : вероятностные модели белков и нуклеиновых кислот, , 2006
Рекомендуемая дополнительная литература
- Bioinformatics for Evolutionary Biologists: A Problems Approach. Haubold, B., Börsch-Haubold, A. Springer International Publishing, 2017. eBook ISBN 978-3-319-67395-0.