Биоинформатика

Бакалавриат 2023/2024

Лучший по критерию «Новизна полученных знаний»

Статус: Курс обязательный (Клеточная и молекулярная биотехнология)

Направление: 06.03.01. Биология

Кто читает: Базовая кафедра Института биоорганической химии им. академиков М.М. Шемякина и Ю.А. Овчинникова РАН

Где читается: Факультет биологии и биотехнологии

Когда читается: 2-й курс, 3, 4 модуль

Формат изучения: без онлайн-курса

Охват аудитории: для своего кампуса

Преподаватели: Галатенко Алексей Владимирович, Жиянов Антон Павлович, Рюмина Екатерина Даниловна

Язык: русский

Кредиты: 6

Контактные часы: 84

Дополнительные материалы в LMS Задать вопрос

Аннотация

Биоинформатика — современное направление на стыке множества наук, в рамках которого биологические процессы и явления исследуются методами прикладной математики, статистики и информатики. Широкому развитию данной науки во многом поспособствовало появление биологических экспериментов, ручная обработка результатов которых не представляется возможной в виду огромного объема получаемых данных. В рамках первой части курса слушатели узнают о задаче выравнивания нуклеотидных и аминокислотных последовательностей и методах ее решения. Алгоритмы из данной области являются мощным инструментом как для эволюционной биологии и филогенетики, так и для решения частых технических задач (например, подбор праймеров для ПЦР). Во второй части курса слушатели узнают о способах обработки данных секвенирования нового поколения, на сегодняшний день являющегося одним из самых широко используемых методов. Будут разобраны идеи алгоритмов сборки геномов и картирования прочтений, а особое внимание будет уделено данным секвенирования РНК. Последняя часть курса будет посвящена алгоритмам машинного обучения и их применению в биомедицине (с акцентом на данные транскриптомного анализа).

Цель освоения дисциплины

Обучить слушателей работать с нуклеотидными и аминокислотными последовательностями: работать с основными биологическими банками данных, проводить глобальное, локальное (парное) и множественное выравнивания (самостоятельно и с использованием биоинформатических программ), производить оценку сложности алгоритмов.
Обучить слушателей алгоритмам и методам сборки генома и картирования прочтений, полученных методами секвенирования нового поколения. Обучить навыкам обработки данных секвенирования РНК (от исходных данных до нормализованной матрицы экспрессии).
Научить слушателей находить дифференциально экспрессированные гены после секвенирования РНК, проводить аннотацию и интерпретацию результатов, строить сети ко-экспрессии генов, визуализировать многомерные наборы данных.
Обучить слушателей знаниям и навыкам построения моделей машинного обучения, включая модели классификации, регрессии и кластеризации. Особое внимание уделяется специфике работы с массивами биологических данных (экспрессии РНК, нуклеотидные и аминокислотные последовательности).

Планируемые результаты обучения

Понимание методов сборки генома и картирования прочтений. Умение проиндексировать геном и картировать на него прочтения из FASTQ файла. Умение оценить количество прочтений, картированных на ген, с помощью таких программ как HTSeq и Salmon. Понимание и умение пользоваться методом нормализации данных секвенирования РНК DESeq2.
Умение находить дифференциально экспрессированные гены при помощи пакета DESeq2, проводить аннотацию наборов генов по их функциональной принадлежности с помощью сервиса DAVID, строить сети ко-экспрессии генов с использованием корреляционного анализа, проводить двумерную и трехмерную визуализацию матрицы экспрессии генов методами PCA и t-SNE.
Умение проводить глобальное, локальное (парное) и множественное выравнивания (самостоятельно и с использованием биоинформатических программ). Умения произвести оценку сложности алгоритма.
Умение проводить кластеризацию данных с использованием библиотеки scikit-learn. Применение методов для построения филогенетических деревьев. Умение оценивать качество кластеризации с помощью индекса Рэнда и других статистических показателей.
Умение строить и интерпретировать модели классификации и регрессии с использованием библиотеки scikit-learn, оценивать качество моделей с помощью таких метрик, как TPR, TNR, ROC AUC.