Биоинформатика

Бакалавриат 2021/2022

Лучший по критерию «Полезность курса для Вашей будущей карьеры»

Лучший по критерию «Новизна полученных знаний»

Статус: Курс обязательный (Клеточная и молекулярная биотехнология)

Направление: 06.03.01. Биология

Кто читает: Факультет биологии и биотехнологии

Где читается: Факультет биологии и биотехнологии

Когда читается: 2-й курс, 3, 4 модуль

Формат изучения: без онлайн-курса

Охват аудитории: для своего кампуса

Преподаватели: Галатенко Алексей Владимирович, Нерсисян Степан Ашотович

Язык: русский

Кредиты: 6

Контактные часы: 96

Полная версия программы учебной дисциплины Задать вопрос

Аннотация

Биоинформатика — современное направление на стыке множества наук, в рамках которого биологические процессы и явления исследуются методами прикладной математики, статистики и информатики. Широкому развитию данной науки во многом поспособствовало появление биологических экспериментов, ручная обработка результатов которых не представляется возможной в виду огромного объема получаемых данных. В рамках первой части курса слушатели узнают о задаче выравнивания нуклеотидных и аминокислотных последовательностей и методах ее решения. Алгоритмы из данной области являются мощным инструментом как для эволюционной биологии и филогенетики, так и для решения частых технических задач (например, подбор праймеров для ПЦР). Во второй части курса слушатели узнают о способах обработки данных секвенирования нового поколения, на сегодняшний день являющегося одним из самых широко используемых методов. Будут разобраны идеи алгоритмов сборки геномов и картирования прочтений, а особое внимание будет уделено данным секвенирования РНК. Последняя часть курса будет посвящена алгоритмам машинного обучения и их применению в биомедицине (с акцентом на данные транскриптомного анализа).

Цель освоения дисциплины

Обучить слушателей работать с нуклеотидными и аминокислотными последовательностями: работать с основными биологическими банками данных, проводить глобальное, локальное (парное) и множественное выравнивания (самостоятельно и с использованием биоинформатических программ), производить оценку сложности алгоритмов.
Обучить слушателей алгоритмам и методам сборки генома и картирования прочтений, полученных методами секвенирования нового поколения. Обучить навыкам обработки данных секвенирования РНК (от исходных данных до нормализованной матрицы экспрессии).
Научить слушателей находить дифференциально экспрессированные гены после секвенирования РНК, проводить аннотацию и интерпретацию результатов, строить сети ко-экспрессии генов, визуализировать многомерные наборы данных.
Обучить слушателей знаниям и навыкам построения моделей машинного обучения, включая модели классификации, регрессии и кластеризации. Особое внимание уделяется специфике работы с массивами биологических данных (экспрессии РНК, нуклеотидные и аминокислотные последовательности).

Планируемые результаты обучения

Понимание методов сборки генома и картирования прочтений. Умение проиндексировать геном и картировать на него прочтения из FASTQ файла. Умение оценить количество прочтений, картированных на ген, с помощью таких программ как HTSeq и Salmon. Понимание и умение пользоваться методом нормализации данных секвенирования РНК DESeq2.
Умение находить дифференциально экспрессированные гены при помощи пакета DESeq2, проводить аннотацию наборов генов по их функциональной принадлежности с помощью сервиса DAVID, строить сети ко-экспрессии генов с использованием корреляционного анализа, проводить двумерную и трехмерную визуализацию матрицы экспрессии генов методами PCA и t-SNE.
Умение проводить глобальное, локальное (парное) и множественное выравнивания (самостоятельно и с использованием биоинформатических программ). Умения произвести оценку сложности алгоритма.
Умение проводить кластеризацию данных с использованием библиотеки scikit-learn. Применение методов для построения филогенетических деревьев. Умение оценивать качество кластеризации с помощью индекса Рэнда и других статистических показателей.
Умение строить и интерпретировать модели классификации и регрессии с использованием библиотеки scikit-learn, оценивать качество моделей с помощью таких метрик, как TPR, TNR, ROC AUC.

Содержание учебной дисциплины

Выравнивание последовательностей
Анализ данных секвенирования нового поколения
Интерпретация данных секвенирования РНК
Задачи машинного обучения с учителем
Задачи машинного обучения без учителя

Элементы контроля

Экзамен
Домашние задания
Бонусные задачи

Промежуточная аттестация

2021/2022 учебный год 3 модуль
0.2 * Бонусные задачи + 0.4 * Домашние задания + 0.4 * Экзамен
2021/2022 учебный год 4 модуль
0.1 * Бонусные задачи + 0.5 * 2021/2022 учебный год 3 модуль + 0.2 * Экзамен + 0.2 * Домашние задания

Список литературы

Авторы

Никулин Сергей Вячеславович
Макарова Юлия Алексеевна
Нерсисян Степан Ашотович
Галатенко Алексей Владимирович

Программа дисциплины

Программа дисциплины

Программа дисциплины

Аннотация

Цель освоения дисциплины

Планируемые результаты обучения

Содержание учебной дисциплины

Элементы контроля

Промежуточная аттестация

Список литературы

Рекомендуемая основная литература

Рекомендуемая дополнительная литература

Авторы