Бакалавриат
2023/2024
Биоинформатика
Лучший по критерию «Новизна полученных знаний»
Статус:
Курс обязательный (Клеточная и молекулярная биотехнология)
Направление:
06.03.01. Биология
Кто читает:
Базовая кафедра Института биоорганической химии им. академиков М.М. Шемякина и Ю.А. Овчинникова РАН
Где читается:
Факультет биологии и биотехнологии
Когда читается:
2-й курс, 3, 4 модуль
Формат изучения:
без онлайн-курса
Охват аудитории:
для своего кампуса
Язык:
русский
Кредиты:
6
Контактные часы:
84
Программа дисциплины
Аннотация
Биоинформатика — современное направление на стыке множества наук, в рамках которого биологические процессы и явления исследуются методами прикладной математики, статистики и информатики. Широкому развитию данной науки во многом поспособствовало появление биологических экспериментов, ручная обработка результатов которых не представляется возможной в виду огромного объема получаемых данных. В рамках первой части курса слушатели узнают о задаче выравнивания нуклеотидных и аминокислотных последовательностей и методах ее решения. Алгоритмы из данной области являются мощным инструментом как для эволюционной биологии и филогенетики, так и для решения частых технических задач (например, подбор праймеров для ПЦР). Во второй части курса слушатели узнают о способах обработки данных секвенирования нового поколения, на сегодняшний день являющегося одним из самых широко используемых методов. Будут разобраны идеи алгоритмов сборки геномов и картирования прочтений, а особое внимание будет уделено данным секвенирования РНК. Последняя часть курса будет посвящена алгоритмам машинного обучения и их применению в биомедицине (с акцентом на данные транскриптомного анализа).
Цель освоения дисциплины
- Обучить слушателей работать с нуклеотидными и аминокислотными последовательностями: работать с основными биологическими банками данных, проводить глобальное, локальное (парное) и множественное выравнивания (самостоятельно и с использованием биоинформатических программ), производить оценку сложности алгоритмов.
- Обучить слушателей алгоритмам и методам сборки генома и картирования прочтений, полученных методами секвенирования нового поколения. Обучить навыкам обработки данных секвенирования РНК (от исходных данных до нормализованной матрицы экспрессии).
- Научить слушателей находить дифференциально экспрессированные гены после секвенирования РНК, проводить аннотацию и интерпретацию результатов, строить сети ко-экспрессии генов, визуализировать многомерные наборы данных.
- Обучить слушателей знаниям и навыкам построения моделей машинного обучения, включая модели классификации, регрессии и кластеризации. Особое внимание уделяется специфике работы с массивами биологических данных (экспрессии РНК, нуклеотидные и аминокислотные последовательности).
Планируемые результаты обучения
- Понимание методов сборки генома и картирования прочтений. Умение проиндексировать геном и картировать на него прочтения из FASTQ файла. Умение оценить количество прочтений, картированных на ген, с помощью таких программ как HTSeq и Salmon. Понимание и умение пользоваться методом нормализации данных секвенирования РНК DESeq2.
- Умение находить дифференциально экспрессированные гены при помощи пакета DESeq2, проводить аннотацию наборов генов по их функциональной принадлежности с помощью сервиса DAVID, строить сети ко-экспрессии генов с использованием корреляционного анализа, проводить двумерную и трехмерную визуализацию матрицы экспрессии генов методами PCA и t-SNE.
- Умение проводить глобальное, локальное (парное) и множественное выравнивания (самостоятельно и с использованием биоинформатических программ). Умения произвести оценку сложности алгоритма.
- Умение проводить кластеризацию данных с использованием библиотеки scikit-learn. Применение методов для построения филогенетических деревьев. Умение оценивать качество кластеризации с помощью индекса Рэнда и других статистических показателей.
- Умение строить и интерпретировать модели классификации и регрессии с использованием библиотеки scikit-learn, оценивать качество моделей с помощью таких метрик, как TPR, TNR, ROC AUC.
Содержание учебной дисциплины
- Выравнивание последовательностей
- Анализ данных секвенирования нового поколения
- Интерпретация данных секвенирования РНК
- Задачи машинного обучения с учителем
- Задачи машинного обучения без учителя
Промежуточная аттестация
- 2023/2024 учебный год 4 модуль0.3 * Контрольная + 0.3 * Контрольная + 0.4 * Экзамен
Список литературы
Рекомендуемая основная литература
- Dennis, G., Sherman, B. T., Hosack, D. A., Yang, J., Gao, W., Lane, H. C., & Lempicki, R. A. (2003). DAVID: Database for Annotation, Visualization, and Integrated Discovery. https://doi.org/10.1186/gb-2003-4-5-p3
- Horvath Steve, & Langfelder Peter. (2008). WGCNA: an R package for weighted correlation network analysis. https://doi.org/10.1186/1471-2105-9-559
- Lesk, A. M. (2012). Introduction to bioinformatics ; Bioinformatics.
- Love, M. I., Huber, W., & Anders, S. (2014). Moderated estimation of fold change and dispersion for RNA-seq data with DESeq2. https://doi.org/10.1186/s13059-014-0550-8
- Mourad Elloumi. (2017). Algorithms for Next-Generation Sequencing Data : Techniques, Approaches, and Applications. Springer.
- Murphy, K. P. (2012). Machine Learning : A Probabilistic Perspective. Cambridge, Mass: The MIT Press. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=480968
- Rocha, M., & Ferreira, P. G. (2018). Bioinformatics Algorithms : Design and Implementation in Python (Vol. First edition). London: Academic Press. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=1572286
- Введение в машинное обучение с помощью Python : руководство для специалистов по работе с данными, Мюллер, А., 2018
- Кластерный анализ, Мандель, И. Д., 1988
Рекомендуемая дополнительная литература
- Statistical bioinformatics with R, Mathur, S. K., 2010