• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта
2024/2025

Параллельное программирование

Статус: Маго-лего
Когда читается: 1, 2 модуль
Охват аудитории: для своего кампуса
Преподаватели: Аветисян Арутюн Ишханович, Монаков Александр Владимирович
Язык: русский
Кредиты: 6

Программа дисциплины

Аннотация

Курс "Параллельное программирование" посвящен изучению теории и методов практической разработки параллельных программ для современных архитектур компьютеров. Особенностью курса является комплексное рассмотрение проблем параллелизма, как на уровне библиотек, предоставляемых прикладным программистам, так и на уровне близком к архитектуре микропроцессоров и графических ускорителей, что более важно для системных программистов.
Цель освоения дисциплины

Цель освоения дисциплины

  • Целью курса является формирование у студентов теоретических знаний и навыков разработки, исследования производительности, оптимизации и отладки параллельных программ для современных архитектур процессоров и графических акселераторов.
Планируемые результаты обучения

Планируемые результаты обучения

  • Знать базовые принципы CUDA
  • Знать базовые принципы OpenACC и OpenMP
  • Знать базовые принципы OpenMP
  • Знать базовые принципы VLIW и Modulo scheduling.
  • Знать базовые принципы анализа производительности CPU
  • Знать базовые принципы векторного параллелизма
  • Знать базовые принципы вычисления с плавающей точкой
  • Знать базовые принципы межконтекстного взаимодействия
  • Знать базовые принципы оптимизации доступа к памяти
  • Знать базовые принципы параллелизма при использовании многоядерных CPU
  • Знать базовые принципы программирования графических акселераторов
  • Иметь представление о подходах к обеспечению параллелизма
Содержание учебной дисциплины

Содержание учебной дисциплины

  • Уровни параллелизма в современных компьютерах. Теоретические подходы: законы Амдаля, Густафсона. Оценки пиковой производительности. Memory wall. Performance/portability tradeoff.
  • Параллелизм в пределах одного контекста выполнения. Параллелизм на уровне команд. VLIW. SIMD. Delayed branches. Компиляторные преобразования повышающие ILP. Modulo scheduling.
  • Векторный параллелизм (SIMD). Ограничения компиляторного анализа. Возможности и ограничения явной векторизации через интринсики. Компромисс между производительностью и переносимостью. Структурирование кода для облегчения компиляторного анализа.
  • Вычисления с плавающей точкой. Принципы IEEE-754. Ограничения и возможности компиляторной трансляции.
  • Иерархия кешей. Оптимизация доступа к памяти. Префетчинг. Cache-aware и cache-oblivious алгоритмы. Возможные компиляторные оптимизации.
  • Параллелизм на многоядерных CPU. Кеши и поддержка согласованности памяти. False sharing.
  • Низкоуровневые примитивы межконтекстного взаимодействия: атомарные операции, семафоры, futex. Поддержка на уровне языка Си и особенности компиляторной поддержки.
  • OpenMP. Классическая функциональность: параллелизм на уровне нитей. Анализ и трансляция OpenMP в компиляторе.
  • Анализ производительности на CPU. Основные инструменты разработчика: valgrind (cachegrind), perf, ocperf. Использование компиляторных возможностей.
  • Параллелизм на графических акселераторах. Явные интерфейсы программирования: CUDA, OpenCL. Инструменты разработки в CUDA.
  • Оптимизация в CUDA. Оптимизация доступа к памяти. Компромисс между ILP, регистровым давлением, TLP. Warp-synchronous programming. Сравнение с подходами, применяемыми на CPU.
  • OpenACC и OpenMP 4.0: параллелизм для акселераторов. Подходы к трансляции кода в различных реализациях. Специализация OpenMP-кода для акселераторов.
Элементы контроля

Элементы контроля

  • неблокирующий Экзамен
  • неблокирующий Практические задания
Промежуточная аттестация

Промежуточная аттестация

  • 2024/2025 2nd module
    0.6 * Практические задания + 0.4 * Экзамен
Список литературы

Список литературы

Рекомендуемая основная литература

  • McKenney, P. E. (2017). Is Parallel Programming Hard, And, If So, What Can You Do About It? (v2017.01.02a). Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsbas&AN=edsbas.8A6CB160

Рекомендуемая дополнительная литература

  • Allen, R., & Kennedy, K. (2001). Optimizing Compilers for Modern Architectures : A Dependence-based Approach (Vol. 1st ed). San Francisco: Elsevier. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=83617
  • Chapman, B., Pas, R. van der, & Jost, G. (2008). Using OpenMP : Portable Shared Memory Parallel Programming. Cambridge, Mass: The MIT Press. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=211305
  • Gregg, B. (2014). Systems Performance : Enterprise and the Cloud. Upper Saddle River, NJ: Prentice Hall. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=1599877
  • Kirk, D., & Hwu, W. (2013). Programming Massively Parallel Processors : A Hands-on Approach (Vol. 2nd ed). San Francisco, Calif: Morgan Kaufmann. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=516192
  • W. Kahan, & Winston S. Churchill. (1981). Why Do We Need a Floating-Point Arithmetic Standard? Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsbas&AN=edsbas.5F5D3C27

Авторы

  • Буцкая Евгения Александровна
  • Аветисян Арутюн Ишханович