Перспективные суперкомпьютеры тера- и экзафлопного масштаба
В соответствии с программы США DARPA HPCS планировалось достичь к 2010 г. следующих показателей суперкомпьютеров:
-
Реальная производительность – более 2 PFLOPS (на тесте Linpack).
-
Объем глобально адресуемой оперативной памяти – несколько петабайт (1015 ) байт
-
Пропускная способность памяти при регулярных обращениях - 6.5 * 1015 байт (на тесте STREAM).
-
Пропускная способность памяти при нерегулярных обращениях - 64000 GUPS (на тесте Random Access).
-
Бисекционная пропускная способность системной коммуникационной сети - 3.2 * 1015 байт (тест BISECT).
-
Высокая реконфигурируемость и адаптируемость к задачам.
-
Распределенная общая память.
-
В 10 раз увеличенная производительность программирования по отношению к уровню 2005 г.
Производительность и программное обеспечение
Производительность вычислительных систем в соответствии с программой DARPA HPCS, планировалось повысить на порядок. Производительность — сложное понятие, связанное как с используемыми аппаратными средствами, так и со средствами и технологиями программирования. Предполагалось, что создаваемые системы будут программироваться на языках более высокого уровня (класс языков PGAS), чем применяемые сегодня Фортран и Си. Фундаментальным свойством этих языков, которое приведет к более простому и эффективному программированию задач, будет работа с глобально адресуемой памятью, в которой возможно выделение эффективно доступных подобластей.
Программная модель PGAS (Partitioned Global Address Space— «разделенное глобальное адресное пространство») предусматривает поддержку на уровне синтаксических конструкций языка программирования глобального адресного пространства и выделения в нем подобластей, отображаемых на локальную физическую память. Другими словами, в модели PGAS обеспечивается прозрачный доступ к оперативной памяти всех вычислительных узлов с учетом неравномерной задержки выполнения команд обращений к памяти. Обязательной составляющей являются средства управления локализацией данных и вычислений за счет распределения данных и удаленного вызова процедур.
Выполнение программы DARPA HPCS
Выполнение второй фазы программы DARPA HPCS было начато в 2003 году силами компаний IBM, Cray и Sun (проекты PERCS, Cascade и HERO соответственно). Третья — заключительная — фаза завершилась в 2010 году созданием опытных образцов. К ее выполнению 21 ноября 2006 года были допущены фирмы IBM и Cray.
Фирма Cray выполняла проект для Окриджской лаборатории, применяя в качестве базовых элементов процессор Opteron, коммуникационный сопроцессор Gemini и маршрутизатор YARC, реализующие 14-мерный гиперкуб.
Фирма IBM осуществляла проект Roadrunner для Лос-Аламосской лаборатории на процессорах Cell и Opteron и коммуникационной сети Infiniband.
На рис. 4 приведена концептуальная структура системы Cascade (разаработчик фирма Cray) — гетерогенного стратегического суперкомпьютера , содержащего вычислительные узлы, непосредственно разрабатываемые по проекту, а также вычислительные узлы на коммерческих процессорах и сервисные узлы на коммерческих процессорах.
Рис. 4
Основные принципы структуры суперкомпьютера Cascade:
-
глобально адресуемая память с унифицированной для всех типов узлов структурой;
-
конфигурируемые сеть, память, процессоры и ввод/вывод; – гетерогенная обработка на множестве узлов разного типа и внутри потоково-векторных (MVP) узлов;
-
возможность адаптации при конфигурировании, компиляции, а также в процессе выполнения.
Необходимая вычислительная мощность достигается благодаря заказным узлам, использующим структурные принципы мультитредовости (многопотоковости), разделения вычислений, доступа к памяти по разным процессам, принцип размещения обработки вблизи модулей памяти.
Vector HWP— это векторный мультитредовый мультипроцессор, способный эффективно выполнять вычисления с подготовленными ему данными в быстродействующей памяти. Предварительную «накачку» данных для этого процессора и простые вычисления (например, адресные) осуществляют скалярные мультитредовые (многопоточные) процессоры Scalar LWP, которые находятся вблизи микросхем памяти DRAM и хорошо справляются с задачами, отличающимися плохой пространственно-временной локализацией.
Вычислительная сеть (Router) связывает вычислительные узлы всех типов с модулями распределенной памяти, доступной через единое глобальное адресное пространство. Основное требование к этой сети— высокая пропускная способность на коротких пакетах, что и отражено в требованиях по развиваемой бисекционной пропускной способности сети (см. табл. 1). В этом случае толерантные (за счет мультитредовости) к задержкам обращений к памяти процессоры могут использовать ее высокую пропускную способность и работать на темпе выполнения обращений, а не на их задержках.
Оперативная память с высокой пропускной способностью— еще одна проблема, особенно при обращениях с непредсказуемой нерегулярностью (RandomAccess). Именно поэтому в табл. 1 указаны такие высокие требования к ней.
В качестве языка программирования использовался Chapel, который должен еще быть принят программистским сообществом.
Работа по проекту Cascade задумывалась грандиозная, но жизнь, как это бывает, внесла свои коррективы, сделав первые реализации менее амбициозными.
Разработчики фирмы Cray выбрали прагматичный путь выполнения проекта (рис. 3), добавив новые вычислительные средства, основанные на перспективных структурных концепциях, к уже хорошо зарекомендовавшим себя процессорам Opteron. При этом задачи разработки процессорных СБИС мультитредового типа не снимаются с повестки дня, просто они разрабатываются пока в упрощенном виде, что снижает технические риски: наличие процессоров Opteron в узле позволяет подстраховаться в случае неудачных аппаратных решений при разработке компонентов с новой структурой.
Заключительная фаза разработки системы Cray Cascade в рамках DARPA HPCS состоит из трех этапов: Baker, Granite и Marble (рис. 5).
Рис. 5.
На первом этапе создается коммуникационный сопроцессор Gemini, имеющий интерфейс с разными системами фирмы Cray, включая новый векторный процессор BlackWidow. Для построения сети используется кристалл YARC сети Клоса, созданный совместно со специалистами Стэнфордского университета. Коммуникационный сопроцессор Gemini оптимизирован под особенности MPI и эффективно выполняет обращения к удаленным узлам. В нем реализована трансляция виртуальных адресов глобально адресуемой памяти и выполнение легких тредов (потоков) для фрагментов задач с плохой пространственно-временной локализацией. Предусмотрены две версии этого коммуникационного сопроцессора.
На втором этапе создается мощный векторно-потоковый сопроцессор Scorpio, который должен резко повысить возможности вычислительного узла, усилив его толерантность к задержкам обращений к оперативной памяти за счет векторной и потоковой организации.
На данный момент Vector HWP воплотился в конкретном сопроцессоре Scorpio, а Scalar LWP— в коммуникационном процессоре Gemini. В системе появились и узлы с реконфигурируемой структурой на базе программируемых логических матриц (FPGA Compute Nodes, рис. 5).
Что будет реализовано на этапе Marble — пока неизвестно; возможно, произойдет возвращение к первоначальному проекту. По поводу подготавливаемых в фирме Сray технологий программирования можно сказать, что на этапе Baker явно лидируют технология MPI в сочетании с языками Фортран и Cи, средством мультитредового программирования OpenMP и прошедшими практическую проверку языками класса PGAS— UPC и Co-Array Fortran (CAF). Активные попытки внедрить UPC и CAF заметны в уже упоминавшемся семействе Cray XT5.
О работе IBM по программе DARPA HPCS информации мало. Известно лишь, что в создаваемом стратегическом суперкомпьюетере будет применен процессор Power 7 и разрабатывается язык нового поколения X10. Некоторые специалисты утверждают, что создается 128-потоковая версия процессора Power 7. Какая из множества имеющихся разработок будет выбрана (Cyclops64, TRIPS, HPC Cell), пока неясно. Однако в создании системы Roadrunner также заметен прагматичный подход— мощный, но капризный при работе с данными процессор Cell объединяется с Opteron, который может взять на себя подкачку части данных для реализации задач с плохой пространственно-временной локализацией.
Программа DARPA HPCS закрыла для США технологическую брешь лишь на ближайшие до 2015 года. Дальнейшее развитие требует более радикальных мер, что и предусмотрено в программе США DARPA UHPC.
- Что такое параллельные вычислительные системы и зачем они нужны
- Некоторые примеры использования параллельных вычислительных систем Об использования суперкомпьютеров
- Классификация параллельных вычислительных систем
- Классификация современных параллельных вычислительных систем с учетом структуры оперативной памяти, модели связи и обмена Симметричные скалярные мультипроцессорные вычислительные системы
- Несимметричные скалярные мультипроцессорные вычислительные системы
- Массово параллельные вычислительные системы с общей оперативной памятью
- Массово параллельные вычислительные системы с распределенной оперативной памятью
- Серверы
- Требования к серверам Основные компоненты и подсистемы современных серверов
- Структуры несимметричных мвс с фирмы Intel Структурные особенности процессоров со структурой Nehalem
- Структуры мвс с процессорами Nehalem
- Мвс на базе процессоров фирмы amd
- Структура шестиядерного процессора Istanbul приведена на рис. 23.
- Примеры структур несимметричных мвс с процессорами линии Opteron Barcelona, Shanghai, Istanbul
- Сравнение структур мвс с процессорами Barcelona, Shanghai, Istanbul с мвс с процессорами со структурой Nehalem
- 12 Ядерные процессоры Magny-Cours
- Основные особенности 12-ти и 8-ми ядерных микросхем Magny-Cours
- Структуры мвс с процессорами Magny--Cours
- Перспективы развития процессоров фирмы amd для мвс
- Мвс на базе процессоров фирмы ibm power6, power7 Основные особенности процессоров power6, power7
- Процессор power6
- Структуры мвс на базе процессоров power4, power5
- Структуры мвс на базе процессоров power6, power7
- Требования к серверам
- Основные компоненты и подсистемы современных серверов
- Поддерживаемые шины ввода-вывода
- Raid контроллеры
- Сервер Superdome 2 для бизнес-критичных приложений
- Структура сервера
- Надежность и доступность
- Конфигурации и производительность
- Основные особенности симметричных мультипроцессорных систем?
- Векторные параллельные системы
- Скалярная и векторная обработка
- Основные особенности векторных параллельных систем
- Векторные параллельные системы sx-6, sx-7 фирмы nec
- Особенности вычислительной системы sx-7
- Параллельная векторная система Earth Simulator
- Cуперкластерная система
- Суперкомпьютер CrayXt5h
- «Лезвия» векторной обработки Cray x2
- «Лезвия» с реконфигурируемой структурой
- Массово параллельные вычислительные системы с скалярными вычислительными узлами и общей оперативной памятью
- Массово параллельные вычислительные системы с скалярными вычислительными узлами и распределенной оперативной памятью
- Cуперкомпьютеры семейства cray xt Семейство Cray xt5
- «Гибридные» суперкомпьютеры CrayXt5h
- «Лезвия» векторной обработки Cray x2
- «Лезвия» с реконфигурируемой структурой
- Развитие линии Cray хт5 – Cray xt6/xt6m
- Модель Cray xe6
- Процессор
- Коммуникационная среда с топологией «3-мерный тор»
- Реализация коммуникационных сред
- Операционная система
- Суперкомпьютер RoadRunner
- Топологии связей в массово параллельных системах
- Оценка производительности параллельных вычислительных систем
- Необходимость оценки производительности параллельных вычислительных систем
- Реальная производительность параллельных вычислительных систем Анализ «узких мест» процесса решения задач и их влияния на реальную производительность
- «Узкие» места, обусловленные иерархической структурой памяти
- Влияние на реальную производительность параллельных вычислительных систем соответствия их структуры и структуры программ
- Анализ реальной производительности («узких» мест) мвс с общей оперативной памятью
- Анализ реальной производительности («узких» мест) кластерных систем с распределённой оперативной памятью
- Какие «узкие места» процесса решения задач существенно влияют на реальную производительность параллельных вычислительных систем?
- Тенденции развития суперкомпьютеров. Список top500
- Что такое список тор 500 и как он создается?
- 38 Редакция списка (ноябрь 2011 г.)
- Коммуникационные технологии
- Архитектуры, модели процессоров и их количество в системах списка
- Основные тенденции развития суперкомпьютеров
- Перспективные суперкомпьютеры тера- и экзафлопного масштаба
- Производительность 500 лучших суперкомпьютеров за последние 18 лет
- Перспективные суперкомпьютеры тера- и экзафлопного масштаба
- Программа darpa uhpc
- Основные положения программы uhpc
- Экзафлопсный барьер: проблемы и решения
- Проблемы
- Эволюционный путь
- Революционный путь
- Кто победит?
- Примеры перспективных суперкомпьютеров Суперкомпьютер фирмы ibm Mira
- Стратегические суперкомпьютерные технологии Китая