Cуперкомпьютеры семейства cray xt Семейство Cray xt5
Компания Cray производила суперкомпьютеры разной архитектуры – векторные, многопоточные, на базе микросхем FPGA-архитектуры, но, пожалуй, наибольший успех получили массово параллельные системы семейства Cray ХТ на базе процессоров Opteron.
Суперкомпьютер Cray XT3 с одноядерными процессорами Opteron появился в 2005 году.
Суперкомпьютер Cray XT4 на базе двухъядерных процессоров Opteron был выпущен в 2007 году.
Суперкомпьютер Cray ХТ5 с четырехъядерными процессорами Barcelona (с частотой 2,6 ГГц,), Shanghai (с частотой 2,7 ГГц) и шестидерными Istanbul (с частотой 2,6 ГГц) выпущен в 2009 году. При этом число процессорных микросхем в узле Cray XT5 возросло до двух.
Суперкомпьютер Cray XT6 реализован на базе шести- и восьмиядерных Opteron серии 6100.
Одной из особенностей массово параллельных систем Cray XT в целом являются «фирменные» межсоединения SeaStar c топологией трехмерного тора.
Остановимся на рассмотрении систем Cray XT5 и Cray ХТ6 (Cray ХТ5 это модернизированный вариант модели Cray ХТ4, а Cray ХТ6 – модернизированный вариант модели Cray ХТ5).
Узел Cray ХТ5 содержит специализированную микросхему (ASIC-микросхему), обеспечивающую работу с межсоединением SeaStar2+, два процессора Opteron и разъемы для модулей DIMM (рис. 1). В Cray XT4 узел был устроен аналогичным образом, но имел один процессор.
Рис. 1.
Для связи микросхемы межсоединения с процессорами Opteron естественным образом применяются интегрированные в процессор интерфейсы каналов HyperTransport 2.0 (прямое подсоединение оперативной памяти к процессору – одна из основных особенностей всех моделей процессоров Opteron). В результате пропускная способность оперативной памяти масштабируется с числом процессоров, и в расчете на узел пропускная способность оперативной памяти составляет 25,6 Гбайт/с (применяется защищенная кодами ЕСС регистровая память DDR2-800). Емкость оперативной памяти узла составляет от 8 Гбайт до 32 Гбайт (см. таблицу 1).
Процессоры в узле могут применяться разные – четырехъядерные Barcelona и Shanghai с разными частотами, а также шестиядерные Istanbul. Соответственно суммарное число ядер в узле составляет восемь или двенадцать, а пиковая производительность узла лежит в диапазоне примерно от 70 GFLOPS до 124 GFLOPS.
Сравнивая типичный узел современного высокопроизводительного кластера (HPC-кластера) с вычислительным узлом Cray ХТ5 можно увидеть, что они имеют примерно одинаковое число ядер, использует такие же или аналогичные процессоры, а, значит, серьезных отличий в структуре и производительности между ними нет. Основное отличие состоит в межсоединении между узлами. В узлах наиболее мощных кластеров из списка Тop500 межсоединение – это обычно Infiniband.
Следующий уровень конструктива над узлом Cray ХТ5 – «лезвие», содержащее четыре узла. При использовании процессоров Istanbul производительность «лезвия» достигает 500 GFLOPS; ему отвечает решетка узлов 1х2х2.
В стойке можно реализовать решетку узлов 1х4х24 (24 «лезвия» по четыре узла) с производительностьюдо 12 TFLOPS при емкости оперативной памяти 1,54 Тбайт (из расчета 16 Гбайт на узел), а в системе Cray ХТ5 в целом – решетку 25х32х24. Такая система имеет производительность порядка 2 PFLOPS и емкость памяти 300 Тбайт. В соответствии с указанными на сайте фирмы Cray спецификациями Cray ХТ5, стойка занимает площадь примерно 0,6м х 1,4 м при высоте около 2 м, весит порядка 700 кг и потребляет не более 43 кВт.
Межсоединение SeaStar2+ поддерживается благодаря специализированной микросхеме (рис. 2), обеспечивающей маршрутизацию и имеющей шесть портов с пропускной способностью 9,6 Гбайт/с на порт.
Суммарная пропускная способность микросхемы 57,6 Гбайт/с, в то время как задержка (латентность) передачи из узла в узел не превышает 2 мкс. Кроме шестипортового маршрутизатора и интерфейса HyperTransport, микросхема SeaStar2+ содержит механизм прямого доступа в память (Direct Memory Access, DMA), поддержку интерфейса управления «лезвием» и другие средства.
Для повышения надежности в микросхеме SeaStar2+ применяются коды ЕСС, используется адаптивная маршрутизация, а сбойные каналы можно «обойти» без перезагрузки.
Рис. 2. Структура микросхемы SeaStar2+ .
В SeaStar2+ для передачи данных не надо устанавливать соединения, поэтому нет кэширующих очередей между парами узлов. Это облегчает работу Cray XT c большим числом узлов. Удвоение числа виртуальных каналов (до четырех) по сравнению с предыдущим поколением микросхем SeaStar позволило поднять поддерживаемую пропускную способность на 30%, составляющую 6 Гбайт/с.
Более высокая пропускная способность межсоединения уже могла бы натолкнуться на узкое место в виде канала HyperTransport (6,4 Гбайт/с для HyperTransport 2.0). Для сравнения, пропускная способность современного варианта Infiniband 4x QDR составляет 4 Гбайт/с для однонаправленной передачи при аппаратных задержках на уровне меньше 2 мкс.
Таким образом, аппаратура и узлов, и межсоединения Cray XT5 по производительности не превосходит соответствующие параметры Infiniband-кластеров. Выгоды Cray XT5 связаны в основном с возможностями построения систем со сверхбольшим числом узлов.
В Cray XT5 межсоединение SeaStar2+ позволяет объединить сотни стоек. Кроме моделей CrayХТ5, фирма Сray выпускает модели Cray XT5m (от англ. medium, «средний»), которые имеют не столь большие, как Cray ХТ5, конфигурации. В Cray ХТ5m задействованы не все шесть, а только четыре порта маршрутизатора SeaStar2+, соответственно применяется иная топология межсоединения – двухмерный тор. При этом пропускная способность межсоединения узла уменьшается до 38,4 Гбайт/с.
Модуль SeaStar2+ реализован как съемный, что позволяет осуществлять модернизацию межсоединения отдельно от процессоров и оперативной памяти. Поэтому Cray XT4 можно модернизировать до Cray XT5, а Cray XT5 – до Cray XT6 (в последнем случае меняются процессоры и оперативная память). В дальнейшем в Cray ХТ6 межсоединение, вероятно, будет заменено на модуль на базе перспективной коммуникационной микросхемы Cray Gemini. Таковы планы перехода к системам, получившим известность под кодовым названием Baker. Затем, уже в 2011 году, будет возможна модернизизация с переходом на процессоры AMD Bulldozer с 12 или 16 ядрами, которые будут изготавливаться по 32-нм технологии.
В трехмерной решетке часть узлов может быть выделена в качестве сервисных узлов (рис. 3), которые имеют один, а не два процессорных разъема, а для связи с «внешним миром» могут применяться шины PCI-Express. Дополнительно могут использоваться и сетевые протоколы Gigabit Ethernet, 10 Gigabit Ethernet, Infiniband, а также Fibre Channel. Возможно подключение дисковых массивов Fibre Channel и SATA.
Рис. 3.
Такое подключение жестких дисков характерно, когда применяются одиночные суперкомпьютеры Cray XT. Узлы, через которые происходит такое подсоединение, фирма Cray называет SIO-узлами (Storage-I/O).
В случае, если компьютерных систем несколько, теперь обычно применяются общие системы хранения. Фирма Cray предлагает высокопроизводительные системы хранения на базе Lustre, масштабируемой, надежной параллельной файловой системы с открытым кодом; она обеспечивает работу тысяч узлов, 1 Пбайт дисковой памяти и пропускную способность в сотни гигабайт в секунду. В качестве партнера фирмы Сray в области систем хранения выступает Sun Microsystems.
Cказанного во многом уже достаточно для того, чтобы понять назначение суперкомпютеров Cray XT5 – эти системы в первую очередь представляют альтернативу большим и сверхбольшим кластерам. Cray XT5 – вычислительная система, обладающая высокой плотностью упаковки, эффективным энергопотреблением и системой охлаждения, обеспечивает высокую надежность крупномасштабных систем и относительную простоту эксплуатации (последнее во многом связано и с представлением Cray XT5 как единой системы). C точки же зрения производительности при близких конфигурациях с кластером Cray XT5 преимуществ не дает, но имеет, очевидно, более высокую стоимость.
Очень важна надежность суперкомпьютера. Когда в кластере десятки тысяч и более узлов, выход из строя отдельных компонентов (например, вентиляторов) – постоянная головная боль. MTBF (cреднее время между сбоями) для вентиляторов в кластере на 10 стоек (250 вентиляторов) составляет всего около 26 часов. В Сray XT5 применяются мощные турбовентиляторы, подающие холодный воздух снизу и имеющие MTBF на 10 стоек в 15 лет.
Кроме того, в «лезвиях» Cray XT применяются управляющие процессоры, по одному на «лезвие» (24 на стойку), плюс управляющие процессоры стойки. Имеется специальная выделенная сеть управления на базе Gigabit Ethernet и рабочая станция управления системой.
В Cray XT5 применяются избыточные блоки питания и регуляторы напряжения, что позволяет дополнительно повысить надежность. В спецификации к Cray ХТ5 также указано, что для контроля за ядрами в системных «лезвиях» применяется специальная подсистема Cray Hardware Supervisory System. К RAID-массивам обеспечиваются избыточные пути, а в составе Lustre предусмотрен специальный сервер для преодоления сбоев.
Базовым механизмом охлаждения в Cray ХТ5 является воздушное, однако фирма Cray предлагает также жидкостное охлаждение. В этом случае применяется технология ECOphlex с двухконтурной системой охлаждения: ближе к аппаратуре охлаждение производится с применением хладагента R134a, а уже его во внешнем контуре охлаждает вода.
Такая схема оказывается весьма эффективной с точки зрения энергопотребления: на охлаждение расходуется примерно 25% суммарной энергии, потребляемой вычислительной системой, в то время как обычно эта величина достигает 45%.
ECOphlex – уже седьмая по счету жидкостная система охлаждения разработки фирмы Cray, в ней использована технология с фазовым переходом «жидкость-газ», что на сегодняшний день признается наиболее эффективным подходом, на порядок более эффективным, чем обычное водяное охлаждение. В ECOphlex можно применять теплую воду (до 16 градусов Цельсия), что способствует уменьшению затрат на охлаждение.
Cамая мощная суперкомпьютерная установка, базирующаяся на Cray XT5 – Jaguar содержит свыше 224 тыс. процессорных ядер, и при пиковой производительности свыше 2,3 PFLOPS на тестах High Performance Linpack достигла около 1,8 PFLOPS. Общая емкость оперативной памяти Jaguar составляет около 300 Тбайт, дискового пространства – 10 Пбайт, производительность ввода-вывода – 240 Гбайт/с. Энергопотребление Jaguar достигает 7 МВт.
- Что такое параллельные вычислительные системы и зачем они нужны
- Некоторые примеры использования параллельных вычислительных систем Об использования суперкомпьютеров
- Классификация параллельных вычислительных систем
- Классификация современных параллельных вычислительных систем с учетом структуры оперативной памяти, модели связи и обмена Симметричные скалярные мультипроцессорные вычислительные системы
- Несимметричные скалярные мультипроцессорные вычислительные системы
- Массово параллельные вычислительные системы с общей оперативной памятью
- Массово параллельные вычислительные системы с распределенной оперативной памятью
- Серверы
- Требования к серверам Основные компоненты и подсистемы современных серверов
- Структуры несимметричных мвс с фирмы Intel Структурные особенности процессоров со структурой Nehalem
- Структуры мвс с процессорами Nehalem
- Мвс на базе процессоров фирмы amd
- Структура шестиядерного процессора Istanbul приведена на рис. 23.
- Примеры структур несимметричных мвс с процессорами линии Opteron Barcelona, Shanghai, Istanbul
- Сравнение структур мвс с процессорами Barcelona, Shanghai, Istanbul с мвс с процессорами со структурой Nehalem
- 12 Ядерные процессоры Magny-Cours
- Основные особенности 12-ти и 8-ми ядерных микросхем Magny-Cours
- Структуры мвс с процессорами Magny--Cours
- Перспективы развития процессоров фирмы amd для мвс
- Мвс на базе процессоров фирмы ibm power6, power7 Основные особенности процессоров power6, power7
- Процессор power6
- Структуры мвс на базе процессоров power4, power5
- Структуры мвс на базе процессоров power6, power7
- Требования к серверам
- Основные компоненты и подсистемы современных серверов
- Поддерживаемые шины ввода-вывода
- Raid контроллеры
- Сервер Superdome 2 для бизнес-критичных приложений
- Структура сервера
- Надежность и доступность
- Конфигурации и производительность
- Основные особенности симметричных мультипроцессорных систем?
- Векторные параллельные системы
- Скалярная и векторная обработка
- Основные особенности векторных параллельных систем
- Векторные параллельные системы sx-6, sx-7 фирмы nec
- Особенности вычислительной системы sx-7
- Параллельная векторная система Earth Simulator
- Cуперкластерная система
- Суперкомпьютер CrayXt5h
- «Лезвия» векторной обработки Cray x2
- «Лезвия» с реконфигурируемой структурой
- Массово параллельные вычислительные системы с скалярными вычислительными узлами и общей оперативной памятью
- Массово параллельные вычислительные системы с скалярными вычислительными узлами и распределенной оперативной памятью
- Cуперкомпьютеры семейства cray xt Семейство Cray xt5
- «Гибридные» суперкомпьютеры CrayXt5h
- «Лезвия» векторной обработки Cray x2
- «Лезвия» с реконфигурируемой структурой
- Развитие линии Cray хт5 – Cray xt6/xt6m
- Модель Cray xe6
- Процессор
- Коммуникационная среда с топологией «3-мерный тор»
- Реализация коммуникационных сред
- Операционная система
- Суперкомпьютер RoadRunner
- Топологии связей в массово параллельных системах
- Оценка производительности параллельных вычислительных систем
- Необходимость оценки производительности параллельных вычислительных систем
- Реальная производительность параллельных вычислительных систем Анализ «узких мест» процесса решения задач и их влияния на реальную производительность
- «Узкие» места, обусловленные иерархической структурой памяти
- Влияние на реальную производительность параллельных вычислительных систем соответствия их структуры и структуры программ
- Анализ реальной производительности («узких» мест) мвс с общей оперативной памятью
- Анализ реальной производительности («узких» мест) кластерных систем с распределённой оперативной памятью
- Какие «узкие места» процесса решения задач существенно влияют на реальную производительность параллельных вычислительных систем?
- Тенденции развития суперкомпьютеров. Список top500
- Что такое список тор 500 и как он создается?
- 38 Редакция списка (ноябрь 2011 г.)
- Коммуникационные технологии
- Архитектуры, модели процессоров и их количество в системах списка
- Основные тенденции развития суперкомпьютеров
- Перспективные суперкомпьютеры тера- и экзафлопного масштаба
- Производительность 500 лучших суперкомпьютеров за последние 18 лет
- Перспективные суперкомпьютеры тера- и экзафлопного масштаба
- Программа darpa uhpc
- Основные положения программы uhpc
- Экзафлопсный барьер: проблемы и решения
- Проблемы
- Эволюционный путь
- Революционный путь
- Кто победит?
- Примеры перспективных суперкомпьютеров Суперкомпьютер фирмы ibm Mira
- Стратегические суперкомпьютерные технологии Китая