logo
3_Тексты лекций ПВС 2011

Cуперкомпьютеры семейства cray xt Семейство Cray xt5

Компания Cray производила суперкомпьютеры разной архитектуры – векторные, многопоточные, на базе микросхем FPGA-архитектуры, но, пожалуй, наибольший успех получили массово параллельные системы семейства Cray ХТ на базе процессоров Opteron.

Суперкомпьютер Cray XT3 с одноядерными процессорами Opteron появился в 2005 году.

Суперкомпьютер Cray XT4 на базе двухъядерных процессоров Opteron был выпущен в 2007 году.

Суперкомпьютер Cray ХТ5 с четырехъядерными процессорами Barcelona (с частотой 2,6 ГГц,), Shanghai (с частотой 2,7 ГГц) и шестидерными Istanbul (с частотой 2,6 ГГц) выпущен в 2009 году. При этом число процессорных микросхем в узле Cray XT5 возросло до двух.

Суперкомпьютер Cray XT6 реализован на базе шести- и восьмиядерных Opteron серии 6100.

Одной из особенностей массово параллельных систем Cray XT в целом являются «фирменные» межсоединения SeaStar c топологией трехмерного тора.

Остановимся на рассмотрении систем Cray XT5 и Cray ХТ6 (Cray ХТ5 это модернизированный вариант модели Cray ХТ4, а Cray ХТ6 – модернизированный вариант модели Cray ХТ5).

Узел Cray ХТ5 содержит специализированную микросхему (ASIC-микросхему), обеспечивающую работу с межсоединением SeaStar2+, два процессора Opteron и разъемы для модулей DIMM (рис. 1). В Cray XT4 узел был устроен аналогичным образом, но имел один процессор.

Рис. 1.

Для связи микросхемы межсоединения с процессорами Opteron естественным образом применяются интегрированные в процессор интерфейсы каналов HyperTransport 2.0 (прямое подсоединение оперативной памяти к процессору – одна из основных особенностей всех моделей процессоров Opteron). В результате пропускная способность оперативной памяти масштабируется с числом процессоров, и в расчете на узел пропускная способность оперативной памяти составляет 25,6 Гбайт/с (применяется защищенная кодами ЕСС регистровая память DDR2-800). Емкость оперативной памяти узла составляет от 8 Гбайт до 32 Гбайт (см. таблицу 1).

Процессоры в узле могут применяться разные – четырехъядерные Barcelona и Shanghai с разными частотами, а также шестиядерные Istanbul. Соответственно суммарное число ядер в узле составляет восемь или двенадцать, а пиковая производительность узла лежит в диапазоне примерно от 70 GFLOPS до 124 GFLOPS.

Сравнивая типичный узел современного высокопроизводительного кластера (HPC-кластера) с вычислительным узлом Cray ХТ5 можно увидеть, что они имеют примерно одинаковое число ядер, использует такие же или аналогичные процессоры, а, значит, серьезных отличий в структуре и производительности между ними нет. Основное отличие состоит в межсоединении между узлами. В узлах наиболее мощных кластеров из списка Тop500 межсоединение – это обычно Infiniband.

Следующий уровень конструктива над узлом Cray ХТ5 – «лезвие», содержащее четыре узла. При использовании процессоров Istanbul производительность «лезвия» достигает 500 GFLOPS; ему отвечает решетка узлов 1х2х2.

В стойке можно реализовать решетку узлов 1х4х24 (24 «лезвия» по четыре узла) с производительностьюдо 12 TFLOPS при емкости оперативной памяти 1,54 Тбайт (из расчета 16 Гбайт на узел), а в системе Cray ХТ5 в целом – решетку 25х32х24. Такая система имеет производительность порядка 2 PFLOPS и емкость памяти 300 Тбайт. В соответствии с указанными на сайте фирмы Cray спецификациями Cray ХТ5, стойка занимает площадь примерно 0,6м х 1,4 м при высоте около 2 м, весит порядка 700 кг и потребляет не более 43 кВт.

Межсоединение SeaStar2+ поддерживается благодаря специализированной микросхеме (рис. 2), обеспечивающей маршрутизацию и имеющей шесть портов с пропускной способностью 9,6 Гбайт/с на порт.

Суммарная пропускная способность микросхемы 57,6 Гбайт/с, в то время как задержка (латентность) передачи из узла в узел не превышает 2 мкс. Кроме шестипортового маршрутизатора и интерфейса HyperTransport, микросхема SeaStar2+ содержит механизм прямого доступа в память (Direct Memory Access, DMA), поддержку интерфейса управления «лезвием» и другие средства.

Для повышения надежности в микросхеме SeaStar2+ применяются коды ЕСС, используется адаптивная маршрутизация, а сбойные каналы можно «обойти» без перезагрузки.

Рис. 2. Структура микросхемы SeaStar2+ .

В SeaStar2+ для передачи данных не надо устанавливать соединения, поэтому нет кэширующих очередей между парами узлов. Это облегчает работу Cray XT c большим числом узлов. Удвоение числа виртуальных каналов (до четырех) по сравнению с предыдущим поколением микросхем SeaStar позволило поднять поддерживаемую пропускную способность на 30%, составляющую 6 Гбайт/с.

Более высокая пропускная способность межсоединения уже могла бы натолкнуться на узкое место в виде канала HyperTransport (6,4 Гбайт/с для HyperTransport 2.0). Для сравнения, пропускная способность современного варианта Infiniband 4x QDR составляет 4 Гбайт/с для однонаправленной передачи при аппаратных задержках на уровне меньше 2 мкс.

Таким образом, аппаратура и узлов, и межсоединения Cray XT5 по производительности не превосходит соответствующие параметры Infiniband-кластеров. Выгоды Cray XT5 связаны в основном с возможностями построения систем со сверхбольшим числом узлов.

В Cray XT5 межсоединение SeaStar2+ позволяет объединить сотни стоек. Кроме моделей CrayХТ5, фирма Сray выпускает модели Cray XT5m (от англ. medium, «средний»), которые имеют не столь большие, как Cray ХТ5, конфигурации. В Cray ХТ5m задействованы не все шесть, а только четыре порта маршрутизатора SeaStar2+, соответственно применяется иная топология межсоединения – двухмерный тор. При этом пропускная способность межсоединения узла уменьшается до 38,4 Гбайт/с.

Модуль SeaStar2+ реализован как съемный, что позволяет осуществлять модернизацию межсоединения отдельно от процессоров и оперативной памяти. Поэтому Cray XT4 можно модернизировать до Cray XT5, а Cray XT5 – до Cray XT6 (в последнем случае меняются процессоры и оперативная память). В дальнейшем в Cray ХТ6 межсоединение, вероятно, будет заменено на модуль на базе перспективной коммуникационной микросхемы Cray Gemini. Таковы планы перехода к системам, получившим известность под кодовым названием Baker. Затем, уже в 2011 году, будет возможна модернизизация с переходом на процессоры AMD Bulldozer с 12 или 16 ядрами, которые будут изготавливаться по 32-нм технологии.

В трехмерной решетке часть узлов может быть выделена в качестве сервисных узлов (рис. 3), которые имеют один, а не два процессорных разъема, а для связи с «внешним миром» могут применяться шины PCI-Express. Дополнительно могут использоваться и сетевые протоколы Gigabit Ethernet, 10 Gigabit Ethernet, Infiniband, а также Fibre Channel. Возможно подключение дисковых массивов Fibre Channel и SATA.

Рис. 3.

Такое подключение жестких дисков характерно, когда применяются одиночные суперкомпьютеры Cray XT. Узлы, через которые происходит такое подсоединение, фирма Cray называет SIO-узлами (Storage-I/O).

В случае, если компьютерных систем несколько, теперь обычно применяются общие системы хранения. Фирма Cray предлагает высокопроизводительные системы хранения на базе Lustre, масштабируемой, надежной параллельной файловой системы с открытым кодом; она обеспечивает работу тысяч узлов, 1 Пбайт дисковой памяти и пропускную способность в сотни гигабайт в секунду. В качестве партнера фирмы Сray в области систем хранения выступает Sun Microsystems.

Cказанного во многом уже достаточно для того, чтобы понять назначение суперкомпютеров Cray XT5 – эти системы в первую очередь представляют альтернативу большим и сверхбольшим кластерам. Cray XT5 – вычислительная система, обладающая высокой плотностью упаковки, эффективным энергопотреблением и системой охлаждения, обеспечивает высокую надежность крупномасштабных систем и относительную простоту эксплуатации (последнее во многом связано и с представлением Cray XT5 как единой системы). C точки же зрения производительности при близких конфигурациях с кластером Cray XT5 преимуществ не дает, но имеет, очевидно, более высокую стоимость.

Очень важна надежность суперкомпьютера. Когда в кластере десятки тысяч и более узлов, выход из строя отдельных компонентов (например, вентиляторов) – постоянная головная боль. MTBF (cреднее время между сбоями) для вентиляторов в кластере на 10 стоек (250 вентиляторов) составляет всего около 26 часов. В Сray XT5 применяются мощные турбовентиляторы, подающие холодный воздух снизу и имеющие MTBF на 10 стоек в 15 лет.

Кроме того, в «лезвиях» Cray XT применяются управляющие процессоры, по одному на «лезвие» (24 на стойку), плюс управляющие процессоры стойки. Имеется специальная выделенная сеть управления на базе Gigabit Ethernet и рабочая станция управления системой.

В Cray XT5 применяются избыточные блоки питания и регуляторы напряжения, что позволяет дополнительно повысить надежность. В спецификации к Cray ХТ5 также указано, что для контроля за ядрами в системных «лезвиях» применяется специальная подсистема Cray Hardware Supervisory System. К RAID-массивам обеспечиваются избыточные пути, а в составе Lustre предусмотрен специальный сервер для преодоления сбоев.

Базовым механизмом охлаждения в Cray ХТ5 является воздушное, однако фирма Cray предлагает также жидкостное охлаждение. В этом случае применяется технология ECOphlex с двухконтурной системой охлаждения: ближе к аппаратуре охлаждение производится с применением хладагента R134a, а уже его во внешнем контуре охлаждает вода.

Такая схема оказывается весьма эффективной с точки зрения энергопотребления: на охлаждение расходуется примерно 25% суммарной энергии, потребляемой вычислительной системой, в то время как обычно эта величина достигает 45%.

ECOphlex – уже седьмая по счету жидкостная система охлаждения разработки фирмы Cray, в ней использована технология с фазовым переходом «жидкость-газ», что на сегодняшний день признается наиболее эффективным подходом, на порядок более эффективным, чем обычное водяное охлаждение. В ECOphlex можно применять теплую воду (до 16 градусов Цельсия), что способствует уменьшению затрат на охлаждение.

Cамая мощная суперкомпьютерная установка, базирующаяся на Cray XT5 – Jaguar содержит свыше 224 тыс. процессорных ядер, и при пиковой производительности свыше 2,3 PFLOPS на тестах High Performance Linpack достигла около 1,8 PFLOPS. Общая емкость оперативной памяти Jaguar составляет около 300 Тбайт, дискового пространства – 10 Пбайт, производительность ввода-вывода – 240 Гбайт/с. Энергопотребление Jaguar достигает 7 МВт.