3_Тексты лекций ПВС 2011

«Лезвия» с реконфигурируемой структурой

В Cray XT5h могут применяться «лезвия» XR1 с FPGA-процессорами. Каждое такое «лезви»е имеет два узла (рис. 9). Узлы содержат по одному процессору линии Opteron, который каналами HyperTransport связан с SeaStar2+ и с модулем RPU (Reconfigurable Processor Unit) разработки компании DRC Computer.

RPU (всего их в узле два) размещаются в процессорных разъемах AMD Socket 940 и поддерживают три интерфейса HyperTransport (через эти каналы два RPU связаны между собой) и 128-разрядные каналы в оперативную память DDR-400 c пропускной способностью 6,4 Гбайт/с. Этот же тип оперативной памяти используется в узле как локальная память для процессоров Opteron, но емкость последней составляет от 2 Гбайт до 8 Гбайт, а емкость локальной оперативной памяти для RPU – от 1 Гбайт до 4 Гбайт.

Фирма DRC Computer предлагает на рынке несколько моделей RPU; в узлах XR1 применяются RPU LX200/LP, в которых использованы мощные FPGA-процессоры Xilinx Virtex-4. LX-200 содержит 200448 логических ячеек и собственную память на плате с пропускной способностью 14,4 Гбайт/с. В RPU применяется память типа RLDRAM емкостью 256 Мбайт. Пропускная способность «внешних» (для FPGA) HyperTransport-каналов cоставляет 6,4 Гбайт/с – для интерфейса с SeaStar, 3,2 Гбайт/с – для интерфейса с процессорами Opteron.

Рис. 9.

В одной системе Cray ХТ5h может содержаться до 30 тыс. FPGA-процессоров Virtex-4, из расчета до 48 узлов (96 RPU) на стойку, с затратами на электропитание – до 12 кВт на стойку. Применение в RPU разъема, совместимого с Socket 940, и поддержка HyperTransport представляется эффективным техническим решением, обеспечивающим высокую пропускуную способность и низкие задержки.

FPGA-подсистема Cray ХТ5h может применяться для задач криптографии, рендеринга, сортировки, при поисках последовательностей, для некоторых задач моделирования и др.

Контрольные вопросы

Какие методы увеличения производительности вычислительных систем вы знаете?
В чем отличие между конвейерной и параллельной обработкой?
Что такое векторизация?
За счет чего увеличивается производительности при векторной обработке?
Какая разница между вектором данных и скаляром?
Можно ли считать вектором двумерный массив данных, например, матрицу?
Какие основные особенности векторно параллельных систем?
Структура векторного процессора Earth Simulator
Структура коммуникационной подсистемы Earth Simulator

Массово параллельные системы

Содержание

Отличительные особенности массово параллельных систем

Cуперкомпьютеры семейства CRAY XT

Семейство Cray XT5

Гибридные» суперкомпьютеры CrayXT5h

Развитие линии Cray ХТ5 – Cray XT6/XT6m

Модель Cray XE6

Система Blue Gene/L

Структура

Коммуникационная среда

Суперкомпьютер RoadRunner

Структура

Процессоры

Блэйд-модули TriBlade

Топологии связей в массово параллельных системах

Отличительные особенности массово параллельных систем

Поворот к массово параллельным вычислительным системам

Примерно в середине 90-х годов 20-го века быстрый темп развития сверхпроизводительных вычислительных систем был потерян. В качестве основных причин следует привести следующие: огромный спад государственной поддержки программы развития сверхпроизводительных вычислительных систем, как результат прекращения «холодной войны», плюс отсутствие рынка сбыта таких дорогих вычислительных систем, что объяснялось наличием вполне подходящих мини-суперЭВМ гораздо более дешевых и доступных.

В микроэлектронике господствовала технология КМОП, хотя и более медленная по сравнению с другими микроэлектронными технологиями, но имевшая ряд других очень важных преимуществ, а именно; меньшее энергопотребление, значительно большую степень интеграции, отработанность технологии и ряд других.

К середине 90-х годов прошлого века успехи микроэлектроники с технологией КМОП позволили в одной микросхеме иметь несколько миллионов транзисторов и реализовать высокопроизводительный суперскалярный процессор (пример, модели процессоров типа Pentium). На базе этих универсальных суперскалярных процессоров с одной и той же архитектурой строились массовые (и достаточно производительные) персональные компьютеры и рабочие станции. Так как эти процессоры производились десятками миллионов штук в год, то и стоили они относительно не дорого.

В то же время каждая векторная вычислительная система обладала уникальной архитектурой и структурой, а, следовательно, для каждой их них надо было разрабатывать оригинальные микросхемы, причем число таких микросхем исчислялось многими десятками. Для достижения максимально возможных характеристик по быстродействию в качестве элементной базы использовались микросхемы ECL типа. Это была самая быстродействующая элементная база, которая, как правило, использовалась в сверхпроизводительных векторно-конвейерных системах, но она же была и самой энергоемкой и самой малой по степени интеграции (степень интеграции составляла десятки тысяч транзисторов в микросхеме). Разработка специализированных микросхем очень дорогое дело. А если таких микросхем каждого типа производится немного, то и стоимость их очень большая. Большие проблемы возникали с охлаждением конструкций с такими энергоемкими микросхемами. А, значит, стоимость систем с учетом малой их серийности будет очень большой. В связи с существенным уменьшением государственного финансирования разработок и производства сверхпроизводительных вычислительных систем экономические факторы стали играть преобладающую роль. Фирмы должны были за свои средства разрабатывать конкурентноспособные вычислительные системы, производить и продавать их и, таким образом, получать прибыль, которая позволила бы окупить все произведенные затраты и дать возможность делать новые разработки.

Осознание того факта, что из сверхбольших интегральных микросхем (с количеством в десятки и сотни миллионов транзисторов в одной микросхеме) можно строить преимущественно параллельные вычислительные системы, изменило политику многих ведущих фирм в области разработки сверхпроизводительных вычислительных систем. Большинство производителей переориентировались на создание структур с массовым параллелизмом.

Окончательно линия на создание массово параллельных высокопроизводительных вычислительных систем возобладала после неудачи в начале 90-х годов прошлого века в разработке компанией Cray Computer векторно-конвейерной вычислительной системы Cray 4 c использованием самой быстрой на то время элементной базы на основе арсенида галлия.

Под массово параллельными вычислительными системами будем понимать вычислительные системы состоящие из многих десятков, сотен или тысяч процессоров.

Содержание