logo
3_Тексты лекций ПВС 2011

Параллельная векторная система Earth Simulator

Ввычислительная система Earth Simulator создавалась в течение пяти лет Научно-исследовательским центром моделирования Земли (ESRDC, Earth Simulator Research and Development Center) в сотрудничестве с японским Национальным агентством по исследованию космоса (NASDA), Японским институтом по исследованию атомной энергии (JAERI) и Японским морским научно-техническим центром (JAMSTEC), и сразу же стала наиболее производительной в мире системой летом 2002 г. (в 19-й версии рейтинга TOP500) и удерживала первенство в течение двух лет. Затраты на проект составили около 350 млн. долларов, в работах было задействовано свыше 1000 специалистов фирмы NEC.

Вычислительная система и все ее технологическое окружение (системы электропитания, кондиционирования, освещения, сейсмической защиты и т.п.) занимают здание размером 50х65х17 м. Для охлаждения вычислительной системы через рабочие помещения в течение 10 с прокачивается около миллиона кубических метров воздуха.

Некоторое представление об этом грандиозном сооружении можно получить из рисунков 3 и 4 показывающих общую схему здания и внутреннюю компоновку вычислительной системы.

Рис. 3. Общая схема здания с вычислительной системой Earth Simulator

Рис. 4. Внутренняя компоновка вычислительной системы Earth Simulator.

Структура вычислительной системы Earth Simulator является дальнейшим развитием идей, реализованных с вычислительных системах SX-6, SX-7.

В целом, вычислительная система Earth Simulator является массово параллельной векторной вычислительной системой с распределенной оперативной памятью. Каждый узел построен на принципах симметричной мультипроцессорной системы, основа каждого процессора - векторно-конвейерная обработка.

Вычислительная система Earth Simulator состоит из 640 процессорных узлов, соединенных между собой через высокоскоростной коммутатор.

В состав узла входят:

8 векторных арифметических процессоров, работающих над общей для каждого узла оперативной памятью. Пиковая производительность одного векторного арифметического процессора равна 8 Гфлопс, поэтому пиковая производительность всей системы, объединяющей 640*8=5120 процессоров, равна 40 Тflops. На тесте Linpack вычислительная система Earth Simulator показала производительность 35,86 Тflops (89,6% от пика).

коммуникационный процессор;

процессор для операций ввода-вывода;

оперативная память, которая разделена на 2048 банков и имеет объем 16 Гбайт;

удаленное устройство управления RCU (Remote Control Unit).

Общая схема вычислительной системы и ее коммуникационная сеть показаны на рисунках 5, 6.

Скорость двунаправленной передачи по каждому каналу, соединяющему процессорные узлы с переключателем, равна 12.3 Гбайт/с. Суммарная длина кабелей, соединяющих процессорные узлы с коммутатором, составляет 2400 км.

Каждый арифметический процессор (рис. 11) состоит из скалярного и векторного устройств, а также модуля доступа к общей оперативной памяти. Процессор работает на частоте 500 Мгц, но некоторые его компоненты поддерживают работу на частоте 1 Ггц.

Скалярное устройство имеет суперскалярную структуру, кэш-память команд и данных по 64 Кбайт каждая и 128 64-х разрядных скалярных регистров общего назначения.

Рис. 5. Общая схема вычислительной системы Earth Simulator

Векторное устройство имеет 8 наборов включающих:

72 векторных регистра по 256 64-х разрядных элементов каждый;

6 конвейерных устройств: сложение, умножение, деление, для логических операций, операций маскирования и чтения/записи. Устройства одного и того же типа из разных наборов одновременно обрабатывают одну и ту же векторную команду, в то время как устройства различных типов даже в рамках одного набора могут работать одновременно и независимо друг от друга. Структура арифметического процессора показана на рис. 7.

Рис. 6. Коммуникационная сеть вычислительной системы Earth Simulator

Рис. 7. Структура арифметического процессора

Модуль векторного процессора имеет размеры 115х139 мм. Однокристальные процессоры системы созданы по 0,15 мкм технологии с восемью слоями медной металлизации и содержат приблизительно 60 млн. транзисторов. Количество выводов составляет 5185. Тактовая частота достигает 1 Ггц, потребляемая мощность — 140 Вт.

Подсистема внешней памяти влючает четыре файловых сервисных процессора, 250 Тбайт дисковой и 1,5 Пбайт (1 Петабайт = 1015 байт) ленточной памяти. Объем оперативной памяти для всей системы составляет 10 Тбайт, а общий объем дисковой памяти, включающий рабочее дисковое пространство (около 460 Тбайт), превышает 700 Тбайт.

В качестве операционной системы используется SUPER-UX. Программное обеспечение и среда разработки основаны на UNIX и созданы специально для систем NEC SX-серий. Применяемые языки программирования — Fortran90, HPF, C и C++. Трансляторы этих языков могут выполнять автоматическое распараллеливание и векторизацию. Кроме того, имеются библиотека передачи сообщений MPI2 и математическая библиотека ASL/ES.