Процессор power6
Основные характеристики:
два ядера;
технологический процесс 65-нм;
максимальная тактовая частота — 4,7 ГГц;
количество транзисторов — более 790 млн.;
площадь — 341 кв. мм;
год выпуска – 2007.
На рис. 36 приведена структура процессора POWER6.
Рис. 32. Структура процессора POWER6.
Интерфейс ввода-вывода - 4 байта при чтении, 4 байта при записи. Может работать на ½ или 1/3 или 1/4 частоты процессора. Оперативная память - 400, 533, 667 (800) MHz DDR2 или 1066 MHz DDR3.
У процессора два суперскалярных ядра с поддержкой «одновременной многопотоковости» (Simultaneous Multithreading, SMT). Каждое ядро включает в себя два арифметических целочисленных устройства, два арифметических устройства с плавающей точкой и одно устройство для десятичной арифметики. Система команд POWER6 дополнена 50 новыми командами для выполнения десятичных операций и операций перевода из десятичной системы в двоичную и обратно. Процессор снабжен кэш-памятью второго уровня на 8 Мбайт. Предусмотрена поддержка общей для обоих ядер кэш-памяти третьего уровня емкостью до 32 Мбайт, двух контроллеров памяти, а также двухуровневого коммутатора SMP (Symmetric Multiprocessing). Процессор поддерживает наборы команд AltiVec (операции с плавающей точкой, выполняемые в режиме SIMD) и векторные операции ViVA-2 (Virtual Vector Architecture). На рис. 37 приведена упрощенная схема работы конвейера ядра.
Рис. 33.
Особо стоит отметить достижения, связанные с уменьшением энергопотребления. При удвоении производительности по сравнению с пройессором POWER5 за счет того, что частота увеличилась вдвое, а длину конвейера (показатель, определяющий супескалярность) удалось оставить прежней, рассеиваемая мощность осталась прежней.
Латентности кэш-памятей и оперативной памяти приведены в твблице 1.
Таблица 1.
L1 | 2 cycles | 75 / 37,5 GB/s |
L2 | 20-26 cycles | 150 / 75 GB/s |
L3 | 160 cycles | 18,8 / 18,8 GB/s |
Memory | 450 cycles | 4+ GB/s / core |
Фирма IBM следует утверждению "Невозможно увеличить производительность системы, просто удваивая количество ядер на одном кристалле. Совершенно необходимо поднимать как рабочую частоту процессора, так и пропускную способность шины оперативной памяти".
Реализовав процессор POWER6, фирма IBM обошла фирму Intel в "гонке за гигагерцами" т.к. одноядерные процессоры фирмы Intel работают на частотах, не превышающих 3,8 Ггц, а новые поколения многоядерных процессоров немного преодолевают барьер в 3 Ггц.
Особенности процессора POWER7
Блок-схема процессора POWER7 приведена на рис. 34.
Восьмиядерный кристалл площадью 567 мм2 выполнен по проектным нормам 45 нм, что позволило разместить на кристалле 1,2 млрд транзисторов.
Объем кэш-памяти третьего уровня на кристалле составляет 32 Мбайт eDRAM. Это большой шаг вперед по сравнению с предыдущими поколениями процессоров линии POWER, где кэш располагался на отдельном чипе в многокристальном модуле.
Каждый процессор POWER7 может выполнять 32 параллельные задачи (с восемью ядрами и четырьмя потоками на ядро), что в четыре раза больше максимального числа ядер систем POWER6 и в восемь раз больше количества потоков у ядер, чем у систем на базе POWER6. Кристаллы имеют следующие тактовые частоты: 3; 3,3; 3,5; 3,55; 3,8 и 4,1 ГГц.
Рис. 34. Блок-схема процессора POWER7.
Каждое ядро POWER7 включает 12 исполнительных блоков, два блока обработки с фиксированной запятой, два блока хранения/загрузки, четыре блока с плавающей запятой (двойной точности), один векторный блок и один блок десятичной арифметики. Все ядра поддерживают внеочередное выполнение инструкций и обеспечивают двоичную совместимость с предыдущими моделями POWER. Помимо встроенной раздельной кэш-памяти для команд (32 Кбайт) и данных (32 Кбайт) первого уровня (L1) с каждым ядром плотно связана 256 Кбайтная кэш-память второго уровня (L2). Кроме того, на кристалле реализована общая кэш-память третьего уровня (L3) размером 32 Мбайт, которая выполнена на базе так называемой встроенной динамической памяти с произвольным доступом (embedded DRAM). При этом в данной памяти выделены 4-Мбайт сегменты для каждого ядра процессора. Разумеется, eDRAM работает медленнее, чем статическая память SRAM, но она может быть расположена ближе к ядрам процессора и использует более широкие пути передачи данных (что существенно снижает латентность). Кроме того, для реализации одной ячейки SRAM (статический триггер) необходимо шесть транзисторов, а ячейка eDRAM состоит всего из одного транзистора и одного конденсатора.
В микросхеме имеется двухканальный контроллер оперативной памяти стандарта DDR3. Пропускная способность оперативной памяти поддерживается на уровне 100 Гб/с, в режиме SMP – 360 Гб/с.
Режим TurboCore, высокооптимизированный для баз данных и других рабочих нагрузок, связанных с обработкой транзакций, выполняет свою функцию, работая только с четырьмя активными ядрами и концентрируя большую часть ресурсов всех восьми ядер на процессорном кристалле. После того как четыре пассивных ядра передают активным свою кэш-память и каналы обращения к оперативной памяти, появляется возможность увеличения тактовой частоты (до 4,1 ГГц); как следствие, наблюдается существенный прирост производительности в расчете на ядро.
Режим TurboCore будут поддерживать отдельные модели серверов. Когда режим TurboCore не задействован, все процессоры POWER7 работают в режиме MaxCore, максимум с восемью ядрами на разъем (сокет) и четырьмя потоками на ядро – 32 потока в целом.
Другая особенность процессоров POWER7 – так называемые интеллектуальные потоки (Intelligent Threads), которые могут варьироваться в широких пределах в зависимости от требований рабочей нагрузки. Используя большее число потоков в POWER7, системы на базе этих процессоров обеспечивают увеличенную общую производительность в результате параллельного выполнения большего числа задач, например, при ежеминутном мониторинге потребления электроэнергии миллионами потребителей в интеллектуальных сетях энергоснабжения. Для рабочих нагрузок, которым требуется очень быстрая «индивидуальная» обработка данных, – таких как анализ информации в реальном времени или управление транзакциями в СУБД – максимальная требуемая производительность может быть достигнута с меньшим числом потоков. Функция Intelligent Threads работает во всех процессорах POWER7 и способна эффективно повышать мощность и общую производительность системы.
В таблице 2 приведены основные характеристики ряда процессоров POWER, в том числе и процессора POWER7.
Таблица 2. Основные характеристики ряда процессоров POWER
Модель | POWER5 | POWER5+ | POWER6 | POWER7 |
Проектные нормы, нм | 130 | 90 | 60 | 45 |
Площадь кристалла, кв. мм | 389 | 245 | 341 | 567 |
Количество транзисторов, млн шт. | 276 | 276 | 790 | 1200 |
Тактовая частота, ГГц | 1,65 | 1,9 | 4+ | 3–4 |
Размер кэш-памяти L2 | 1,9 Мбайт (общая) | 1,9 Мбайт (общая) | 4 Мбайт/ядро | 256 Кбайт/ядро |
Размер кэш-памяти L3 | 36 Мбайт | 36 Мбайт | 32 Мбайт | 4 Мбайт/ядро |
Количество ядер | 2 | 2 | 2 | 8 |
Количество потоков в одном ядре | 2 | 2 | 2 | 4 |
- Что такое параллельные вычислительные системы и зачем они нужны
- Некоторые примеры использования параллельных вычислительных систем Об использования суперкомпьютеров
- Классификация параллельных вычислительных систем
- Классификация современных параллельных вычислительных систем с учетом структуры оперативной памяти, модели связи и обмена Симметричные скалярные мультипроцессорные вычислительные системы
- Несимметричные скалярные мультипроцессорные вычислительные системы
- Массово параллельные вычислительные системы с общей оперативной памятью
- Массово параллельные вычислительные системы с распределенной оперативной памятью
- Серверы
- Требования к серверам Основные компоненты и подсистемы современных серверов
- Структуры несимметричных мвс с фирмы Intel Структурные особенности процессоров со структурой Nehalem
- Структуры мвс с процессорами Nehalem
- Мвс на базе процессоров фирмы amd
- Структура шестиядерного процессора Istanbul приведена на рис. 23.
- Примеры структур несимметричных мвс с процессорами линии Opteron Barcelona, Shanghai, Istanbul
- Сравнение структур мвс с процессорами Barcelona, Shanghai, Istanbul с мвс с процессорами со структурой Nehalem
- 12 Ядерные процессоры Magny-Cours
- Основные особенности 12-ти и 8-ми ядерных микросхем Magny-Cours
- Структуры мвс с процессорами Magny--Cours
- Перспективы развития процессоров фирмы amd для мвс
- Мвс на базе процессоров фирмы ibm power6, power7 Основные особенности процессоров power6, power7
- Процессор power6
- Структуры мвс на базе процессоров power4, power5
- Структуры мвс на базе процессоров power6, power7
- Требования к серверам
- Основные компоненты и подсистемы современных серверов
- Поддерживаемые шины ввода-вывода
- Raid контроллеры
- Сервер Superdome 2 для бизнес-критичных приложений
- Структура сервера
- Надежность и доступность
- Конфигурации и производительность
- Основные особенности симметричных мультипроцессорных систем?
- Векторные параллельные системы
- Скалярная и векторная обработка
- Основные особенности векторных параллельных систем
- Векторные параллельные системы sx-6, sx-7 фирмы nec
- Особенности вычислительной системы sx-7
- Параллельная векторная система Earth Simulator
- Cуперкластерная система
- Суперкомпьютер CrayXt5h
- «Лезвия» векторной обработки Cray x2
- «Лезвия» с реконфигурируемой структурой
- Массово параллельные вычислительные системы с скалярными вычислительными узлами и общей оперативной памятью
- Массово параллельные вычислительные системы с скалярными вычислительными узлами и распределенной оперативной памятью
- Cуперкомпьютеры семейства cray xt Семейство Cray xt5
- «Гибридные» суперкомпьютеры CrayXt5h
- «Лезвия» векторной обработки Cray x2
- «Лезвия» с реконфигурируемой структурой
- Развитие линии Cray хт5 – Cray xt6/xt6m
- Модель Cray xe6
- Процессор
- Коммуникационная среда с топологией «3-мерный тор»
- Реализация коммуникационных сред
- Операционная система
- Суперкомпьютер RoadRunner
- Топологии связей в массово параллельных системах
- Оценка производительности параллельных вычислительных систем
- Необходимость оценки производительности параллельных вычислительных систем
- Реальная производительность параллельных вычислительных систем Анализ «узких мест» процесса решения задач и их влияния на реальную производительность
- «Узкие» места, обусловленные иерархической структурой памяти
- Влияние на реальную производительность параллельных вычислительных систем соответствия их структуры и структуры программ
- Анализ реальной производительности («узких» мест) мвс с общей оперативной памятью
- Анализ реальной производительности («узких» мест) кластерных систем с распределённой оперативной памятью
- Какие «узкие места» процесса решения задач существенно влияют на реальную производительность параллельных вычислительных систем?
- Тенденции развития суперкомпьютеров. Список top500
- Что такое список тор 500 и как он создается?
- 38 Редакция списка (ноябрь 2011 г.)
- Коммуникационные технологии
- Архитектуры, модели процессоров и их количество в системах списка
- Основные тенденции развития суперкомпьютеров
- Перспективные суперкомпьютеры тера- и экзафлопного масштаба
- Производительность 500 лучших суперкомпьютеров за последние 18 лет
- Перспективные суперкомпьютеры тера- и экзафлопного масштаба
- Программа darpa uhpc
- Основные положения программы uhpc
- Экзафлопсный барьер: проблемы и решения
- Проблемы
- Эволюционный путь
- Революционный путь
- Кто победит?
- Примеры перспективных суперкомпьютеров Суперкомпьютер фирмы ibm Mira
- Стратегические суперкомпьютерные технологии Китая