logo search
3_Тексты лекций ПВС 2011

Процессор power6

Основные характеристики:

два ядера;

технологический процесс 65-нм;

максимальная тактовая частота — 4,7 ГГц;

количество транзисторов — более 790 млн.;

площадь — 341 кв. мм;

год выпуска – 2007.

На рис. 36 приведена структура процессора POWER6.

Рис. 32. Структура процессора POWER6.

Интерфейс ввода-вывода - 4 байта при чтении, 4 байта при записи. Может работать на ½ или 1/3 или 1/4 частоты процессора. Оперативная память - 400, 533, 667 (800) MHz DDR2 или 1066 MHz DDR3.

У процессора два суперскалярных ядра с поддержкой «одновременной многопотоковости» (Simultaneous Multithreading, SMT). Каждое ядро включает в себя два арифметических целочисленных устройства, два арифметических устройства с плавающей точкой и одно устройство для десятичной арифметики. Система команд POWER6 дополнена 50 новыми командами для выполнения десятичных операций и операций перевода из десятичной системы в двоичную и обратно. Процессор снабжен кэш-памятью второго уровня на 8 Мбайт. Предусмотрена поддержка общей для обоих ядер кэш-памяти третьего уровня емкостью до 32 Мбайт, двух контроллеров памяти, а также двухуровневого коммутатора SMP (Symmetric Multiprocessing). Процессор поддерживает наборы команд AltiVec (операции с плавающей точкой, выполняемые в режиме SIMD) и векторные операции ViVA-2 (Virtual Vector Architecture). На рис. 37 приведена упрощенная схема работы конвейера ядра.

Рис. 33.

Особо стоит отметить достижения, связанные с уменьшением энергопотребления. При удвоении производительности по сравнению с пройессором POWER5 за счет того, что частота увеличилась вдвое, а длину конвейера (показатель, определяющий супескалярность) удалось оставить прежней, рассеиваемая мощность осталась прежней.

Латентности кэш-памятей и оперативной памяти приведены в твблице 1.

Таблица 1.

L1

2 cycles

75 / 37,5 GB/s

L2

20-26 cycles

150 / 75 GB/s

L3

160 cycles

18,8 / 18,8 GB/s

Memory

450 cycles

4+ GB/s / core

Фирма IBM следует утверждению "Невозможно увеличить производительность системы, просто удваивая количество ядер на одном кристалле. Совершенно необходимо поднимать как рабочую частоту процессора, так и пропускную способность шины оперативной памяти".

Реализовав процессор POWER6, фирма IBM обошла фирму Intel в "гонке за гигагерцами" т.к. одноядерные процессоры фирмы Intel работают на частотах, не превышающих 3,8 Ггц, а новые поколения многоядерных процессоров немного преодолевают барьер в 3 Ггц.

Особенности процессора POWER7

Блок-схема процессора POWER7 приведена на рис. 34.

Восьмиядерный кристалл площадью 567 мм2 выполнен по проектным нормам 45 нм, что позволило разместить на кристалле 1,2 млрд транзисторов.

Объем кэш-памяти третьего уровня на кристалле составляет 32 Мбайт eDRAM. Это большой шаг вперед по сравнению с предыдущими поколениями процессоров линии POWER, где кэш располагался на отдельном чипе в многокристальном модуле.

Каждый процессор POWER7 может выполнять 32 параллельные задачи (с восемью ядрами и четырьмя потоками на ядро), что в четыре раза больше максимального числа ядер систем POWER6 и в восемь раз больше количества потоков у ядер, чем у систем на базе POWER6. Кристаллы имеют следующие тактовые частоты: 3; 3,3; 3,5; 3,55; 3,8 и 4,1 ГГц.

Рис. 34. Блок-схема процессора POWER7.

Каждое ядро POWER7 включает 12 исполнительных блоков, два блока обработки с фиксированной запятой, два блока хранения/загрузки, четыре блока с плавающей запятой (двойной точности), один векторный блок и один блок десятичной арифметики. Все ядра поддерживают внеочередное выполнение инструкций и обеспечивают двоичную совместимость с предыдущими моделями POWER. Помимо встроенной раздельной кэш-памяти для команд (32 Кбайт) и данных (32 Кбайт) первого уровня (L1) с каждым ядром плотно связана 256 Кбайтная кэш-память второго уровня (L2). Кроме того, на кристалле реализована общая кэш-память третьего уровня (L3) размером 32 Мбайт, которая выполнена на базе так называемой встроенной динамической памяти с произвольным доступом (embedded DRAM). При этом в данной памяти выделены 4-Мбайт сегменты для каждого ядра процессора. Разумеется, eDRAM работает медленнее, чем статическая память SRAM, но она может быть расположена ближе к ядрам процессора и использует более широкие пути передачи данных (что существенно снижает латентность). Кроме того, для реализации одной ячейки SRAM (статический триггер) необходимо шесть транзисторов, а ячейка eDRAM состоит всего из одного транзистора и одного конденсатора.

В микросхеме имеется двухканальный контроллер оперативной памяти стандарта DDR3. Пропускная способность оперативной памяти поддерживается на уровне 100 Гб/с, в режиме SMP – 360 Гб/с.

Режим TurboCore, высокооптимизированный для баз данных и других рабочих нагрузок, связанных с обработкой транзакций, выполняет свою функцию, работая только с четырьмя активными ядрами и концентрируя большую часть ресурсов всех восьми ядер на процессорном кристалле. После того как четыре пассивных ядра передают активным свою кэш-память и каналы обращения к оперативной памяти, появляется возможность увеличения тактовой частоты (до 4,1 ГГц); как следствие, наблюдается существенный прирост производительности в расчете на ядро.

Режим TurboCore будут поддерживать отдельные модели серверов. Когда режим TurboCore не задействован, все процессоры POWER7 работают в режиме MaxCore, максимум с восемью ядрами на разъем (сокет) и четырьмя потоками на ядро – 32 потока в целом.

Другая особенность процессоров POWER7 – так называемые интеллектуальные потоки (Intelligent Threads), которые могут варьироваться в широких пределах в зависимости от требований рабочей нагрузки. Используя большее число потоков в POWER7, системы на базе этих процессоров обеспечивают увеличенную общую производительность в результате параллельного выполнения большего числа задач, например, при ежеминутном мониторинге потребления электроэнергии миллионами потребителей в интеллектуальных сетях энергоснабжения. Для рабочих нагрузок, которым требуется очень быстрая «индивидуальная» обработка данных, – таких как анализ информации в реальном времени или управление транзакциями в СУБД – максимальная требуемая производительность может быть достигнута с меньшим числом потоков. Функция Intelligent Threads работает во всех процессорах POWER7 и способна эффективно повышать мощность и общую производительность системы.

В таблице 2 приведены основные характеристики ряда процессоров POWER, в том числе и процессора POWER7.

Таблица 2. Основные характеристики ряда процессоров POWER

Модель

POWER5

POWER5+

POWER6

POWER7

Проектные нормы, нм

130

90

60

45

Площадь кристалла,

кв. мм

389

245

341

567

Количество транзисторов, млн шт.

276

276

790

1200

Тактовая частота, ГГц

1,65

1,9

4+

3–4

Размер кэш-памяти L2

1,9 Мбайт (общая)

1,9 Мбайт (общая)

4 Мбайт/ядро

256 Кбайт/ядро

Размер кэш-памяти L3

36 Мбайт

36 Мбайт

32 Мбайт

4 Мбайт/ядро

Количество ядер

2

2

2

8

Количество потоков в одном ядре

2

2

2

4