Структуры несимметричных мвс с фирмы Intel Структурные особенности процессоров со структурой Nehalem
При разработке процессоров Nehalem изначально был избран модульный подход — был разработан набор базовых "кирпичей", которые можно собирать, чтобы создавать разные версии структуры (рис. 3).
Рис. 3. Модульный подход к реализации структуры Nehalem
Базовая структура следующая: многоядерный процессор, использующий три уровня кэш-памяти, встроенный контроллер памяти, а также высокопроизводительная система интерфейсов "точка-точка" для связи с периферией и другими процессорами в многопроцессорной конфигурации.
Многопоточность реализована по технологии Hyper-Threading. Технология Hyper-Threading позволяет использовать параллелизм на уровне потоков, чтобы оптимизировать нагрузку исполнительных блоков ядра, в результате чего на уровне приложений одно физическое ядро превращается в два виртуальных.
Чтобы поддерживать параллельное выполнение потоков, некоторые ресурсы, такие как регистры, дублированы. Другие ресурсы совместно используются двумя потоками, сюда входит вся логика внеочередного выполнения (буфер изменения порядка инструкций (instruction reorder buffer), исполнительные блоки и кэш). В процессоре доступно шесть исполнительных блоков, которые способны одновременно выполнять три операции работы с памятью и три операции вычисления. Если устройство выполнения не сможет обеспечить параллелизм инструкций на должном уровне, с загрузкой всех блоков, в конвейере появляются так называемые "пузырьки" — холостые такты (рис. 8).
SMT пытается обеспечить параллелизм инструкций из двух потоков, а не из одного, с целью максимально уменьшить число холостых тактов. Этот подход оказывается очень эффективным, когда два потока связаны с заданиями разной природы. С другой стороны, если два потока выполняют, например, интенсивные вычисления, это лишь увеличит нагрузку на те же самые вычислительные блоки, которые будут бороться между собой за доступ к кэшу. SMT в данной ситуации может даже негативно повлиять на производительность.
Рис. 8. Параллельное выполнение инструкций
В большинстве ситуаций влияние SMT на производительность — положительное, а себестоимость технологии по ресурсам невысокая, что и объясняет ее возвращение.
Для связи процессоров в многопроцессорной системе применяется технология под названием QuickPath Interconnect (QPI). Интерфейс QPI аналогичен интерфейсу HyperTransport, который уже на протяжении ряда лет используется в платформах фирмы AMD. На рис. 10 приведена функциональная схема QuickPath Interconnect.
Рис. 10. Функциональная схема QuickPath Interconnect
С технической точки зрения интерфейс QPI является двунаправленным с двумя 20-битными шинами, по одной на каждое направление, из которых 16 зарезервировано под данные, а оставшиеся четыре — под функции исправления ошибок или служебную информацию протокола. Это дает максимальную скорость 6,4 GT/s (млрд передач в секунду) или полезную пропускную способность 12,8 Гбайт/с, как на чтение, так и на передачу.
Интерфейс QPI предназначается для передачи данных на периферию а также для связи между несколькими процессорами в многосокетной конфигурации.
Число доступных интерфейсов QPI меняется в зависимости от ориентации на тот или иной сегмент рынка — от одного интерфейса для связи с чипсетом в односокетных конфигурациях до четырех для четырех-, восьмисокетных серверов. Это позволяет создавать полносвязные четырех-, восьмисокетные системы В четырехсокетной системе каждый процессор может получать доступ к любой области памяти через один «прыжок» (hop) QPI, поскольку каждый процессор напрямую подключен к трем остальным (рис. 10).
Наиболее производительная конфигурация процессора имеет встроенный трехканальный контроллер оперативной памяти DDR3. Встроенный контроллер памяти существенно снижает задержки доступа к памяти.
В предыдущих моделях процессоров фирмы Intel контроллер оперативной памяти находился в «северном» мосту и при добавлении в систему нового процессора доступная пропускная способность системы оставалась прежней.
При наличии встроенного в процессор многоканального контроллера оперативной памяти каждый новый дополнительный процессор увеличивает как емкость, так и пропускную способность оперативной памяти.
Доступ к локальной памяти производиться с самыми низкими задержками и самой высокой пропускной способностью. Доступ к удаленной памяти происходит через промежуточный интерфейс QPI, снижающий производительность (рис. 11).
Рис. 11. Пример построения системы на нескольких процессорах
Рис. 12. Варианты доступа к памяти
Влияние на производительность предсказать сложно, поскольку все зависит от приложения и операционной системы. Фирма Intel утверждает, что падение производительности при удаленном доступе по задержкам составляет около 70%, а пропускная способность снижается в два раза по сравнению с локальным доступом. Даже при удаленном доступе через интерфейс QPI задержки будут ниже, чем на предыдущих поколениях процессоров, где контроллер находился на северном мосту.
В процессорах имеется кэш-память трех уровней. Структура кэш-памяти в процессорах со структурой Nehalem приведена на рис. 13.
Рис. 13. Структура кэш-памяти в процессорах со структурой Nehalem
Кэш-память третьего уровня является инклюзивной: она содержит все записи из кэшей L1 и L2, таким образом, снижая трафик запросов.
Примечание. Инклюзивный кэш означает, что содержимое каждого кэша более низкого уровня является подмножеством содержимого кэша более высокого уровня.
Если ядро попытается получить доступ к данным и они отсутствуют в кэше L3, то нет необходимости искать данные в собственных кэшах других ядер — там их нет. Напротив, если данные присутствуют, четыре бита, связанные с каждой строчкой кэш-памяти (один бит на ядро), показывают, могут ли данные потенциально присутствовать (потенциально, но без гарантии) в нижнем кэше другого ядра, и если да, то в каком.
Эта техника весьма эффективна для обеспечения когерентности персональных кэшей каждого ядра, поскольку она уменьшает потребность в обмене информацией между ядрами.
Для МВС выпускаются четырех- и восьмиядерные процессоры со структурой Nehalem. Наиболее производительными процессорами (по состоянию на начало 2011 г.) являются процессоры линии Xeon Е7.
Основные их особенности:
содержат 8 вычислительных ядер:
обеспечивают обработку до 16 потоков одновременно за счет технологии Hyper-threading;
4 контроллера Quick Path Interconnect;
обеспечивают возможность создания 2-х, 4-х и 8-ми сокетных систем;
24 Мбайта общего кэша третьего уровня;
интегрированный четырехканальный контроллер оперативной памяти стандарта DDR3;
реализована технология автоматического разгона Intel Turbo Boost;
расширяемые буфер памяти и каналы оперативной памяти;
пропускная способность в 9 раз выше по сравнению с решениями предыдущего поколения;
поддерживают до 16 слотов оперативной памяти на один сокет. Общий объем адресуемой оперативной памяти – до 2 Тбайт;
в составе свыше 2 млрд. транзисторов;
производятся по 32 нм технологическому процессу.
Процессоры Xeon Е7 примерно на 40% быстрее процессоров Xeon 7500, которые имеют аналогичную структуру, но производятся по 45 нм технологическому процессу.
- Что такое параллельные вычислительные системы и зачем они нужны
- Некоторые примеры использования параллельных вычислительных систем Об использования суперкомпьютеров
- Классификация параллельных вычислительных систем
- Классификация современных параллельных вычислительных систем с учетом структуры оперативной памяти, модели связи и обмена Симметричные скалярные мультипроцессорные вычислительные системы
- Несимметричные скалярные мультипроцессорные вычислительные системы
- Массово параллельные вычислительные системы с общей оперативной памятью
- Массово параллельные вычислительные системы с распределенной оперативной памятью
- Серверы
- Требования к серверам Основные компоненты и подсистемы современных серверов
- Структуры несимметричных мвс с фирмы Intel Структурные особенности процессоров со структурой Nehalem
- Структуры мвс с процессорами Nehalem
- Мвс на базе процессоров фирмы amd
- Структура шестиядерного процессора Istanbul приведена на рис. 23.
- Примеры структур несимметричных мвс с процессорами линии Opteron Barcelona, Shanghai, Istanbul
- Сравнение структур мвс с процессорами Barcelona, Shanghai, Istanbul с мвс с процессорами со структурой Nehalem
- 12 Ядерные процессоры Magny-Cours
- Основные особенности 12-ти и 8-ми ядерных микросхем Magny-Cours
- Структуры мвс с процессорами Magny--Cours
- Перспективы развития процессоров фирмы amd для мвс
- Мвс на базе процессоров фирмы ibm power6, power7 Основные особенности процессоров power6, power7
- Процессор power6
- Структуры мвс на базе процессоров power4, power5
- Структуры мвс на базе процессоров power6, power7
- Требования к серверам
- Основные компоненты и подсистемы современных серверов
- Поддерживаемые шины ввода-вывода
- Raid контроллеры
- Сервер Superdome 2 для бизнес-критичных приложений
- Структура сервера
- Надежность и доступность
- Конфигурации и производительность
- Основные особенности симметричных мультипроцессорных систем?
- Векторные параллельные системы
- Скалярная и векторная обработка
- Основные особенности векторных параллельных систем
- Векторные параллельные системы sx-6, sx-7 фирмы nec
- Особенности вычислительной системы sx-7
- Параллельная векторная система Earth Simulator
- Cуперкластерная система
- Суперкомпьютер CrayXt5h
- «Лезвия» векторной обработки Cray x2
- «Лезвия» с реконфигурируемой структурой
- Массово параллельные вычислительные системы с скалярными вычислительными узлами и общей оперативной памятью
- Массово параллельные вычислительные системы с скалярными вычислительными узлами и распределенной оперативной памятью
- Cуперкомпьютеры семейства cray xt Семейство Cray xt5
- «Гибридные» суперкомпьютеры CrayXt5h
- «Лезвия» векторной обработки Cray x2
- «Лезвия» с реконфигурируемой структурой
- Развитие линии Cray хт5 – Cray xt6/xt6m
- Модель Cray xe6
- Процессор
- Коммуникационная среда с топологией «3-мерный тор»
- Реализация коммуникационных сред
- Операционная система
- Суперкомпьютер RoadRunner
- Топологии связей в массово параллельных системах
- Оценка производительности параллельных вычислительных систем
- Необходимость оценки производительности параллельных вычислительных систем
- Реальная производительность параллельных вычислительных систем Анализ «узких мест» процесса решения задач и их влияния на реальную производительность
- «Узкие» места, обусловленные иерархической структурой памяти
- Влияние на реальную производительность параллельных вычислительных систем соответствия их структуры и структуры программ
- Анализ реальной производительности («узких» мест) мвс с общей оперативной памятью
- Анализ реальной производительности («узких» мест) кластерных систем с распределённой оперативной памятью
- Какие «узкие места» процесса решения задач существенно влияют на реальную производительность параллельных вычислительных систем?
- Тенденции развития суперкомпьютеров. Список top500
- Что такое список тор 500 и как он создается?
- 38 Редакция списка (ноябрь 2011 г.)
- Коммуникационные технологии
- Архитектуры, модели процессоров и их количество в системах списка
- Основные тенденции развития суперкомпьютеров
- Перспективные суперкомпьютеры тера- и экзафлопного масштаба
- Производительность 500 лучших суперкомпьютеров за последние 18 лет
- Перспективные суперкомпьютеры тера- и экзафлопного масштаба
- Программа darpa uhpc
- Основные положения программы uhpc
- Экзафлопсный барьер: проблемы и решения
- Проблемы
- Эволюционный путь
- Революционный путь
- Кто победит?
- Примеры перспективных суперкомпьютеров Суперкомпьютер фирмы ibm Mira
- Стратегические суперкомпьютерные технологии Китая