Superdome для бізнес-критичних додатків

  1. архітектура
  2. Надійність і доступність
  3. Конфігурації і продуктивність
  4. література

Нинішній інтерес до архітектури сервера HP Superdome 2 на платформі Intel Itanium 2 викликаний, зокрема тим, що широке поширення кластерних систем призвело до того, що масштабні SMP-сервери взагалі з'являються не часто Нинішній інтерес до архітектури сервера HP Superdome 2 на платформі Intel Itanium 2 викликаний, зокрема тим, що широке поширення кластерних систем призвело до того, що масштабні SMP-сервери взагалі з'являються не часто. Однак кластерний підхід до побудови високопродуктивної системи не завжди прийнятний, хоча б тому, що деяким програмам може знадобитися оперативна пам'ять занадто великої місткості. Крім того, не всі програми вміють працювати в паралельному оточенні кластерних архітектур, тому великі системи із загальним полем пам'яті (архітектури SMP або ccNUMA) актуальні і сьогодні - відносно недавно крім HP Superdome 2 з'явилося дещо не кластерних систем: SGI Altix UV на базі мікропроцесора Intel Xeon, IBM Power 795 на базі Power7, IBM zSeries / z10.

Якщо коротко охарактеризувати Superdome 2, то слід насамперед звернути увагу на наступне: найвищу надійність цих систем - середній час між збоями (MTBF) інфраструктури cервер перевищує 300 років; збільшення в 2-4 рази продуктивності на тій же площі, що і в Superdome; поліпшення на 55% відносини вартість / продуктивність в розрахунку на 1 Вт [ 1 ].

Архітектура серверів HP Superdome

Багатопроцесорні сервери Superdome з архітектурою ccNUMA допускають установку до 64 процесорів, і в лінійці що випускаються компанією HP серверів вони є найпотужнішими. Комп'ютери Superdome орієнтовані на виконання як науково-технічних, так і критичних для бізнесу додатків. Які перспективи даних систем?

Як випливає з даних тестів SPECint_rate2006 і SPECfp_rate2006, Itanium 9300 / Tukwilla відстає і від Power7, і від процесорів архітектури x86, а деклароване Intel збільшення продуктивності вдвічі обумовлено в першу чергу збільшенням числа ядер. У Tukwilla були реалізовані давно проголошені Intel ідеї злиття компонентів інфраструктури Xeon і Itanium. Зокрема, загальними c Nehalem EX стали канали межпроцессорной зв'язку QPI (QuickPath Interconnect), інтерфейси роботи з пам'яттю - SMI (Scalable Memory Interconnect) і SMB (Scalable Memory Buffer), а також набір мікросхем Intel (концентратор введення-виведення, IOH). Все це дозволило знизити вартість систем на базі Itanium 2, але сьогодні цей мікропроцесор відстає по продуктивності від Xeon. Однак, як відзначають в Intel, Tukwilla орієнтований для роботи з бізнес-критичними додатками, що забезпечується рядом його особливостей, які гарантують високий рівень відмовостійкості, а також підтримкою мультітредовой обробки (HyperThreading) - (два тред на ядро) і технології віртуалізації Intel VT.

Крім однотактного кеша L1 (по 16 Кбайт для даних і команд), в мікроархітектурі Tukwilla представлені кеші L2 (256 Кбайт і 512 Кбайт) і кеш L3, ємність якого залежить від моделі, наприклад для 9350 - це 24 Мбайт (по 6 Мбайт на ядро ). Ємність оперативної пам'яті, що становить 1024 Тбайт. У Tukwilla застосовуються два вбудованих контролера пам'яті, що забезпечують пропускну здатність 34 Гбайт / с, і таке рішення довело свою ефективність. Застосування високопродуктивного послідовного диференціального інтерфейсу SMI в Tukwilla передбачає роботу з технологією DDR3.

Тактова частота старшої моделі 9350 складає 1,73 ГГц, яка завдяки технології Turbo Boost, відомої по Xeon, може бути збільшена до 1,86 ГГц. Tukwilla coдержіт 2 млрд транзисторів (цей рівень досягнутий вперше в світі) і проводиться за технологією 65 нм. TDP процесора складає 185 Вт, забезпечуються просунуті засоби термічного управління процесором і пам'яттю, а для зменшення енергоспоживання передбачені кошти оптимізації напруги і тактової частоти.

У планах Intel випуск двох наступних поколінь Itanium 2: Poulson і Kittson. Перший буде проводитися за технологією 32 нм, мати більшу кількість ядер і підтримуваних тредов, а також більш високі частоти. Обидва покоління мікропроцесорів будуть сумісні з роз'ємів з Tukwilla, що відкриває можливості для майбутньої модернізації Superdome 2. Безсумнівно, що запланований прогрес в технології виготовлення - щодо сьогоднішніх 65 нм - дозволить збільшити тактову частоту, число ядер і загальну продуктивність.

архітектура

Шасі Superdome 2 побудовано на стандартній стійці 18U, а сам сервер може містити кілька корпусів (вузлів). Загальна схема Superdome 2 заснована на об'єднанні через комутатори осередків (сell), реалізованих у формі лез, що містять процесори, пам'ять і базові засоби введення-виведення (I / O), які можуть доповнюватися під'єднують через комутатори засобами розширення введення-виведення IOX (I / O Expansion Enclosure) [ 1 ].

Архітектурну основу для такої структури становить набір мікросхем HP sx3000, що прийшов на зміну використався раніше sx2000. Новий набір складається з трьох мікросхем: контролер леза Agent, комутаторна мікросхема (crossbar switch) і адаптер шин PCI Express. Плати комутаторів і осередків-лез вставляються в слоти пасивної системної плати (midplane).

Кожне лезо ( Мал. 1 ) Містить два процесорних гнізда, дві безпосередньо з'єднані між собою мікросхеми Agent, по 16 слотів пам'яті RDIMM на кожен роз'єм, IOH, два Двопортовий адаптера 10 Gigabit Ethernet і три слота плат в мезонін конструктиві. У корпусі 18U може міститися до 8 лез, що містять 16 процесорних роз'ємів, 256 слотів DIMM, 32 порту 10 Gigabit Ethernet і 24 слота дочірніх плат.

Між собою і Agent мікропроцесори пов'язані п'ятьма двонаправленими каналами QPI з піковою пропускною здатністю 19,2 Гбайт / с кожен. Пікова пропускна здатність пам'яті, локально приєднаної до кожного мікропроцесора, складає 34 Гбайт / с або 68 Гбайт / с на осередок, що вдвічі вище, ніж в sx2000. Кожен мікропроцесор пов'язаний з 4 масштабованими буферами пам'яті (Scalable Memory Buffers, SMB), і вже через них відбувається обмін даними з RDIMM. Архітектура sx3000 дозволяє кожному процесору безпосередньо звертатися до локальної пам'яті, не "консультуючись» при цьому з іншими мікропроцесорами і Agent. Подібне пряме під'єднання дозволяє зменшити затримки і поліпшити масштабування.

Мікропроцесор Tukwilla має два незалежних контролера пам'яті, кожен з яких працює через інтерфейс SMI c двома SMB. Рядок кеша розщеплюється між двома модулями DIMM, тому для досягнення максимальної пропускної здатності необхідно мати мінімум 8 DIMM. У Superdome 2 підтримуються просунуті засоби розшарування пам'яті (interleave) - низькорівневе розшарування забезпечують обидва Agent і всі шість каналів, що зв'язують їх з комутатором, при доступі до пам'яті віддаленого леза, а мікросхеми IOH разом з Agent підтримують тонкозернистого розшарування сторінок. Крім того, можливий розподіл пам'яті для процесорного роз'єму. Така схема показала свою ефективність в серверах стандартної архітектури. Для зменшення затримок звернення до віддаленої оперативної пам'яті в лезах застосовується кеш L4 ємністю 64 Мбайт (два кеша по одному для кожного центрального процесора), який використовує схему зі зворотним записом, побудований за технологією вбудованої пам'яті (eDRAM) і під'єднується через Agent. Коли рядок кеша розділяється всіма чотирма ядрами одного мікропроцесора, то у відповідному кеші L4 міститься тільки одна копія рядка, а коли одне ядро ​​має доступ до рядка кеша з читання та по запису, то ця ж рядок використовується іншим ядром того ж мікропроцесора, а їх узгодження йде через Agent.

Застосування Agent забезпечує розширену масштабованість по числу мікропроцесорів, інтерфейс до засобів вводу / виводу, когерентність кеш, а також керування кешем L4 ( Мал. 1 ). Кожен Agent має по три канали з пропускною спроможністю 13 Гбайт / с, що йдуть до комутатора системи (Crossbar Fabric), і, відповідно, на плату леза припадає лише шість каналів. Ці канали є диференціальними двонаправленими, використовують технологію SERDES і об'єднують в собі 10 послідовних каналів, забезпечуючи 5,2 млрд передач в секунду (GigaTransfer, GT / s). Кожен Agent має ще один такий же канал з IOH. Власне, через ці концентратори приєднуються все апаратні засоби підсистеми вводу-виводу, яка базується на застосуванні диференціальних каналів PCI-E (v.2) х8; кожна мікросхема IOH забезпечує шість таких інтерфейсів з пропускною спроможністю 5 GT / s кожен.

Як видно з Мал. 1 , Схема з'єднання процесорів, Agent, IOH і комутатора забезпечує надмірність всіх основних вузлів осередки, резервування шляхів і можливості балансування навантаження, що, безумовно, значно підвищує надійність Superdome 2.

Кожен Agent використовує три канали до системного комутатора, разом шість каналів на осередок. Комутатор системи реалізований у вигляді набору комутаторних плат-модулів XFM (Crossbar Fabric Module), що вставляються в слоти серединної плати. Всього в одному вузлі є до восьми осередків і до 4 XFM. Вузлів, в свою чергу, може бути до чотирьох, і вони з'єднуються між собою кабелями через порти системного комутатора.

З 20 портів неблокірующіх комутатора XFM 12 є «внутрішніми» - вони з'єднуються з осередками. Решта 8 «зовнішніх» портів призначені для з'єднання з IOX або з'єднання вузлів між собою за допомогою кабелів. Для конфігурацій Superdome 2 c одним вузлом модулі XFM не мають прямих з'єднань один з одним - вони з'єднуються через осередки або IOX. Для максимальної конфігурації з 32 осередками вони задіють 192 порту на системному комутаторі (фабриці).

Кожен Agent осередки приєднаний до «своєї» парі XFM, так що будь-яка осередок з'єднана з усіма чотирма XFM. Аналогічна ситуація має місце для IOX: кожна з двох мікросхем IOH з'єднується зі своєю парою модулів XFM, що забезпечує резервування і балансування навантаження.

Загальна схема побудови системного комутатора забезпечує необхідну для відмовостійкості надмірність. Пікова пропускна здатність портів комутатора становить 12-13 Гбайт / с і залежить від обладнання, що підключається (Agent або IOX) [ 3 ]. Помноживши на 6 цю величину в розрахунку на осередок, отримуємо 78 Гбайт / с.

На серединну плату (точніше було б назвати її «верхній» системною платою) припадає 8U із загальної висоти вузла (18U), а що залишилися 10U обсягу відведені для апаратних засобів комутаторів I / O, що з'єднуються з нижньою системною платою. Ця нижня частина вузла аналогічна HP c7000 - тут розташовуються, зокрема, засоби управління (Onboard Administrator, OA), модулі комутаторів Fibre Channel (8 Гбіт), Infiniband, Ethernet, SAS і вентилятори. Верхня частина вузла є унікальною для Superdome 2 надбудовою.

У Superdome 2 є можливість прямої передачі даних між ядрами мікропроцесора без звернення до пам'яті (з кешу в кеш) за три «стрибка» (hops) комутатора. Іншою найважливішою, що залежить від межсоединения характеристикою загальної архітектури ccNUMA-системи є величини затримок за зверненням в локальну і віддалену пам'ять. Для SMP-системи вся пам'ять є однорідною - програмісту немає необхідності враховувати різні швидкості обігу.

Підсистема вводу / виводу є в осередках і в корпусах IOX висотою 4U ( Мал. 2а ). Концентратори IOH використовують два канала PCI-E x8 до мережевих адаптерів 10 Gigabit Ethernet і три таких же каналу до слотів дочірніх плат введення / виводу. І мережеві адаптери, і інтерфейси дочірніх плат з'єднуються з портами комутаторів введення / виведення c забезпеченням відмовостійкості завдяки дублюванню з'єднань. Крім того, до IOH підключається керуючий контролер осередку iLO.

Завдяки двом каналам між IOH і Agent загальна пікова пропускна здатність введення / виведення осередку дорівнює 26 Гбайт / с, а підтримувана в дуплексному режимі - 11,8 Гбайт / с (в Superdome - 8,2 Гбайт / с). Масштабування підсистеми вводу / виводу забезпечується шляхом підключення нових осередків, а додаткові корпусу IOX дозволяють не додавати нові осередки.

Кожна мікросхема IOH в IOX має по два канали і приєднується до двох різних платам XFM (рис. 2б). Ці канали до комутатора засновані на 10 послідовних з'єднаннях по 5 GT / s. Пікове значення пропускної здатності каналу становить 12,5 Гбайт / с, а підтримуване значення для дуплексной двобічної передачі - 5,7 Гбайт / с. Для всього IOX пропускна здатність становить 50 Гбайт / с. У структурі серверів Superdome модулі IOX були відсутні.

У структурі серверів Superdome модулі IOX були відсутні

Мал. 2б. Розширена підсистема введення / виводу

Надійність і доступність

Всі базові апаратні компоненти та шляхи, їх з'єднують, в Superdome 2 дубльовані, а всі основні апаратні компоненти допускають можливість гарячої заміни по схемі OLARD (OnLine Addition, Replacement, Deletion). Підвищення рівня доступності досягається завдяки застосуванню системи розбиття на розділи, а також засобів віртуалізації. В таблиці представлена ​​частина найбільш важливих і цікавих апаратних особливостей основних підсистем Superdome 2, що сприяють підвищенню відмовостійкості.

У підсистемі пам'яті застосовуються не тільки коди ECC, а й технологія SDDC (Single Device Data Correction, відома також під назвою Chipkill), що дозволяє обійти збої однієї мікросхеми в DIMM і DDDC (Double Device Data Correction), а також коригувати збої відразу в двох послідовних мікросхемах. Для пам'яті застосовується технологія scrubbing тестування і виправлення помилок одночасно з роботою додатків.

Ці та ряд інших апаратних удосконалень в Superdome 2 дозволили в 17 разів зменшити ймовірність поломки модулів DIMM і мінімізувати ризик пошкодження даних. Крім того, в самих процесорах зросла частка апаратури, контрольованої на наявність помилок, - засобами контролю покривається весь кеш і 70% можливих джерел збоїв ядер. За різними оцінками, надійність Tukwilla вдвічі вище, ніж у масових мікропроцесорів.

Застосування відмовостійких каналів в осередках, підсистемі введення / виведення і системному комутаторі означає високу доступність всіх апаратних розділів Superdome 2. Сервісне обслуговування каналів не вимагає зупинки системи, а видалення більшості компонентів, потенційно здатних викликати апаратних помилки підсистеми вводу / виводу, дозволило підняти час доступності Superdome 2 в 20-25 разів у порівнянні з попередньою модифікацією. Відмовостійкість підвищена і завдяки можливостям онлайн-ремонту компонентів підсистеми вводу / виводу.

Що стосується управління Superdome 2, то слід зазначити перенесення виявлення і реєстрації апаратних помилок з рівня операційної системи на прошивку (firmware) завдяки застосуванню засобів діагностики Analysis Engine, що дозволяють аналізувати збої, навіть якщо не можна завантажити розділ. Єдиною точкою входу для сервісного обслуговування Superdome 2 є (задублірованние) модулі засобів управління OA. Вся система і всі iLO осередків управляються через OA, які мають доступ і до засобів конфігурації розділів. Робота з OA може здійснюватися через командний рядок або Web-інтерфейс, причому до АТ можна звернутися, навіть якщо сервер не працює. Як деякого більш примітивного аналога такого підходу можна згадати плати IPMI в серверах стандартної архітектури.

Cами модулі OA, як і задублірованние модулі GPSM (Global Partitions Service Modules), що містять, зокрема, тактові генератори і засоби моніторингу блоків живлення і вентиляторів верхньої половини вузлів, допускають можливість гарячої заміни.

Конфігурації і продуктивність

Крім Itanium 9350, в Superdome 2 можуть застосовуватися моделі 9340 з тактовою частотою 1,6 ГГц і кешем L3 ємністю 20 Гбайт. Є три групи моделей серверів, що відрізняються числом процесорних роз'ємів (8, 16 і 32): Superdome 2 8s, -16s і -32s [1]. Старші моделі відрізняються також числом IOX - до 4 в Superdome 2 8s, і до 8 - в інших. Superdome 2 32s містять до 128 ядер і забезпечують сумарну пропускну здатність введення / виведення до 816 Гбайт / с, а продуктивність межсоединения досягає при цьому рекордного в індустрії показника - 1,248 Тбайт / с.

Сервери Superdome 2 можуть працювати c різними ОС, включаючи Windows Server 2008 R2, але основний слід вважати HP UX 11i - рекордні показники продуктивності були встановлені саме в цьому середовищі. На тестах TPC-H (для систем підтримки прийняття рішень) c ємністю зберігання в 1 Тбайт сервер Superdome 2 в конфігурації з 64 ядрами в середовищі HP-UX 11i v3 / Oracle 11g R2 Enterprise Edition досяг результату 140 181 QphH. Попередній рекорд - 123 323 QphH, що належить системі Superdome, був отриманий теж на 64 ядрах (32 мікропроцесора Itanium 2 9140N 1,6 ГГц).

Є ціла ієрархія засобів організації Superdome 2 у вигляді набору ізольованих розділів, в яких можна утворити віртуальні розділи vPars (c гранулярністю до одного ядра і однієї плати PCI-E). Застосовуючи засоби HPVM (HP Integrity Virtual Machines), можна досягти гранулярності менше одного ядра, а надійність забезпечується засобами HP UX SRP (Secure Resource Partitions) [ 4 ].

***

Сервери Superdome знайшли широке застосування при вирішенні найрізноманітніших обчислювальних проблем, включаючи ресурсомісткі завдання квантової хімії, що вимагають великих обсягів пам'яті на один процес, а використання Superdome 2 для таких завдань виявляється ще ефективніше. У будь-якому випадку, як випливає з аналізу архітектури, найбільш важлива область застосування Superdome 2 - критичні для бізнесу додатки. Виробник вказує на такі області застосування, як OLTP-обробка (велика ємність пам'яті дозволяє зберігати в ній таблиці бази даних), система підтримки прийняття рішень, завдання віртуалізації та консолідації серверів.

література

  1. R.Turner "Unleash Your Potential. New HP Integrity Servers", HP Presentation, Apr. 2010
  2. Intel Itanium Processor 9300 Series. Reference Manual for Software Development and Optimization ", Intel, Doc. № 323602-001, March 2010
  3. HP Superdome 2: The Ultimate Mission-Critical Platform, HP, June 2010
  4. New Features in Superdome 2 Partition Management, Technical white paper, HP 2010

Михайло Кузьмінський ( [email protected] ) - старший науковий співробітник установи РАН «Інститут органічної хімії ім. Н.Д. Зелінського »(Москва).

Таблиця.Деякі особливості Superdome 2 по забезпеченню відмовостійкості та доступностіПідсистемаОсобливості

Пам'ять ECC; SDDC; DDDC; scrubbing ОП; відмовостійкість каналів (скиди і повтор операцій); диференціація між CRC-помилкою каналу SMI і ECC-збоєм мікросхем пам'яті Процесори Виявлення і корекція помилок кешу; самолікування кешей L2, L3; застосування в технології виготовлення спеціальних засувок для боротьби з м'якими помилками (наприклад, від космічних променів); захист логіки ядер по парності і кодами ЕСС; просунуті засоби архітектури обробки помилок МСА; відновлення від МСА-помилок на рівні HP UX; виявлення і корекція помилок шляхів QPI (із застосуванням CRC, можливості повтору операції та ін.) Вентиляційні канали (введення / виведення, осередків і межсоединения) Повторення операції на канальному рівні; зменшення ефективної ширини збою каналу; гаряча заміна XFM; під'єднання IOX через XFM Комутатор Надлишкові канали до осередків; явна підтримка апаратних розділів Слоти I / O Виявлення і корекція помилок; ізоляція збоїв PCI в одному слоті; поліпшене відновлення після помилок I / O; підтримка багатьох шляхів; можливості OLARD для плат PCI-E. Набір мікросхем Виявлення і корекція помилок внутрішніх шляхів даних; застосування спеціальних засувок проти м'яких помилок; запасні рядки кешу в L4 Підтримка розділів і Інфраструктура системи nPartitions (апаратна і програмна ізоляція розділів); OLARD для осередків; надлишкові тактові генератори з гарячою заміною; повністю надлишкові шляху поширення синхросигналов; управління автоматичним обходом помилок і гарячою заміною (OA, GPSM); надмірність і автоматичний обхід помилок в межсоединения з пакетним протоколом; можливості ремонту без виключення декількох розділів; надмірність джерел живлення (2N); надмірність вентиляторів; пасивні системні плати; засоби Analysis Engine

Які перспективи даних систем?