Цього року intel ® розгорнула небувалу активність. Здається, досі не траплялося такого, щоб нам довелося аналізувати два послідовних дизайну клієнтських процесорів протягом всього декількох місяців. Але все колись буває в перший раз, і сьогодні – цілком підходящий момент, щоб попередньо познайомитися з процесорами alder lake, хоча попереднє покоління rocket lake все ще залишається недавньою новинкою.

Насправді до виходу alder lake поки ще є трохи часу. Процесори цього сімейства, по всій видимості, будуть анонсовані на спеціальному заході intel innovation 27-28 жовтня, тобто через місяць. Однак майбутній анонс представляється занадто грандіозною подією, щоб не підготуватися до нього заздалегідь. Адже на цей раз вихід нових процесорів буде означати і зміну платформи, і зміну мікроархітектури, і навіть в якомусь сенсі зміну всієї концепції багатопотокових обчислень. Саме тому ми вирішили зібрати і систематизувати всю наявну інформацію, що стосується alder lake, заздалегідь, з тим щоб по закінченні місяця зустрічати ці процесори у всеозброєнні, володіючи всім набором необхідних теоретичних знань.

На щастя, intel вже розкрила досить багато подробиць про будову і внутрішній устрій alder lake під час презентацій intel accelerated і intel architecture day 2021. Завдяки цьому сьогодні ми в рамках партнерського проекту з компанією intel зможемо поговорити про майбутні споживчих процесорах, грунтуючись виключно на перевірених даних з перших рук.

#alder lake з висоти пташиного польоту

Вихід процесорів alder lake незалежно від того, наскільки вони виявляться успішні, стане дуже великою подією для всього процесорного ринку. Справа не тільки в тому, що в них intel серйозно оновить мікроархітектуру і додасть підтримку принципово нових типів пам’яті і зовнішніх інтерфейсів, але ще і в тому, що вони стануть втіленням зовсім іншої концепції багатопотокових обчислень, вдаватися до якої в масових x86-процесорах поки ще ніхто не намагався. Йдеться про те, що alder lake отримають гібридну будову і будуть грунтуватися на ядрах двох типів одночасно – продуктивних (p-ядрах) і ефективних (e-ядрах). Їх об’єднання в одному обчислювальному пристрої, за задумом розробників, повинно дозволити домогтися недосяжною раніше гнучкості як в сенсі сфери застосовності таких процесорів, так і з точки зору співвідношення продуктивності та енергоефективності.

Гібридний підхід big.little вже давно використовується в процесорах з архітектурою arm, і ідея intel, яка буде втілена в alder lake, чимось нагадує цю схему. За задумом intel, великі продуктивні ядра слід кидати на вирішення високопріоритетних завдань переднього плану, що вимагають короткого часу реакції, в той час як маленькі і енергоефективні ядра можуть зайнятися фоновими процесами. Крім того, всі типи ядер можна об’єднати для вирішення одного завдання, що дозволить досягти максимального рівня швидкодії, принаймні в теорії.

При цьому обидва типи ядер в alder lake отримали нові мікроархітектури, з якими ми досі не стикалися. Продуктивні ядра засновані на мікроархітектурі golden cove, яка є подальшим розвитком cypress cove (з rocket lake) і willow cove (з tiger lake). А ефективні ядра мають мікроархітектуру gracemont, яка виросла з процесорів atom і є подальшим розвитком мікроархітектури tremont, що застосовувалася як в експериментальних процесорах lakefield, так і в більш зрозумілих pentium (silver) і celeron серій n і j з кодовими іменами jasper lake і elkhart lake.

Важливим завданням, яке intel ставила перед собою при розробці alder lake, було створення не тільки двох типів ядер, але і більш широкого набору різноманітних конструкційних блоків, які могли б дозволити легко збирати різні за призначенням споживчі процесори для різних ринкових сегментів і з різними характеристиками: як високопродуктивні настільні, так і мобільні і навіть ультрамобільні.

Незважаючи на закладену в дизайні модульність, в процесорах alder lake поки не застосовується тайлова топологія – аналог чіплетів у баченні intel. Такий спосіб складання компанія візьме на озброєння трохи пізніше. Замість цього різні варіанти alder lake конструюються на одному монолітному напівпровідниковому кристалі. Але для зручності розробники спеціально підігнали розміри складових частин alder lake один до одного, і, наприклад, одне продуктивне p-ядро приблизно відповідає за площею зібраним в кластер чотирьом ефективним e-ядрам. Подібні пропорції витримуються і для інших елементів процесора (для графічного ядра, контролера пам’яті, контролера pcie та ін.)- це якраз і забезпечує різноманіття і гнучкість конфігурацій.

Невід’ємною частиною майбутніх процесорів alder lake, як і раніше, залишилося графічне ядро. Intel передбачила два варіанти графіки: gt1 з 32 виконавчими пристроями для настільних процесорів і gt2 c 96 пристроями для мобільних застосувань. Вбудовані gpu базуються на графічній архітектурі 12-го покоління, тобто вони відносяться до класу xe lp і приблизно відповідають за можливостями графічного ядра процесорів tiger lake. У варіанті gt2 вбудована графіка, як очікується, зможе забезпечити прийнятну ігрову продуктивність в дозволі 1080p (з низькими настройками якості) і буде підтримувати 12-бітний конвеєр відтворення відео. Однак в десктопні процесори потрапить лише більш простий варіант gpu.

Відсутність кардинальних оновлень в графічному ядрі повинен компенсувати новий контролер пам’яті з підтримкою відразу чотирьох типів sdram. Він може працювати як з новими ddr5 – 4800 і lpddr5-5200, так і зі старою пам’яттю ddr4-3200 і lpddr4x-4266. Природно, всі чотири типи пам’яті будуть підтримуватися не одночасно: вибір того чи іншого варіанту буде відбуватися на етапі проектування конкретної платформи. Логічно очікувати, що підтримка ddr5 sdram в першу чергу з’явиться у високопродуктивних десктопах (умовно кажучи, заснованих на чіпсетах z-серії), в той час як рішення середнього рівня продовжать спиратися на звичну ddr4 – і lpddr4x-пам’ять. І так буде тривати до тих пір, поки ціна модулів ddr5 буде істотно перевищувати вартість ddr4.

Блок інтерфейсу pci express, який інженери intel спроектували для alder lake, також містить серйозні інновації. Вперше в споживчому сегменті він наділений підтримкою протоколу pcie 5.0, який забезпечує чергове подвоєння пропускної здатності і дозволяє забезпечити графічного слота pcie x16 смугу 64 гбайт/с. В той же час для підключення nvme-накопичувачів процесорний контролер пропонує лише інтерфейс pcie 4.0 x4, якого, втім, достатньо для будь-яких представлених на ринку ssd. Крім того, підтримка pcie 5.0 буде присутня виключно в настільних версіях alder lake. Процесори, віднесені до мобільного сегменту, отримають інший контролер pcie, в якому можливості будуть якимось чином урізані.

Але є і зворотні приклади: деякі конструкційні блоки alder lake призначаються виключно для мобільних варіантів cpu. До їх числа відносяться, наприклад, контролер thunderbolt 4 або співпроцесор обробки зображень ipu. Вони вбудовуватися в настільні версії процесорів не будуть.

Всі елементи alder lake, включаючи різні ядра, графіку і фрагменти l3-кеша, контролери пам’яті і pcie, а також усі інші блоки, як і раніше, об’єднані в одне ціле за допомогою двобічної кільцевої шини, що в цій реалізації має пропускну спроможність до 1000 гбайт/с. Схожий варіант кільцевої шини вже використовувався в мобільних tiger lake, проте в нових процесорах intel пообіцяла додаткові оптимізації, спрямовані на зниження затримок.

Ще одне велике нововведення стосується технологічного процесу виробництва. Alder lake стануть першими чіпами intel, які будуть випускатися по техпроцесу intel 7 – до недавнього перейменування він фігурував під назвою 10 нм enhanced superfin. Мова тут йде про другий етап оптимізацій процесу з 10-нм нормами, який повинен забезпечити поліпшення питомої продуктивності на ват на 10-15 % щодо минулої версії техпроцесу 10 нм superfin. Хоча раніше техпроцес intel 7 вважався 10-нм, по щільності розміщення транзисторів на кристалі він або порівнянний, або перевершує 7-нм техпроцес інших виробників, що якраз і дало виробнику моральне право перейменувати технологію в intel 7. Так, згідно з даними wikichip, колишній 10-нм техпроцес intel забезпечує розміщення 100,76 млн транзисторів на мм2, в той час як 7-нм процес tsmc упаковує на тій же площі тільки 91,2 млнТранзистор.

Користуючись даною виробничою технологією, intel збирається упаковувати в напівпровідникові кристали alder lake до восьми продуктивних і восьми ефективних ядер одночасно. Це означає, що максимальне число ядер в майбутніх процесорах досягає 16, але такі конфігурації будуть пропонуватися тільки для настільних платформ. Досить незвично, що максимальний 16-ядерний процесор зможе виконувати одночасно не 32, а тільки 24 потоки, а обсяг його кеш-пам’яті третього рівня складе 30 мбайт.

Таке дивне поєднання числа ядер і потоків обумовлено тим, що p-ядра мають підтримку технології hyper-threading, в той час як e-ядра її позбавлені. Більш того, вони працюють на різних тактових частотах і володіють різними за обсягом і організації кешами. Все це означає, що паспортні характеристики різноманітних моделей alder lake можуть багатьом здатися дивовижними: в залежності від кількості тих чи інших ядер конкретні cpu будуть отримувати дуже незвичні комбінації числа потоків і ядер, частот і обсягу кеш-пам’яті.

На даний момент intel розкрила три базові конструкції напівпровідникових кристалів alder lake, націлені на три різних сегмента: високопродуктивні настільні процесори alder lake-s, які будуть встановлюватися в нове покоління материнських плат з процесорним роз’ємом lga1700; мобільні процесори alder lake-p з тепловим пакетом від 12 до 35 вт у виконанні bga type3; ультрамобильные alder lake-m в корпусі bga type4 hdi з тепловим пакетом від 7 до 15 вт, призначені для ультрабуків. Кристал процесорів alder lake-s містить вісім p-ядер, вісім e-ядер і графіку gt1. У alder lake – p число p-ядер обмежується шістьма, але зате використовується продуктивна графіка gt2. А в alder lake-m передбачається лише два p-ядра, але все ті ж вісім e-ядер і gt2 gpu.

Судячи з усього, першими на ринок прийдуть процесори alder lake-s для настільних систем. Їх модельний ряд очолюватиме процесори core i9 з ядерною формулою 8 + 8, а також, за непідтвердженою поки інформацією, в нього можуть увійти процесори core i7 з формулою 8 + 4, два варіанти core i5 з формулою 6 + 4 або 6 + 0, і, можливо, процесори core i3 зі схемою ядер 4 + 0. Окремо необхідно підкреслити, що такий запис числа ядер у вигляді суми двох доданків використовується непроста. Підсумовувати кількість p-і e-ядер неправильно: intel не збирається підносити старші alder lake в якості 16-ядерних пропозицій, вони швидше будуть позиціонуватися як просунуті восьмиядерники з додатковими енергоефективними ядрами. Тому, наприклад, не варто дивуватися складу серії core i5, де одночасно будуть представлені процесори з 10 і з 6 ядрами: число e-ядер не вважається визначальним фактором і може варіюватися у сусідніх моделей.

Строго кажучи, alder lake – не перші x86-процесори, що об’єднують ядра двох різних типів. Раніше intel вже випускала гібридні енергоефективні процесори lakefield, де одне ядро sunny cove сусідило з чотирма ядрами tremont. Однак вони не отримали помітного визнання і, хоча були представлені тільки в другому кварталі минулого року, вже зняті з виробництва. Своєю сумною долею вони частково зобов’язані проблемам з їх функціонуванням в windows 10, яка не завжди правильно розподіляла навантаження по різнорідним ядрам, що призводило до зниження продуктивності. Спочатку передбачалося, що для пристроїв на базі lakefield буде призначена спеціальна операційна система windows 10x, в якій будуть закладені адаптовані алгоритми, однак, на жаль, її випуск microsoft скасувала.

Ця історія викликає побоювання, що подібне може статися і з alder lake. Адже цілком очевидно, що для правильної роботи гібридних процесорів планувальник операційної системи повинен розрізняти типи ядер і динамічно відправляти вимогливі навантаження на ядра, здатні запропонувати високу продуктивність, попутно звільняючи їх від фонових завдань. Але на цей раз intel все передбачила. Щоб допомогти планувальнику краще розібратися в структурі процесора і домогтися максимальної ефективності роботи, в alder lake з’явилася апаратна технологія intel thread director, яка буде відповідати за розподіл навантаження спільно з новою операційною системою windows 11.

Суть thread director полягає в тому, щоб передати планувальнику ос докладні телеметричні дані про поточний стан всіх ядер, завдяки яким він зможе приймати обґрунтовані рішення про прив’язку потоків до конкретних ядер. Дана технологія, як обіцяє intel, повинна обходити всі труднощі, які можуть виникати при практичній експлуатації гібридних процесорів з ядрами різних типів. І найголовніше, вона абсолютно прозора для програмного забезпечення і не вимагає внесення будь-яких змін в програмний код.

Основною частиною intel thread director є вбудований в процесор мікроконтролер, який збирає докладні низькорівневі дані про кожному ядрі процесора, включаючи температуру, енергоспоживання, завантаження та інші параметри, і з мінімальними затримками передає їх планувальнику операційної системи. Крім цього, thread director безперервно, з наносекундною дискретністю, відстежує інструкції, які виконуються кожним ядром, а також аналізує завантаження їх виконавчих пристроїв. Базуючись на всій цій інформації, планувальник отримує можливість перемикати потоки між ядрами повністю обгрунтовано і відповідно до зрозумілої стратегії, суть якої полягає в тому, щоб забезпечити завданням переднього плану і додатків, чутливим до затримок, максимальну швидкість виконання. Наприклад, більш високий пріоритет при переміщенні на продуктивні ядра отримують потоки, які оперують векторними інструкціями, а потоки, що працюють зі скалярними інструкціями, з більшою ймовірністю відправляються на енергоефективні ядра. Але в будь-якому випадку вся ця система динамічна і перекидання потоків з одних ядер на інші залежить від маси різних факторів, і в тому числі від видів навантаження, виконуваної на процесорі в кожен конкретний момент часу.

Intel навела кілька прикладів того, як працює thread director в деяких окремих випадках. Наприклад, коли всі ядра вільні, одиничний процес завжди буде відправлений відразу p-ядро, однак якщо в момент старту процесу всі такі ядра зайняті, він почне роботу на e-ядрі і переміститься на p-ядро тільки тоді, коли thread director вважатиме таке перенесення доцільним. В іншій ситуації, коли процесор завантажується все зростаючим числом рівноправних потоків, вони спочатку відправляються по одному на кожне вільне p-ядро, потім по одному на кожне вільне e-ядро, а потім по одному на віртуальні ядра, існуючі за рахунок технології hyper-threading.

Окремо обмовляється і те, що прив’язка потоків до ядер не постійна, і вони можуть активно переміщатися з одного типу ядер на інший прямо в процесі роботи. Це може відбуватися як через зміну характеру навантаження всередині обчислювального потоку, так і в ситуаціях, коли кількість вимогливих потоків починає перевищувати число продуктивних ядер. У цій ситуації деякі потоки будуть перенесені на e-ядра з метою вивільнити потужності під те навантаження, яка більше потребує обчислювальних потужностях в кожен конкретний момент часу.

Існуючі до цих пір процесори і операційні системи не обмінювалися інформацією, щоб оптимізувати розподіл обчислювальних ресурсів: планувальник спирався виключно на дані про пріоритети потоків, призначених їм або самою операційною системою, або розробниками програми. Тепер же за рахунок технології thread director робота планувальника повинна стати більш самостійним, тонким і динамічним процесом. Такий симбіоз апаратних і програмних засобів вселяє надію, що різнорідні ядра гібридних процесорів alder lake будуть задіяні саме так, як задумано intel, – щоб забезпечувати максимальний рівень швидкодії.

Разом з тим впровадження thread director додає нові можливості і для розробників пз. Доступні для процесорів alder lake розширення бібліотек powerthrottling api вводять для потоків додаткові атрибути якості обслуговування, завдяки яким автори програм при бажанні зможуть розмічати створювані потоки. Крім того, для потоків, які свідомо здатні працювати на енергоефективних ядрах і не потребують високих обчислювальних потужностях, введена окрема маркування. Відомо, що різні компоненти windows 11, включаючи браузер edge, будуть використовувати описані розширення, що ще раз відображає близьку співпрацю intel з microsoft в питанні створення і підтримки гібридної процесорної архітектури.

На жаль, intel не стала ділитися докладною інформацією про роботуThread director, тому поки нам доведеться прийняти на віру той факт, що завдяки цій технології потрібне навантаження дійсно буде відправлятися на потрібні ядра. Втім, процесори alder lake дозволять відключити e-ядра, якщо у користувача виникнуть сумніви в доцільності їх залучення до роботи.

Говорячи про розподіл потоків по ядрах гібридного процесора, intel робить особливий упор на нову операційну систему windows 11 з оптимізованим планувальником. Проте alder lake повинні прийнятно працювати і без реалізованого в цій операційній системі тісної взаємодії між alder lake і планувальником. Intel вказує, що і в старій операційній системі windows 10 нові процесори зможуть працювати цілком нормально. Хоча технологія thread director в windows 10 не підтримується, ця операційна система спирається на механізм intel hardware guided scheduling, який теж здатний перемикати потоки з урахуванням різнорідності ядер, просто не настільки точно і з дещо нижчою частотою. Проте, за твердженням intel, помітити неозброєним оком різницю в продуктивності alder lake в windows 10 і windows 11 буде досить складно.

Про те, що енергоефективні ядра gracemont не мають 512-бітних регістрів і не підтримують набір інструкцій avx-512, відомо досить давно, і це здається цілком природним, якщо згадати, що реалізація векторних операцій вимагає як істотного транзисторного бюджету, так і помітних витрат енергії. Але тут же виникає закономірне питання про те, як в цьому випадку буде будуватися робота з цими інструкціями в процесорах alder lake в цілому? відповідь на це питання виявився дуже простим – ніяк. Хоча в продуктивних ядрах willow cove в складі alder lake регістри і виконавчі пристрої з 512-бітної розмірністю закладені в мікроархітектурі, виконання інструкцій avx-512 в них заблоковано на апаратному рівні, щоб не викликати зайвих колізій при диспетчеризації потоків, що працюють з такими командами.

І це означає, що з появою процесорів alder lake в підтримуваних споживчими cpu розширеннях набору інструкцій стався відкат назад. Незважаючи на те, що підтримка avx-512 була реалізована і в мобільних процесорах tiger lake, і в десктопних rocket lake, в новому поколінні процесорів її знову не буде.

В якості якоїсь компенсації intel додала в alder lake підтримку підмножини інструкцій vnni для вирішення завдань, пов’язаних з нейронними мережами. І ці інструкції, як не дивно, можуть виконуватися як на продуктивних, так і на енергоефективних ядрах. Однак це зовсім не ті інструкції vnni, які раніше вважалися частиною набору avx-512 і оперували 512-бітними регістрами. Оскільки в alder lake ці регістри заблоковані, інструкції vnni в них оперують 256-бітними регістрами і як би існують в рамках підмножини команд avx2. Іншими словами, набір інструкцій avx2-vnni, який реалізований в alder lake, відрізняється по розрядності від введеного раніше набору avx – 512 vnni і вимагає спеціальної підтримки з боку по. З цієї причини розраховувати на те, що введені в alder lake унікальні інструкції vnni стануть активно використовуватися в програмних продуктах, не доводиться.

#продуктивні ядра в подробицях

Найбільш важлива частина процесорів alder lake – нові p-ядра golden cove. Вони не тільки займають на напівпровідниковому кристалі найзначнішу частину площі, але і несуть левову частку відповідальності за продуктивність процесора, так як беруть на себе виконання ресурсоємних завдань переднього плану. Тому зовсім не дивно, що перед розробниками мікроархітектури golden cove було поставлено завдання не просто створити найшвидше з усіх існуючих x86-ядро, а домогтися явної переваги в питомій продуктивності над попередниками. Однак мова не йшла про перемогу за всяку ціну: процесори на базі ядер golden cove повинні мати можливість роботи в широкому асортименті пристроїв, починаючи від ноутбуків і закінчуючи серверами, а значить, крім високої продуктивності величезне значення має і можливість масштабування характеристик. Наприклад, в разі цікавлять нас в першу чергу споживчих процесорів alder lake важливу роль відіграє оптимізація мікроархітектури як під однопоточні навантаження, так і під багатопотокові ресурсомісткі додатки для роботи з цифровим контентом.

Intel довгий час спиралася на ядро skylake і взялася за серйозну переробку своєї найуспішнішої і самої довгоживучої мікроархітектури порівняно недавно. Але, почавши з вийшла в 2019 році мікроархітектури sunny cove, компанія почала проводити різні поліпшення незвично бадьоро. Вона відразу ж сформулювала принцип ” ширше, глибше, розумніше» і відповідно до нього стала послідовно перекроювати старе ядро skylake. Мікроархітектура golden cove, таким чином, вже друга ітерація поліпшень. І в ній ми знову бачимо більш глибокі буфери переупорядкування, більшу кількість фізичних регістрів, більш широке вікно вибірки інструкцій і збільшену кількість виконавчих портів. До цього списку додається також поліпшення передбачення розгалужень, що знижує простої виконавчих пристроїв через неправильне прогнозування переходів.

Сама intel оцінює результативність внесених в мікроархітектуру змін дуже високо. Згідно з даними компанії, середня питома продуктивність ядра golden cove (на однаковій частоті) вище продуктивності ядра cypress cove, що застосовується в процесорах rocket lake, на 19 %. При цьому в деяких завданнях приріст в межах однієї зміни поколінь може бути набагато вище і досягати величини до 60 %. І все це звучить дуже багатообіцяюче, адже завдяки новій виробничій технології intel 7 процесори alder lake не повинні відставати від попередників і по тактових частотах.

Більш того, приріст питомої продуктивності в кожній новій версії мікроархітектури на 19% став для intel, схоже, таким собі стандартом. Такий же крок вперед був зроблений при переході від skylake до cypress cove, і це означає, що показник ipc (питома продуктивність на такт) ядра golden cove вище, ніж у skylake, десь на 40-45 %. В результаті від golden cove цілком можна очікувати помітної переваги і над конкуруючими архітектурами, зокрема над zen 3.

Помітні зміни в мікроархітектурі golden cove починають простежуватися вже у вхідній частині виконавчого конвеєра. В першу чергу варто відзначити збільшення числа декодерів-з 4 до 6, що дає можливість ядру декодувати по 6 інструкцій за такт. Для того щоб декодери не простоювали без роботи, в golden cove з 16 до 32 байт збільшився обсяг вибірки коду. Крім цього, intel попрацювала і в напрямку підвищення ефективності кеша мікрооперацій, де зберігаються вже декодовані інструкції. Якщо порівнювати з cypress cove, то його обсяг збільшився з 2,25 до 4 тис.записів, а пропускна здатність зросла до 8 мікрооперацій за такт замість 6. Все це дозволяє насичувати наступні після декодування етапи виконавчого конвеєра-диспетчер і планувальник – з помітно більш високою інтенсивністю.

Для поліпшення можливості роботи зі складним кодом intel подвоїла число записів, що відносяться до 4k-сторінок, в itlb, а також поліпшила передбачення переходів, збільшивши максимальну розмірність буфера цілей розгалужень з 5 до 12 тисяч записів. Крім того, цей буфер отримав додаткову інтелектуальність – заснований на машинному навчанні алгоритм, здатний підлаштовувати його місткість під поточне навантаження для оптимізації продуктивності і енергоспоживання.

Диспетчер, що займається прийомом і розміщенням мікрооперацій, а також перейменуванням регістрів, отримав збільшену ширину-в нього тепер входить 6, а не 5, як раніше, рівноправних блоків. Механізм позачергового виконання став ефективнішим за рахунок збільшення відповідного буфера з 352 до 512 записів. І в сумі всього цього виявилося цілком достатньо для завантаження роботою збільшеного числа виконавчих пристроїв, які згруповані в golden cove в 12 портів (проти 10 портів у cypress cove). Крім того, intel згадала ще один новий механізм, завдяки якому деякі інструкції можуть бути виконані ще на етапі перейменування регістрів, що має додатково розвантажити виконавчий домен.

Один з доданих в golden cove виконавчих портів відданий під роботу з командами alu і lea. Таким чином, нове ядро має відразу п’ятьма цілочисельними пристроями, здатними виконувати по одній команді за такт.

Крім того, окремо тут же з’явилися два додаткових пристрої для швидкого векторного додавання (fadd).

Поліпшення торкнулися і l1d-кеша, який отримав три порти завантаження замість двох, що були раніше, а також більш місткі буфери завантаження і вивантаження. ПопутноIntel на 50% збільшила місткість l1 tlb. Зміни в алгоритмі роботи l1d торкнулися і попередню вибірку даних, в якій тепер використовується чотири аналізатори замість двох, що повинно дати ефект при роботі в багатопотоковому середовищі. При цьому обсяг l1d кеша в ядрі golden cove залишиться на рівні 48 кбайт – як і в sunny cove.

Що стосується кеш-пам’яті другого рівня, то в alder lake на кожне p-ядро буде покладатися l2-кеш об’ємом 1,25 мбайт з низькою латентністю і можливістю розширення в перспективі до 2 мбайт. Як і у випадку l1d, intel обіцяє для нього поліпшену передвиборну кампанію даних, засновану на виявленні шаблонів запитів до пам’яті.

Підводячи підсумок всьому перерахованому, можна констатувати, що в порівнянні з минулим поколінням мікроархітектури у ядра golden cove на 50% розширився декодер, на 25 % — стадія підготовки мікрооперацій і на 45 % – буфер позачергового виконання. Плюс все це приправлено істотними поліпшеннями в механізмі передбачення переходів. Як перераховані удосконалення виглядають в чисельному вираженні, можна подивитися в наведеній таблиці.

Залишається лише додати, що в ядрах golden cove з’явився ще один цікавий елемент – додатковий і повністю самостійний мікроконтролер для управління живленням, який забезпечує збір телеметрії з мікросекундної дискретністю, що на кілька порядків покращує точність всього моніторингу в порівнянні зі старою схемою. За словами intel, підвищена точність дозволяє керувати енергоспоживанням і продуктивністю cpu з меншими затримками, що в кінцевому підсумку підвищує середні частоти ядра під навантаженням без шкоди для енергоспоживання і тепловиділення. Вбудований мікроконтролер для управління живленням в golden cove застосовується вперше-подібних рішень в ядрах intel раніше не було. І він припав в alder lake як не можна більш до речі-той же мікроконтролер активно задіюється і в роботі технології thread director.

⇡#енергоефективні ядра в подробицях

Енергоефективні ядра в alder lake відіграють роль акомпанементу для ядер golden cove. Вони не виконують сольних партій, але зате разом з ними p-ядра, образно висловлюючись, повинні зазвучати більш переконливо. E-ядра ґрунтуються на мікроархітектурі gracemont і являють собою подальший розвиток процесорів atom, хоча і пішли від них досить далеко. Проте концепція залишилося тією ж: на першому місці в них стоїть компактність і економічність. Але при цьому, за твердженням intel, розробникам вдалося спроектувати ядра gracemont такими, що з точки зору питомої продуктивності на ват вони помітно перевершують skylake, займаючи на кристалі в чотири рази менше місця, ніж p-ядра, і до того ж відрізняються високою енергоефективністю.

Згідно з власними даними intel, отриманими при однопотоковому цілочисельному навантаженні, в разі зрівнювання енергоспоживання gracemont виявляється продуктивніше skylake на 40 %, а в разі рівності продуктивності – споживають на 40% менше.

Інший показник, який наводять розробники, стосується чотирьохпотокової продуктивності: два ядра skylake з підтримкою hyper-threading програють чотирьом ядрам gracemont в продуктивності близько 80% при рівному споживанні, а при однаковій швидкодії споживають на 80% більше енергії.

Втім, наведені порівняння зовсім не означають, що e-ядра процесорів alder lake краще skylake в усіх відношеннях. Насправді в наведених intel порівняннях зроблено кілька припущень. По-перше, продуктивність ядер порівнюється виключно при простій цілочисельної навантаженні, саме під яку, очевидно, оптимізовані ядра gracemont. По-друге, у випадку чотирипоточного тесту одиночним ядрам skylake протиставляються пари ядер gracemont, які hyper-threading не підтримують. Але тим не менш явна сильна сторона gracemont полягає в тому, що їх по продуктивності все-таки можна зіставляти з skylake, незважаючи на те, що вони в рази менше за площею.

Досягнуто це за рахунок глибокої переробки минулих енергоефективних мікроархітектур intel. В останніх двох поколіннях, tremont і gracemont, кардинально видозмінилася і стала глибше і ширше вхідна частина виконавчого конвеєра, плюс значно зросла кількість виконавчих портів. Більш того, в gracemont навіть додалися 256-бітові регістри і виконавчі пристрої для реалізації наборів команд avx2 і avx2-vnni. Тобто e-ядра пішли від попередників з мікроархітектурою goldmont дуже далеко: не тільки принципово збільшилася продуктивність, але і за можливостями e-ядра підтягнулися до «великих» побратимів.

Здвоєний шестивходовий декодер, який здатний декодувати два потоки з темпом по три x86-інструкції за такт, з’явився ще в ядрі tremont. Він добре зарекомендував себе там, і intel перенесла його і в gracemont. Але в новому поколінні мікроархітектури він доповнений більш містким l1i-кешем інструкцій об’ємом 64 кбайт, який навіть перевершує за обсягом l1i-кеш продуктивного ядра golden cove. Зростання обсягу кеша стався одночасно зі збільшенням до 5000 записів буфера цілей розгалужень, який працює більш ефективно тоді, коли цілі розгалужень знаходяться в кеші, – це призвело до підвищення результативності передбачення переходів. Крім того, на базі l1i-кеша працює ще один механізм – «декодування за запитом», який частково замінює відсутній в gracemont кеш мікрооперацій і частково зберігає історію попередніх декодувань, дозволяючи при помилках в передбаченні переходів уникати повторного декодування деяких фрагментів одного разу обробленого потоку інструкцій.

Далі, в мікроархітектурі gracemont передбачений п’ятивходовий блок розміщення інструкцій і восьмипортовий блок їх відставки, які працюють з виріс до 256 записів буфером переупорядкування інструкцій. А потім в конвеєрі знаходиться 17 виконавчих портів-воістину гігантський по ширині виконавчий домен. І хоча всі порти в даному випадку помітно простіше, ніж в» великих ” ядрах, на цілочисельних інструкціях цей масив дійсно може забезпечувати більш високий показник ipc, ніж вісім портів ядра skylake. Однак потрібно розуміти, що, незважаючи на його ширину, одночасно в виконавчий домен gracemont можна завантажувати не більше п’яти мікрооперацій за такт, і саме це обмежує темп виконання програмного коду.

У виконавчому домені gracemont передбачено чотири незалежних цілочисельних пристрої загального призначення, і два з них вміють виконувати операції множення і ділення. Крім того, ядро має необхідні ресурси, щоб брати два переходи за такт. Для роботи з векторними інструкціями і числами з плаваючою точкою в gracemont виділено три порти, два з яких здатні обробляти операції множення і ділення. В цілому конструкція виконавчого домену енергоефективного ядра передбачає використання великої кількості вузькоспеціалізованих виконавчих портів, в той час як у продуктивних ядрах концепція інша. Там портів менше, але вони більш універсальні і орієнтовані на більш різнорідні операції.

При роботі з кеш-пам’яттю ядро gracemont може ініціювати дві операції завантаження і дві операції вивантаження даних за такт, однак, на відміну від p-ядер, тут ці операції 128-бітні. Обсяг l1d-кеша при цьому теж менше-всього 32 кбайт. Відрізняється і організація кеш-пам’яті другого рівня. Її обсяг досягає 2 мбайт, але він розділяється на розташовані поруч і скомпоновані в єдиний кластер чотири ядра. Зв’язок l2-кеша з кожним з ядер в цій схемі здійснюється власним 512-бітним каналом. Для спільної роботи ядер з l2-кешем в мікроархітектурі передбачений спеціальний диспетчер, причому алгоритм його роботи налаштований на рівномірний розподіл ресурсів по ядрах, а не на забезпечення низької латентності для якихось окремих потоків. І це відображає, що конструкція e-ядер в першу чергу заточена під багатопотокові навантаження.

Мікроархітектура gracemont передбачає, що такі ядра компонуються в чотирьохядерні кластери, які займають на напівпровідниковому кристалі alder lake приблизно стільки ж місця, скільки одне продуктивне ядро golden cove. Це дає можливість додавати в сучасні процесори велику кількість порівняно простих обчислювачів, які до того ж володіють дуже хорошою енергоефективністю. Для того щоб максимально розвинути цю ідею, intel знизила кластерам e-ядер напругу живлення, і тому ядра gracemont в складі alder lake будуть працювати на порівняно невисокій частоті. Однак передбачається, що при необхідності їх продуктивність можна масштабувати в широких межах – вони повинні добре переносити підвищення напруги і відповідати на нього зростанням верхньої межі допустимої частоти.

#настільніПроцесори alder lake-s і платформа lga1700

До приходу на ринок сімейства процесорів alder lake-s, націленого на застосування в продуктивних десктопах, залишається всього кілька тижнів, і уявити собі, як буде виглядати відповідний модельний ряд, можна вже зараз. Стратегія intel з виведення alder lake-s на ринок передбачає випуск в першу чергу платформи і процесорів для ентузіастів, в той час як більш масові і доступні модифікації з’являться пізніше. Це означає, що на ринок спочатку прийдуть настільні процесори старших серій core i9, core i7 і core i5, а також єдиний флагманський чіпсет z690.

Для використання в першій черзі десктопних процесорів intel підготувала напівпровідниковий кристал з 8 ядрами golden cove, двома чотирьохядерними кластерами gracemont і графікою gt1 з 32 виконавчими пристроями. Але повністю цей арсенал буде пущений в хід виключно в процесорах серії core i9. Представники молодших серій отримають менше число ядер, причому різниця між core i9 і core i7 буде визначатися числом e-ядер, а в серії core i5 будуть частково відключені як p-ядра, так і e-ядра.

Зразки alder lake-s. Джерело: expreview.com

Тактові частоти p-ядер в alder lake-s, імовірно, виявляться на звичайному для процесорів intel рівні: в турборежимі вони зможуть брати висоту близько 4,9-5,3 ггц при однопоточному навантаженні і 4,5-5,0 ггц – при багатопотоковому. Що стосується e-ядер, то цільові частоти для них очікуються в інтервалі 3,4-3,9 ггц. Тепловий пакет нових процесорів також навряд чи когось здивує: 125 вт – для моделей з розблокованими множниками і 65 вт – для звичайних.

Зате помітно виросте в обсязі l3-кеш. У процесорах поколінь rocket lake і comet lake на кожне ядро припадав блок l3-кеша об’ємом 2 мбайт. У alder lake обсяг таких блоків, що примикають до p-ядер, збільшився до 3 мбайт. Також 3-мбайт блоками оснащені і чотирьохядерні кластери e-ядер, тому максимальний обсяг l3-кеша у старших моделей alder lake досягне 30 мбайт. Сам кеш при цьому неінклюзивний, тобто в ньому не дублюється вміст вищестоящої кеш-пам’яті.

Окремо слід сказати про ціни. В цілому intel не планує якось помітно змінювати свою цінову політику. І це означає, що представники серії core i9 отримають рекомендовану вартість приблизно $500-$600, процесори core i7 можна буде купити за $350-$450, а core i5 будуть продаватися за $200-$300. Іншими словами, компанія не вважає, що впровадження гібридної архітектури і додавання e-ядер заслуговує якоїсь помітної націнки.

Передбачувані характеристики перших представників серії наведені в таблиці, але варто мати на увазі, що ці дані – неофіційні і попередні.

Настільні процесори сімейства alder lake-s розраховані на використання в материнських платах з новим роз’ємом lga1700, який відрізняється від актуального lga1200 не тільки збільшеною кількістю контактів, але і прямокутної, а не квадратної формою і злегка виросли геометричними розмірами. Зміни в першу чергу обумовлені появою підтримки нових типів пам’яті і інтерфейсу pcie 5.0, а в другу – ускладнилася схемою підведення живлення, оскільки p-ядра і e-ядра працюють від різних напруг.

Процесорне гніздо lga1700. Джерело: bilibili.com

До того ж змінюється і висота процесора разом з процесорним гніздом – alder lake-s буде приблизно на міліметр менше підніматися над материнською платою, ніж попередники. Це потребує використання для відведення тепла систем охолодження з іншими кріпленнями, і тому кріпильні отвори в lga1700-платах будуть розташовані трохи іншим чином – квадратом 78 × 78 мм замість 75 × 75 мм. Таким чином, більшість кулерів від старих комп’ютерів для alder lake-s не підійде, принаймні без заміни деталей.

З огляду на те, що контролер пам’яті alder lake-s підтримує як ddr4, так і ddr5 sdram, материнські плати для цих процесорів будуть випускатися зі слотами dimm або під ту, або під іншу пам’ять. Перший час плати з підтримкою ddr5 sdram будуть, очевидно, представлені лише дорогими моделями, оскільки такі модулі після їх появи у продажу будуть коштувати помітно дорожче, ніж ddr4. Однак ентузіасти можуть все одно віддати перевагу плати з ddr5 dimm, так як нова пам’ять здатна забезпечити вдвічі більш високу пропускну здатність.

Зразок alder lake-s. Джерело: pcinq.com

Для десктопних платформ на базі alder lake-s компанією intel готується нове сімейство наборів логіки 600-ї серії. У ньому будуть реалізовані істотно розширені можливості для підключення зовнішніх пристроїв. Так, старший з майбутніх чіпсетів, z690, який прийде на ринок першим, зможе запропонувати навіть власні лінії pcie 4.0.

На додаток до 16 ліній pcie 5.0 (для відеокарти) і 4 ліній pcie 4.0 (для накопичувача), за які відповідає процесор, в системах на основі z690 додасться 12 чіпсетних ліній pcie 4.0, що в кінцевому підсумку дозволить встановити в систему до чотирьох найсучасніших nvme-накопичувачів. Крім того, в z690 також закладена і підтримка 16 ліній pcie 3.0, тобто в цілому чіпсет має в своєму розпорядженні 28 лініями pcie, а платформа цілком – 48 лініями. Ще одна важлива зміна, безпосередньо пов’язане з появою в чіпсеті pcie 4.0, – переклад з’єднання між процесором і чіпсетом на інтерфейс dmi 4.0 x8 з подвоєною смугою пропускання. Це дозволить забезпечити достатню пропускну здатність для роботи всього набору чіпсетних ліній pcie.

Набір системної логіки intel z690. Джерело: pcinq.com

Серед інших поліпшень z690 також можна відзначити збільшення числа 20-гігабітних портів usb 3.2 gen 2 x 2 і поява (поки тільки в теорії) підтримки модулів wi-fi 7 через інтерфейс cnvi.

⇡#висновки

Уявити, який рівень продуктивності зможуть в кінцевому підсумку запропонувати процесори alder lake-s, зараз досить складно. Ніяких витоків інформації з цього приводу, яким дійсно можна було б довіряти, поки не було, а оцінки питомої продуктивності мікроархітектур, зроблені самим виробником, не дають конкретних орієнтирів.

З упевненістю можна говорити лише про одне: alder lake-s будуть виразно (і істотно) швидше попередників. Відповідають за це продуктивні ядра golden cove, і вони напевно не підведуть, оскільки в них закладений цілий комплекс поліпшень, прямо збільшує продуктивність. Число таких ядер буде не менше, ніж в rocket lake, не знизяться і тактові частоти. Однак не варто забувати, що з ядрами golden cove в майбутніх процесорах сусідять і енергоефективні ядра gracemont, які теж виглядають досить непогано, але як буде вести себе в реальності гібридна архітектура, спрогнозувати досить складно. Intel запевняє, що сучасні операційні системи в змозі розібратися з різнотипними ядрами, але на ділі все це потребує доскональної перевірки.

Крім того, корективи в продуктивність платформи може внести і ddr5 sdram. Часто перехід на нові типи пам’яті з більш високою пропускною здатністю обертається серйозним збільшенням затримок, і перехід від ddr4 до ddr5 – якраз такий випадок. Тому поки ми утримаємося від будь-яких прогнозів і будемо з нетерпінням чекати кінця жовтня, коли intel повинна розкрити додаткові подробиці про перспективне сімействі cpu.

Головний же висновок, який потрібно зробити сьогодні, – якісний: intel вийшла з багаторічної сплячки і запустила процес інтенсифікації інновацій. Прогрес, досягнутий в настільному сегменті, не може не вразити. Сімейство чіпів rocket lake, в якому знайшли застосування ядра cypress cove, прийшло на ринок всього шість місяців тому, але сьогодні ми вже говоримо про їх послідовників – ядрах golden cove і принципово нових процесорах alder lake-s.

І більше того, тепер компанія вже не збирається зупинятися. Вже в кінці наступного року вона планує представити подальше велике оновлення споживчої платформи разом з процесорами meteor lake, де число нововведень буде точно не меншим, ніж в alder lake. У ньому intel почне застосовувати тайлову (багаточіпову) топологію, напівпровідникові кристали, випущені за технологією intel 4, і нові ітерації процесорних мікроархітектур. Так що присвячені новим процесорним дизайнам статті, подібні до цієї, будуть тепер виходити на нашому сайті помітно частіше.