Содержание
Начало. Knights Ferry (Рыцарский паром)
Развитие технологии. Knights Corner (Рыцарский уголок)
Пик прогресса и начало стагнации Phi. Knights Landing (Рыцарская высадка)
Продолжительная стагнация. Knights Hill, Knights Mill (Рыцарский холм, Рыцарская мельница)
Применение Xeon Phi
Суперкомпьютеры с Xeon Phi
Итоги
Xeon phi – особенный x86 процессор выпущенный в начале 2013 года. Сопроцессор выпускался по архитектуре Intel Many Integrated Core (MIC). Разработка была предназначена для вычислений очень узкого характера, например: Молекулярной динамической симуляции, прогноза погоды, ИИ, исследования нейросетей и их разработки. Intel хотела выпустить изначально GPGPU ускоритель, с чем в основном и связан его необычный внешний вид, но планы изменились, и был создан сопроцессор формата «Компьютер в компьютере» со своей операционной системой и вычислительными ресурсами.
Начало. Knights Ferry (Рыцарский паром)
Первые поколения Xeon Phi напоминали видеокарты. Сопроцессоры позаимствовали у GPU: PCI-e интерфейс, память GDDR5 и турбинное охлаждение. Xeon Phi не мог запускать привычную нам OS Windows, а работал на проприетарной версии Intel Linux без графического интерфейса. Команды сопроцессору поступали через консоль посредством SSH. Уникальной особенностью данного сопроцессора (а позже и полноценного процессора) являлось то, что на каждом ядре он имел по 4 потока. То есть имея в первом поколении 32 ядра, сопроцессор располагал сразу 128 вычислительными потоками. Для наилучшего понимания озвучим характеристики, чтобы понимать, с чем имеем дело.
Слайд Intel на тему разработки Intel Xeon Phi. Фото взято с презентации Intel.
Xeon Phi 1 поколения 2012 года разработки имели:
Наименование сопроцессора Прототип Xeon Phi
Число ядер/потоков 32 ядер / 128 потоков
Объем оперативной памяти 2GB GDDR5
TDP 300W
Технологическая норма 45 нм
Объем кэш памяти 32 x 256 KB L2
Интерфейс подключения PCI-E X16 2.0
Phi разительно отличается от классических Xeon. Начиная от форм-фактора исполнения, заканчивая памятью формата GDDR(графическая), она быстрее DDR, но и обладает своими ограничениями, что не позволяет использовать её в обычных системах. Выбор типа памяти был связан с “корнями” сопроцессора, а именно из идеи постройки GPGPU. Использование GDDR открывало возможность применять библиотеки TensorFlow и NAMD, что компания Intel находила крайне полезным для популяризации Phi. Сопроцессор обладал гигантским потреблением энергии (до 300W), ввиду чего был очень горячим и шумным. Также стоит отметить, что тактовые частоты до 1.2 ГГц являлись крайне скромными даже для серверного, многоядерного процессора и подходили для выполнения далеко не каждого приложения.
Напоминаем, что на момент выхода Phi, в продаже уже были Xeon E5 и Xeon E7, которые были дешевле и обладали внушительными частотами благодаря технологии TurboBoost. Интересным фактом можно отметить, что в Phi использовалась кольцевая шина для соединения процессора и памяти, для быстрого доступа друг к другу.
Xeon Phi не являлся решением для классического сервера, а предназначался для узкоспециализированных вычислений. За счёт большого количества потоков и отличного распараллеливания задач, процессор был незаменим для таких компаний, как: CERN, KISTI, Leibniz Supercomputing Centre.
Слайд с презентации Intel на тему первого поколения Xeon Phi на архитектуре Knights Ferry
Развитие технологии. Knights Corner (Рыцарский уголок)
Во втором поколении Xeon Phi, Intel занималась «полировкой» архитектуры и улучшением её на разных уровнях. Самым важным был переход на 22-нм, и заключение контрактов для создания суперкомпьютеров с применением множества ускорителей Xeon Phi. Intel приняли участие в создании суперкомпьютера вместе с компанией Cray и суперкомпьютера Stampede с планируемой производительностью 8 PFlops.
В общих чертах, успехи Intel можно назвать хорошими. Продукт обретает своего потребителя, а уникальная архитектура дает плоды.
Сопроцессор Intel Xeon Phi 5110P в варианте пасивной системы охлаждения
Xeon Phi 2 поколения выпущенные в 2013 году имели следующие характеристики:
Наименование сопроцессора Xeon Phi 5110P
Число ядер/потоков 60 ядер / 240 потоков
Объем оперативной памяти 8GB GDDR5
TDP 225W
Технологическая норма 22 нм
Объем кэш памяти 60 x 512 KB L2
Интерфейс подключения PCI-E X16 2.0
Intel Xeon Phi 5110P с кастомной системой охлаждения для проведения тестов в ServerFlow
Пик прогресса и начало стагнации Phi. Knights Landing (Рыцарская высадка)
Третье поколение изготавливалось по 14-нм техпроцессу. Xeon Phi в этом поколении наконец получил возможность быть как сопроцессором, так и полноценным процессором (CPU). Архитектура Knights Landing имела много заимствований у мобильной архитектуры Intel Atom. Нельзя пройти мимо энергопотребления ядер Knights Landing, ядро Xeon phi 7295 потребляло всего 4.4 Вата, что на момент выпуска сопроцессора было абсолютным рекордом в серверной отрасли. Был реализован интерфейс высокопроизводительной сети Intel Omni-Path первого поколения, что очень хорошо сказалось на скорости оптимизированных вычислений.
Слайд с презентации Intel на тему отличий между Host и PCI-E версией Knights Landing
Процессоры третьего поколения снабжались кристаллами MCDRAM памяти суммарным объемом до 16GB, что служило буферной памятью между ядрами и RAM. Структура памяти MCDRAM обладала высокими скоростями, около 400 гигабайт в секунду, что наилучшим образом влияло на производительность процессов.
Intel Xeon Phi с технологией Intel Omni-Path и распаяной MCDRAM памятью. Фото взято с презентации Intel.
К сожалению вышеуказанные преимущества меркнут перед одним недостатком.
Новая архитектура имела слишком мало доработок относительно обычных процессоров Atom. Она обладала сравнимой с Intel Atom производительностью на ядро и поддержкой AVX-512 инструкций.
Внушительные 72 ядра и 288 потоков не могли терпеть конкуренции относительно стремительно развивающихся сопроцессоров от Nvidia на архитектурах Maxwell и Pascal. Ускорители Tesla на базе CUDA и тензорных ядер по всем показателям были производительнее своих аналогов. Помимо улучшенной производительности Nvidia Tesla были совместимы с потребительским программным обеспечением, поскольку основаны на унифицированных ядрах CUDA. В то же время запуск кода на Xeon Phi требовал подготовки. В версии PCI-E - вам нужно было воспользоваться специальной библиотекой для C++, а в случае наличия отдельного процессора Phi, вам может потребоваться тщательная оптимизация кода под многопоточную архитектуру процессора.
В данном случае можно сказать, что процессоры Knights Landing были “Dead on Arrival” (Мертвый по прибытию).
Скриншот из CPU-Z Intel Xeon Phi 7210 на сокете LGA3647-1
Xeon Phi 3 поколения выпущенные в 2016 году имели следующие характеристики:
Наименование сопроцессора Xeon Phi 7290
Число ядер/потоков 72 ядро / 288 потоков
Объем оперативной памяти 16GB MCDRAM и До 384Gb DDR4 2133Mhz
TDP 245W
Технологическая норма 14 нм
Объем кэш памяти 36 x 1 MB L2
Интерфейс подключения LGA3647-1 Socket P1
Продолжительная стагнация. Knights Hill, Knights Mill (Рыцарский холм, Рыцарская мельница)
Дальнейшая судьба Xeon Phi чем-то похожа на развитие процессоров Intel Skylake до архитектуры Comet Lake (с 6 по 10 поколение). Происходили небольшие улучшения, например планировался релиз второго поколения Omni-Path в архитектуре Knights Hill(так и не был представлен), или улучшение производительности в задачах глубокого обучения в Knights Mill. В условиях стремительного роста конкуренции Intel не спешила снижать цены на свои разработки. Топовый Phi стоил 6000$, против видеокарты Nvidia Tesla P100, которая была кратно быстрее в данных вычислениях и при этом стоила даже немногим дешевле - 5699$.
Слайд Intel с анонсом так и не вышедшей архитектуры Knights Hill. Фото взято с презентации Intel.
Xeon Phi 4 поколения выпущенные в 2017 году имели следующие характеристики:
Наименование сопроцессора Xeon Phi 7295
Число ядер/потоков 72 ядро / 288 потоков
Объем оперативной памяти 16GB MCDRAM и До 384Gb DDR4 2400Mhz
TDP 320W
Технологическая норма 14 нм
Объем кэш памяти 36 x 1 MB L2
Интерфейс подключения LGA3647-1 Socket P1
Применение Xeon Phi
Чтобы разобраться с вопросом подключения Xeon Phi, нужно четко понимать, какая модель процессора/сопроцессора у вас на руках:
Сопроцессоры в виде PCI-E платы. Серии Xeon Phi 3100, 5100, 7100, 7200, 7205. Для работы с этой вариацией сопроцессоров вам потребуется любой компьютер со слотом PCI-E X16 и OS Windows или Linux дистрибутивом. Работа с модулем происходит через подключение и обращение к “внутренней” Intel Linux, развернутой на Xeon Phi. Подключаясь через SSH вы сможете в режиме терминала открывать различные совместимые пакеты. А высылая команды на исполнение кода из компилятора с Intel MPI Library, вы сможете в полной мере пользоваться ресурсами сопроцессора.
Процессоры на сокете LGA3647-1. Серии Xeon Phi 7200. Для работы такого рода процессоров требуется специализированная серверная материнская плата, например SuperMicro K1SPE на базе чипсета Intel C612. Стоит отметить, что система способна функционировать без оперативной памяти, поскольку процессоры оборудованы 16GB MCDRAM, которой достаточно для запуска OS. Для расширения ОЗУ потребуются модули DDR4 ECC RDIMM. Удивительно, что в SuperServer 5038K-i использовалось СЖО для охлаждения процессора. Поскольку Xeon Phi являются X86 процессорами, они без проблем запускают современные операционные системы.
Процессоры Xeon Phi с Omni-Path в Host версии. Фото взято с презентации Intel.
Суперкомпьютеры с Xeon Phi
Поговорим о профильном применении Xeon Phi в рамках построения суперкомпьютеров и сравним эти вычислительные кластеры с их конкурентами.
Нужно понимать, что ускорители Xeon Phi предназначены для использования в суперкомпьютерах и будет очень интересно сравнить системы на Xeon Phi и конкурентах.
Июнь 2015:
Суперкомпьютер Tianhe-2A. Источник: Wikipedia
Самым мощным суперкомпьютером был китайский Tianhe-2A. Он использовал Intel Xeon E5 2692v2 с сопроцессорами Xeon Phi 31S1P. Суперкомпьютер (Далее СК) имел производительность 33862,70 TFlop/s при потреблении 17808 kW.
Аналогом системы на Xeon Phi был Titan Cray XK7. CPU – Opteron 6274 в паре с ускорителями Nvidia K20x. Система обладала суммарной производительностью в 17590 TFlop/s при 8209 kW.
Наименование СК: Tianhe-2A(Xeon Phi 31S1P) Titan Cray XK7(Nvidia K20x)
Производительность 33862 TFlop/s 17590 TFlop/s
Потребление энергии 17808 kW 8209 kW
На момент 2015 года системы на базе CUDA имеют паритет вычислительной мощности относительно Xeon Phi систем.
2016 Июнь:
Суперкомпьютер Sunway Taihulight. Источник: TheNextPlatform
Китай представил новый суперкомпьютер без участия сопроцессоров Xeon Phi, Sunway TaihuLight на базе 260 ядерного RISC процессора Sunway SW26010. Он сумел кратно обогнать систему на Phi – Tianhe-2A. Sunway TaihuLight обладал производительностью в 93 014 TFlop/s. Что почти в 3 раза выше чем Tianhe-2A. Забавный момент, что потреблял новый СК 15 371 kW, Что меньше, чем СК на Xeon Phi на 2437 kW. Усугубляло ситуацию то, что в 2016 году случился релиз Nvidia Tesla P100 и P40, что фактически поставит под большой вопрос использование Xeon Phi.
Наименование СК: Tianhe-2A(Xeon Phi 31S1P) Sunway TaihuLight(Sunway SW26010)
Производительность 33862 TFlop/s 93014 TFlop/s(В 2.7 раза выше)
Потребление энергии 17808 kW 15371 kW(На 15% ниже)
Можно сделать вывод, что более современное RISC решение, оказалось более энергоэффективным и кратно более производительным.
2017 Июнь:
Суперкомпьютер Cray XC50 Piz Daint. Источник: Wordpress
В 2017 вступил в работу новый СК Cray XC50 – Piz Daint на базе Intel Xeon E5 2690v3 и Tesla P100, сильно пошатнувший позиции Phi. Он имел производительность в 19 590 TFlop/s. К тому же близится релиз Nvidia Volta GV100, которая до ужаса сильно сместит позиции сопроцессоров Xeon Phi на рынке.
Наименование СК: Tianhe-2A(Xeon Phi 31S1P) Cray XC50 Piz Daint(Tesla P100)
Производительность 33862 TFlop/s 19590 TFlop/s(В 2 раза ниже)
Потребление энергии 17808 kW 2272 kW(На 85% ниже)
Производительность на киловатт энергии 1,9TFlop/s за 1kW 8,6TFlop/s за 1kW(В 4.5 выше)
Суперкомпьютер Cray XC50 Piz Daint оказался кратно более энергоэффективным решением за счет использования ускорителей Tesla P100. В случае его масштабирования до энергоресурсов потребляемых СК Tianhe-2A, мир мог бы получить решение в 4.5 раза превосходящее вариант на Xeon Phi.
Июнь 2018:
Суперкомпьютер Power System AC 922. Источник: Wikipedia
Запуск СК Power System AC 922 Summit от IBM на базе процессоров Power9 с ускорителями Tesla V100 показал невероятную производительность в 122 300 TFlop/s и потреблении 8 806 kW. Этот вычислительный комплекс стал лидером по скорости вычислений среди СК.
Тем временем Tianhe-2A находится на 4 строчке в рейтинге суперкомпьютеров, с результатом 61 444 TFlop/s заменив ускорители Xeon Phi 31S1P на ускорители Matrix-2000 на основе RISC ядер. Эта замена помогла поднять производительность почти в 2 раза с 33,86 PFlop/s до 61,44 PFlop/s! На 3 месте обосновался еще один СК от IBM. Power System S922LC Sierra также использующий ускорители Nvidia Volta GV100. Он имел производительность 71 610 TFlop/s.
Наименование СК: Tianhe-2A(Matrix-2000 RISC many-core processor) Power System AC 922 Summit(Tesla V100)
Производительность 61444 TFlop/s 122300 TFlop/s(В 2 раза выше)
Потребление энергии 18482 kW 8806 kW(На 15% ниже)
Производительность на киловатт энергии 3,3TFlop/s за 1kW(выше в 2 раза по сравнению с Xeon Phi) 13.8TFlop/s за 1kW(Выше в 4 раза)
Июнь 2019:
Суперкомпьютер Cray XC40 Trinity. Источник: Wikipedia
2019 год стал для Xeon Phi финалом. Платформа стагнировала, улучшать модифицированные ядра Intel Atom стало некуда, архитектура объективно была «Мертвой» из-за очень слабой производительности ядер. Энергоэффективность Atom была единственным преимуществом Xeon Phi. Последним представителем Phi в 2019 году остался СК Cray XC40 Trinity. На борту были одни из самых совершенных Xeon Phi 7250. Производительность была весьма сомнительной в районе 20,16 PFlop/s мощности при потреблении 7 578 kW. Для сравнения, СК Piz Diant на уже устаревших на тот момент Tesla P100 имел 21,23 PFlop/s при потреблении в 2 384 kW.
Наименование СК: Cray XC40 Trinity(Xeon Phi 7250) Cray XC50 Piz Daint(Tesla P100)
Производительность 20160 TFlop/s 21230 TFlop/s
Потребление энергии 7578 kW 2384 kW(Ниже более чем в 3 раза)
Производительность на киловатт энергии 2,6TFlop/s за 1kW 8.9TFlop/s за 1kW(Выше в 3.4 раза)
Практически все производители суперкомпьютеров отказались от Phi из-за его неэффективности.
Июнь 2020:
Суперкомпьютер Supercomputer Fugaku. Источник: Wikipedia
Япония представила Supercomputer Fugaku основанный на ARM процессоре Fujitsu A64FX с производительностью в 415,53 PFlop/s, что было быстрее решения от IBM – Summit чуть более чем в 2.5 раза. На этом моменте история Xeon Phi в суперкомпьютерной отрасли обрывается. В следующих годах помимо Nvidia, заключительный удар нанесет AMD. Выпустив Процессоры EPYC и ускорители AMD Instinct MI250X, на которых будут созданы два самых мощных СК входящих в топ 1 и топ 3. Cray EX235a – Frontier обладающий 1 194 PFlop/s и Cray EX235a – LUMI обладающий 309.10 PFlop/s. Оба компьютера потребляют заметно меньше энергии нежели японский Fugaku. Frontier 22 703 kW против 29 899 kW у Fugaku. На момент 2020 года было понятно, что будущего у Xeon Phi нет.
Итоги
Intel создала продукт для достаточно узкой прослойки покупателей, по сути, из наработок GPGPU. По началу дела шли хорошо, были контракты, продукт находил своего пользователя и развивался. Тем не менее стагнация технологий Intel и выход мощных по тем временам Tesla P100, а затем и Volta GV100, сильно ударили по актуальности Xeon Phi. Intel вместо бурного развития технологий и изменения архитектуры, выбрала путь наименьшего сопротивления в виде “полировки архитектуры”, как и было в рамках семейства процессоров Skylake. Что погубило далеко не первый продукт Intel и пошатнуло позиции на рынке микропроцессоров.
Xeon phi – особенный x86 процессор выпущенный в начале 2013 года. Сопроцессор выпускался по архитектуре Intel Many Integrated Core (MIC). Разработка была предназначена для вычислений очень узкого характера, например: Молекулярной динамической симуляции, прогноза погоды, ИИ, исследования нейросетей и их разработки. Intel хотела выпустить изначально GPGPU ускоритель, с чем в основном и связан его необычный внешний вид, но планы изменились, и был создан сопроцессор формата «Компьютер в компьютере» со своей операционной системой и вычислительными ресурсами.
Начало. Knights Ferry (Рыцарский паром)
Первые поколения Xeon Phi напоминали видеокарты. Сопроцессоры позаимствовали у GPU: PCI-e интерфейс, память GDDR5 и турбинное охлаждение. Xeon Phi не мог запускать привычную нам OS Windows, а работал на проприетарной версии Intel Linux без графического интерфейса. Команды сопроцессору поступали через консоль посредством SSH. Уникальной особенностью данного сопроцессора (а позже и полноценного процессора) являлось то, что на каждом ядре он имел по 4 потока. То есть имея в первом поколении 32 ядра, сопроцессор располагал сразу 128 вычислительными потоками. Для наилучшего понимания озвучим характеристики, чтобы понимать, с чем имеем дело.
Слайд Intel на тему разработки Intel Xeon Phi. Фото взято с презентации Intel.
Xeon Phi 1 поколения 2012 года разработки имели:
Наименование сопроцессора
Прототип Xeon Phi
Число ядер/потоков
32 ядер / 128 потоков
Объем оперативной памяти
2GB GDDR5
TDP
300W
Технологическая норма
45 нм
Объем кэш памяти
32 x 256 KB L2
Интерфейс подключения
PCI-E X16 2.0
Phi разительно отличается от классических Xeon. Начиная от форм-фактора исполнения, заканчивая памятью формата GDDR(графическая), она быстрее DDR, но и обладает своими ограничениями, что не позволяет использовать её в обычных системах. Выбор типа памяти был связан с “корнями” сопроцессора, а именно из идеи постройки GPGPU. Использование GDDR открывало возможность применять библиотеки TensorFlow и NAMD, что компания Intel находила крайне полезным для популяризации Phi. Сопроцессор обладал гигантским потреблением энергии (до 300W), ввиду чего был очень горячим и шумным. Также стоит отметить, что тактовые частоты до 1.2 ГГц являлись крайне скромными даже для серверного, многоядерного процессора и подходили для выполнения далеко не каждого приложения.
Напоминаем, что на момент выхода Phi, в продаже уже были Xeon E5 и Xeon E7, которые были дешевле и обладали внушительными частотами благодаря технологии TurboBoost. Интересным фактом можно отметить, что в Phi использовалась кольцевая шина для соединения процессора и памяти, для быстрого доступа друг к другу.
Xeon Phi не являлся решением для классического сервера, а предназначался для узкоспециализированных вычислений. За счёт большого количества потоков и отличного распараллеливания задач, процессор был незаменим для таких компаний, как: CERN, KISTI, Leibniz Supercomputing Centre.
Слайд с презентации Intel на тему первого поколения Xeon Phi на архитектуре Knights Ferry
Развитие технологии. Knights Corner (Рыцарский уголок)
Во втором поколении Xeon Phi, Intel занималась «полировкой» архитектуры и улучшением её на разных уровнях. Самым важным был переход на 22-нм, и заключение контрактов для создания суперкомпьютеров с применением множества ускорителей Xeon Phi. Intel приняли участие в создании суперкомпьютера вместе с компанией Cray и суперкомпьютера Stampede с планируемой производительностью 8 PFlops.
В общих чертах, успехи Intel можно назвать хорошими. Продукт обретает своего потребителя, а уникальная архитектура дает плоды.
Сопроцессор Intel Xeon Phi 5110P в варианте пасивной системы охлаждения
Xeon Phi 2 поколения выпущенные в 2013 году имели следующие характеристики:
Наименование сопроцессора
Xeon Phi 5110P
Число ядер/потоков
60 ядер / 240 потоков
Объем оперативной памяти
8GB GDDR5
TDP
225W
Технологическая норма
22 нм
Объем кэш памяти
60 x 512 KB L2
Интерфейс подключения
PCI-E X16 2.0
Intel Xeon Phi 5110P с кастомной системой охлаждения для проведения тестов в ServerFlow
Пик прогресса и начало стагнации Phi. Knights Landing (Рыцарская высадка)
Третье поколение изготавливалось по 14-нм техпроцессу. Xeon Phi в этом поколении наконец получил возможность быть как сопроцессором, так и полноценным процессором (CPU). Архитектура Knights Landing имела много заимствований у мобильной архитектуры Intel Atom. Нельзя пройти мимо энергопотребления ядер Knights Landing, ядро Xeon phi 7295 потребляло всего 4.4 Вата, что на момент выпуска сопроцессора было абсолютным рекордом в серверной отрасли. Был реализован интерфейс высокопроизводительной сети Intel Omni-Path первого поколения, что очень хорошо сказалось на скорости оптимизированных вычислений.
Слайд с презентации Intel на тему отличий между Host и PCI-E версией Knights Landing
Процессоры третьего поколения снабжались кристаллами MCDRAM памяти суммарным объемом до 16GB, что служило буферной памятью между ядрами и RAM. Структура памяти MCDRAM обладала высокими скоростями, около 400 гигабайт в секунду, что наилучшим образом влияло на производительность процессов.
Intel Xeon Phi с технологией Intel Omni-Path и распаяной MCDRAM памятью. Фото взято с презентации Intel.
К сожалению вышеуказанные преимущества меркнут перед одним недостатком.
Новая архитектура имела слишком мало доработок относительно обычных процессоров Atom. Она обладала сравнимой с Intel Atom производительностью на ядро и поддержкой AVX-512 инструкций.
Внушительные 72 ядра и 288 потоков не могли терпеть конкуренции относительно стремительно развивающихся сопроцессоров от Nvidia на архитектурах Maxwell и Pascal. Ускорители Tesla на базе CUDA и тензорных ядер по всем показателям были производительнее своих аналогов. Помимо улучшенной производительности Nvidia Tesla были совместимы с потребительским программным обеспечением, поскольку основаны на унифицированных ядрах CUDA. В то же время запуск кода на Xeon Phi требовал подготовки. В версии PCI-E - вам нужно было воспользоваться специальной библиотекой для C++, а в случае наличия отдельного процессора Phi, вам может потребоваться тщательная оптимизация кода под многопоточную архитектуру процессора.
В данном случае можно сказать, что процессоры Knights Landing были “Dead on Arrival” (Мертвый по прибытию).
Скриншот из CPU-Z Intel Xeon Phi 7210 на сокете LGA3647-1
Xeon Phi 3 поколения выпущенные в 2016 году имели следующие характеристики:
Наименование сопроцессора
Xeon Phi 7290
Число ядер/потоков
72 ядро / 288 потоков
Объем оперативной памяти
16GB MCDRAM и До 384Gb DDR4 2133Mhz
TDP
245W
Технологическая норма
14 нм
Объем кэш памяти
36 x 1 MB L2
Интерфейс подключения
LGA3647-1 Socket P1
Продолжительная стагнация. Knights Hill, Knights Mill (Рыцарский холм, Рыцарская мельница)
Дальнейшая судьба Xeon Phi чем-то похожа на развитие процессоров Intel Skylake до архитектуры Comet Lake (с 6 по 10 поколение). Происходили небольшие улучшения, например планировался релиз второго поколения Omni-Path в архитектуре Knights Hill(так и не был представлен), или улучшение производительности в задачах глубокого обучения в Knights Mill. В условиях стремительного роста конкуренции Intel не спешила снижать цены на свои разработки. Топовый Phi стоил 6000$, против видеокарты Nvidia Tesla P100, которая была кратно быстрее в данных вычислениях и при этом стоила даже немногим дешевле - 5699$.
Слайд Intel с анонсом так и не вышедшей архитектуры Knights Hill. Фото взято с презентации Intel.
Xeon Phi 4 поколения выпущенные в 2017 году имели следующие характеристики:
Наименование сопроцессора
Xeon Phi 7295
Число ядер/потоков
72 ядро / 288 потоков
Объем оперативной памяти
16GB MCDRAM и До 384Gb DDR4 2400Mhz
TDP
320W
Технологическая норма
14 нм
Объем кэш памяти
36 x 1 MB L2
Интерфейс подключения
LGA3647-1 Socket P1
Применение Xeon Phi
Чтобы разобраться с вопросом подключения Xeon Phi, нужно четко понимать, какая модель процессора/сопроцессора у вас на руках:
Сопроцессоры в виде PCI-E платы. Серии Xeon Phi 3100, 5100, 7100, 7200, 7205. Для работы с этой вариацией сопроцессоров вам потребуется любой компьютер со слотом PCI-E X16 и OS Windows или Linux дистрибутивом. Работа с модулем происходит через подключение и обращение к “внутренней” Intel Linux, развернутой на Xeon Phi. Подключаясь через SSH вы сможете в режиме терминала открывать различные совместимые пакеты. А высылая команды на исполнение кода из компилятора с Intel MPI Library, вы сможете в полной мере пользоваться ресурсами сопроцессора.
Процессоры на сокете LGA3647-1. Серии Xeon Phi 7200. Для работы такого рода процессоров требуется специализированная серверная материнская плата, например SuperMicro K1SPE на базе чипсета Intel C612. Стоит отметить, что система способна функционировать без оперативной памяти, поскольку процессоры оборудованы 16GB MCDRAM, которой достаточно для запуска OS. Для расширения ОЗУ потребуются модули DDR4 ECC RDIMM. Удивительно, что в SuperServer 5038K-i использовалось СЖО для охлаждения процессора. Поскольку Xeon Phi являются X86 процессорами, они без проблем запускают современные операционные системы.
Процессоры Xeon Phi с Omni-Path в Host версии. Фото взято с презентации Intel.
Суперкомпьютеры с Xeon Phi
Поговорим о профильном применении Xeon Phi в рамках построения суперкомпьютеров и сравним эти вычислительные кластеры с их конкурентами.
Нужно понимать, что ускорители Xeon Phi предназначены для использования в суперкомпьютерах и будет очень интересно сравнить системы на Xeon Phi и конкурентах.
Самым мощным суперкомпьютером был китайский Tianhe-2A. Он использовал Intel Xeon E5 2692v2 с сопроцессорами Xeon Phi 31S1P. Суперкомпьютер (Далее СК) имел производительность 33862,70 TFlop/s при потреблении 17808 kW.
Аналогом системы на Xeon Phi был Titan Cray XK7. CPU – Opteron 6274 в паре с ускорителями Nvidia K20x. Система обладала суммарной производительностью в 17590 TFlop/s при 8209 kW.
Наименование СК:
Tianhe-2A(Xeon Phi 31S1P)
Titan Cray XK7(Nvidia K20x)
Производительность
33862 TFlop/s
17590 TFlop/s
Потребление энергии
17808 kW
8209 kW
На момент 2015 года системы на базе CUDA имеют паритет вычислительной мощности относительно Xeon Phi систем.
Китай представил новый суперкомпьютер без участия сопроцессоров Xeon Phi, Sunway TaihuLight на базе 260 ядерного RISC процессора Sunway SW26010. Он сумел кратно обогнать систему на Phi – Tianhe-2A. Sunway TaihuLight обладал производительностью в 93 014 TFlop/s. Что почти в 3 раза выше чем Tianhe-2A. Забавный момент, что потреблял новый СК 15 371 kW, Что меньше, чем СК на Xeon Phi на 2437 kW. Усугубляло ситуацию то, что в 2016 году случился релиз Nvidia Tesla P100 и P40, что фактически поставит под большой вопрос использование Xeon Phi.
Наименование СК:
Tianhe-2A(Xeon Phi 31S1P)
Sunway TaihuLight(Sunway SW26010)
Производительность
33862 TFlop/s
93014 TFlop/s(В 2.7 раза выше)
Потребление энергии
17808 kW
15371 kW(На 15% ниже)
Можно сделать вывод, что более современное RISC решение, оказалось более энергоэффективным и кратно более производительным.
В 2017 вступил в работу новый СК Cray XC50 – Piz Daint на базе Intel Xeon E5 2690v3 и Tesla P100, сильно пошатнувший позиции Phi. Он имел производительность в 19 590 TFlop/s. К тому же близится релиз Nvidia Volta GV100, которая до ужаса сильно сместит позиции сопроцессоров Xeon Phi на рынке.
Наименование СК:
Tianhe-2A(Xeon Phi 31S1P)
Cray XC50 Piz Daint(Tesla P100)
Производительность
33862 TFlop/s
19590 TFlop/s(В 2 раза ниже)
Потребление энергии
17808 kW
2272 kW(На 85% ниже)
Производительность на киловатт энергии
1,9TFlop/s за 1kW
8,6TFlop/s за 1kW(В 4.5 выше)
Суперкомпьютер Cray XC50 Piz Daint оказался кратно более энергоэффективным решением за счет использования ускорителей Tesla P100. В случае его масштабирования до энергоресурсов потребляемых СК Tianhe-2A, мир мог бы получить решение в 4.5 раза превосходящее вариант на Xeon Phi.
Июнь 2018:
Суперкомпьютер Power System AC 922. Источник: Wikipedia
Запуск СК Power System AC 922 Summit от IBM на базе процессоров Power9 с ускорителями Tesla V100 показал невероятную производительность в 122 300 TFlop/s и потреблении 8 806 kW. Этот вычислительный комплекс стал лидером по скорости вычислений среди СК.
Тем временем Tianhe-2A находится на 4 строчке в рейтинге суперкомпьютеров, с результатом 61 444 TFlop/s заменив ускорители Xeon Phi 31S1P на ускорители Matrix-2000 на основе RISC ядер. Эта замена помогла поднять производительность почти в 2 раза с 33,86 PFlop/s до 61,44 PFlop/s! На 3 месте обосновался еще один СК от IBM. Power System S922LC Sierra также использующий ускорители Nvidia Volta GV100. Он имел производительность 71 610 TFlop/s.
Наименование СК:
Tianhe-2A(Matrix-2000 RISC many-core processor)
Power System AC 922 Summit(Tesla V100)
Производительность
61444 TFlop/s
122300 TFlop/s(В 2 раза выше)
Потребление энергии
18482 kW
8806 kW(На 15% ниже)
Производительность на киловатт энергии
3,3TFlop/s за 1kW(выше в 2 раза по сравнению с Xeon Phi)
13.8TFlop/s за 1kW(Выше в 4 раза)
Июнь 2019:
Суперкомпьютер Cray XC40 Trinity. Источник: Wikipedia
2019 год стал для Xeon Phi финалом. Платформа стагнировала, улучшать модифицированные ядра Intel Atom стало некуда, архитектура объективно была «Мертвой» из-за очень слабой производительности ядер. Энергоэффективность Atom была единственным преимуществом Xeon Phi. Последним представителем Phi в 2019 году остался СК Cray XC40 Trinity. На борту были одни из самых совершенных Xeon Phi 7250. Производительность была весьма сомнительной в районе 20,16 PFlop/s мощности при потреблении 7 578 kW. Для сравнения, СК Piz Diant на уже устаревших на тот момент Tesla P100 имел 21,23 PFlop/s при потреблении в 2 384 kW.
Наименование СК:
Cray XC40 Trinity(Xeon Phi 7250)
Cray XC50 Piz Daint(Tesla P100)
Производительность
20160 TFlop/s
21230 TFlop/s
Потребление энергии
7578 kW
2384 kW(Ниже более чем в 3 раза)
Производительность на киловатт энергии
2,6TFlop/s за 1kW
8.9TFlop/s за 1kW(Выше в 3.4 раза)
Практически все производители суперкомпьютеров отказались от Phi из-за его неэффективности.
Июнь 2020:
Суперкомпьютер Supercomputer Fugaku. Источник: Wikipedia
Япония представила Supercomputer Fugaku основанный на ARM процессоре Fujitsu A64FX с производительностью в 415,53 PFlop/s, что было быстрее решения от IBM – Summit чуть более чем в 2.5 раза. На этом моменте история Xeon Phi в суперкомпьютерной отрасли обрывается. В следующих годах помимо Nvidia, заключительный удар нанесет AMD. Выпустив Процессоры EPYC и ускорители AMD Instinct MI250X, на которых будут созданы два самых мощных СК входящих в топ 1 и топ 3. Cray EX235a – Frontier обладающий 1 194 PFlop/s и Cray EX235a – LUMI обладающий 309.10 PFlop/s. Оба компьютера потребляют заметно меньше энергии нежели японский Fugaku. Frontier 22 703 kW против 29 899 kW у Fugaku. На момент 2020 года было понятно, что будущего у Xeon Phi нет.
Итоги
Intel создала продукт для достаточно узкой прослойки покупателей, по сути, из наработок GPGPU. По началу дела шли хорошо, были контракты, продукт находил своего пользователя и развивался. Тем не менее стагнация технологий Intel и выход мощных по тем временам Tesla P100, а затем и Volta GV100, сильно ударили по актуальности Xeon Phi. Intel вместо бурного развития технологий и изменения архитектуры, выбрала путь наименьшего сопротивления в виде “полировки архитектуры”, как и было в рамках семейства процессоров Skylake. Что погубило далеко не первый продукт Intel и пошатнуло позиции на рынке микропроцессоров.
09.12 2024
Nvidia Drive — что под капотом у современных беспилотных автомобилей
Статьи
06.12 2024
Трансформеры — новое слово в развитии искусственного интеллекта
Получите скидку 3 000 рублей или бесплатную доставку за подписку на новости*!
* — скидка предоставляется при покупке от 30 000 рублей, в ином случае предусмотрена бесплатная доставка.
Мы получили ваш отзыв!
Он появится на сайте после модерации.
Продолжная использовать наш сайт, вы даете согласие на использование файлов Cookie, пользовательских данных (IP-адрес, вид операционной системы, тип браузера, сведения о местоположении, источник, откуда пришел на сайт пользователь, с какого сайта или по какой рекламе, какие страницы
открывает и на какие страницы нажимает пользователь) в целях функционирования сайта, проведения статистических исследований и обзоров. Если вы не хотите, чтобы ваши данные обрабатывались, покиньте сайт.