Google представила TPU 8t и TPU 8i: восьмое поколение тензорных ускорителей для обучения и инференса

23.04.2026

~ 2 мин

488

Простой

Новости

Введение

Google официально анонсировала два новых TPU-чипа восьмого поколения — TPU 8t, ориентированный на обучение больших моделей искусственного интеллекта, и TPU 8i, спроектированный специально для агентного инференса. Это первые TPU с момента запуска разработки собственных чипов компании в мае 2016 года, в которых Google вновь разделяет архитектуру на два направления после нескольких поколений универсальных TPU вроде Trillium и Ironwood. Новинки появятся в инфраструктуре Google Cloud Platform до конца года как в виде отдельных инстансов, так и в составе платформы AI Hypercomputer.

Подробнее о TPU 8t и TPU 8i

TPU 8t — это передовой тензорный ускоритель для обучения моделей искусственного интеллекта, обеспечивающий ИИ-производительность в 12 PFLOPS в режиме FP4 — для сравнения, ИИ-ускорители Nvidia B200 обеспечивают эффективность в 20 PFLOPS в том же режиме, а Google TPU 7 Ironwood мог предложить только 4,6 PFLOPS в режиме FP8. Амин Вахдат, главный инженер Google по ИИ и инфраструктуре, заявляет о сокращении времени обучения с месяцев до недель и улучшении соотношения цены и производительности в 2,8 раза по сравнению с Ironwood. TPU 8t также оснащен 216 ГБ памяти HBM3E с пропускной способностью 6,5 ТБ/с, тогда как Nvidia B200 имеет лишь 192 ГБ HBM3E, но с пропускной способностью в 8 ТБ/с. Дополнительно TPU 8t имеет 128 МБ встроенной памяти SRAM (та же, что используется в кэш памяти CPU). Архитектура TPU 8t включает векторные, матричные и специализированные SparseCore-ядра для обработки разряженных данных. Для вертикального масштабирования используется межчиповый интерконнект ICI пропускной способностью 19,2 Тбит/с в каждую сторону и 400 Гбит/с для горизонтального масштабирования. TPU 8t будут объединяться в гетерогенные кластеры, вмещающие до 9600 чипов и обеспечивая до 121 EFLOPS ИИ-производительности при общем объеме HBM-памяти в 2 ПБ. В TPU 8t реализована технология TPUDirect RDMA, которая позволяет передавать данные между HBM и сетевым адаптером напрямую не задействуя центральный процессор и ОЗУ, а также поддерживается TPUDirect Storage, связывающий память TPU с СХД. При использовании файловой системы 10T Lustre, которая выдает скорости до 10 ТБ/с, инфраструктура позволяет передавать петабайты данных к TPU кратно быстрее, чем это было реализовано в TPU v7.

Архитектура тензорного ускорителя для обучения искусственного интеллекта TPU 8t. Источник: Google.

TPU 8i — новейший тензорный ускоритель для задач инференса агентных моделей искусственного интеллекта, обеспечивающий на 80% лучшую эффективность на ватт и способный обслуживать в 2 раза больше юзеров, чем Ironwood при тех же затратах ресурсов. TPU 8i имеет 288 ГБ HBM3-памяти со скоростью в 8,6 ТБ/с, а также 384 МБ SRAM-памяти, достигая ИИ-производительности в 10 PFLOPS в режиме FP4 — ИИ-ускоритель для инференса Nvidia RTX PRO 6000 Blackwell Server Edition дает лишь 4 PFLOPS производительности в том же режиме и имеет 96 ГБ GDDR7 c пропускной способностью 1,59 ТБ/с. Огромный объем SRAM позволяет удерживать значительную часть KV-кэша непосредственно на кристалле, резко сокращая задержки при декодировании длинных контекстов и уменьшая простои тензорных ядер. В отличие от TPU 8t, где используется технология SparseCore, в TPU 8i применяется новых механизм ускорения коллективных операций CAE, который разгружает коммуникации между ядрами и снижает накладные расходы на уровне кристалла. Кластер TPU 8i масштабируется до 1152 чипов с суммарной производительностью 11,6 EFLOPS и 331,8 ТБ HBM-памяти. Для межчипового соединения вместо 3D torus в кластерах TPU 8t используется топология Boardfly, оптимизированная для обработки трафик MoE-моделей, требующих минимального числа сетевых переходов.

Архитектура тензорного ускорителя для инференса агентного искусственного интеллекта TPU 8i. Источник: Google.

Оба чипа объединяются сетевой инфраструктурой Virgo Network, построенной на плоской двухуровневой неблокирующей топологии. Пропускная способность в пределах ЦОД выросла 4-кратно в сравнении с предыдущим поколением TPU. Virgo позволяет объединить до 134 тысяч чипов в рамках одного ЦОД, предлагая неблокируемую скорость до 47 ПБ/с и более 1,6 YFLOPS совокупной производительности с почти линейным масштабированием. Новые тензорные процессоры работают в системе под управлением нового Arm-процессора Google Axion и используют системы жидкостного охлаждения. Google также внедрила интегрированное управление питанием, регулирующее потребление в реальном времени, что даёт до двукратного прироста производительности на ватт по сравнению с Ironwood.

Выводы

Разделение линейки TPU восьмого поколения на решения для обучения и инференса отражает фундаментальный сдвиг в потребностях ИИ-инфраструктуры. TPU 8t с его рекордной масштабируемостью и прямым доступом к хранилищам нацелен на обучение моделей следующего поколения, чьи размеры и требования к памяти продолжают расти экспоненциально. TPU 8i, напротив, оптимизирован под принципиально новый класс нагрузок — агентные системы, генерирующие множество параллельных запросов с длинными контекстами и требующие минимальных задержек. Выход чипов на рынок до конца 2026 года покажет, насколько TPU 8t и TPU 8i продемонстрируют себя в реальных нагрузках.

Автор:

Serverflow