Google TPU 8t и 8i: два чипа для эпохи ИИ-агентов

На конференции Google Cloud Next 2026 Google официально представила восьмое поколение своих фирменных процессоров TPU (Tensor Processing Unit — тензорный процессор для задач машинного обучения). Впервые в истории компания разделила архитектуру на два отдельных специализированных чипа: TPU 8t — для обучения моделей и TPU 8i — для инференса (inference — вывод, то есть работа уже обученных моделей в реальном времени). Это не просто обновление «железа» — это смена философии подхода к ИИ-инфраструктуре.

ℹ Что такое TPU?
TPU (Tensor Processing Unit) — специализированный чип, разработанный Google для ускорения задач машинного обучения. В отличие от GPU, TPU оптимизирован именно под матричные операции, характерные для нейросетей, что даёт значительный выигрыш в производительности и энергоэффективности.

Почему понадобилось два чипа?

Вопрос не праздный. Раньше Google выпускала TPU с небольшими вариациями — суффиксами вроде «p» или «e» — но в основе всегда лежала одна архитектура. Теперь же впервые чипы различаются принципиально с самого начала разработки, а не являются модификациями одной основы.

Причина — кардинальное изменение ландшафта ИИ. По мере того как ИИ эволюционирует от однократных чат-ботов к автономным агентам, способным рассуждать, планировать и выполнять многошаговые рабочие процессы, Google разделяет инфраструктуру для двух принципиально разных задач: обучения и инференса.

Представьте себе типичный сценарий: вы просите ИИ-ассистента найти и забронировать авиабилеты, согласовать даты с вашим календарём и уведомить коллег. Агент должен делать всё это быстро, параллельно, не заставляя вас ждать. По мере перехода бизнеса от «простого ИИ» к «агентному ИИ», работающему в непрерывных циклах рассуждений, узким местом становится уже не просто вычислительная мощность, а пропускная способность памяти и задержка межчиповых соединений.

Нельзя возглавить эпоху агентов, опираясь на универсальное «железо». Именно поэтому появились два отдельных чипа с принципиально разными архитектурами.

TPU 8t: суперкомпьютер для обучения

TPU 8t — это «силовая установка» для обучения, специально разработанная для высокопроизводительных ИИ-задач. Он переопределяет масштаб разработки ИИ, обеспечивая почти трёхкратное увеличение вычислительной производительности по сравнению с предыдущим поколением, что позволяет сократить время обучения самых масштабных моделей.

Ключевые характеристики TPU 8t

В одном суперподе размещается 9 600 чипов, обеспечивающих 121 экзафлопс вычислений и два петабайта общей памяти, соединённых высокоскоростными межчиповыми интерконнектами (ICI).

Благодаря этому можно сократить месяцы обучения до недель, используя мощь кластера более чем из 1 миллиона TPU-чипов под управлением Pathways и JAX.

Что особенно важно — Google ввела технологии TPUDirect RDMA и TPU Direct Storage. TPUDirect RDMA обеспечивает прямую передачу данных между памятью и сетевыми картами, минуя хост-процессор и оперативную память, что снижает задержки. TPU Direct Storage также позволяет обходить хост-CPU и обеспечивает прямой доступ к памяти между TPU и высокоскоростным хранилищем, фактически удваивая пропускную способность при массовых передачах данных.

Понимая, что простой — это главный враг обучения на фронтире, TPU 8t спроектирован с целевым показателем «goodput» (продуктивного времени вычислений) более 97%.

💡 Что такое goodput?
Goodput — это доля времени, когда чипы реально занимаются полезными вычислениями, а не простаивают из-за сбоев, синхронизации или передачи данных. 97% goodput означает, что из каждых 100 часов работы лишь 3 часа тратится «вхолостую» — это исключительно высокий показатель для кластеров такого масштаба.

TPU 8i: движок реального времени для агентов

Если TPU 8t — это «завод» по созданию умных моделей, то TPU 8i — это «нервная система», которая заставляет их работать мгновенно в продакшене.

TPU 8i создан для обработки «сложной, совместной, итеративной работы множества специализированных агентов», которые появляются с приходом агентного ИИ. Разработанный с повышенной пропускной способностью памяти для обслуживания чувствительных к задержкам нагрузок, TPU 8i масштабируется до 1 152 чипов в одном поде.

Ключевые характеристики TPU 8i

Чип оснащён в 3 раза большим объёмом SRAM-памяти на кристалле по сравнению с предыдущими версиями для размещения более крупных KV-кешей непосредственно на кристалле и интегрирует специализированный движок ускорения коллективных операций (Collectives Acceleration Engine, CAE).

Благодаря сокращению числа переходов для операций all-to-all (ключевых для MoE- и reasoning-моделей), топология Boardfly обеспечивает до 50% улучшения задержки для коммуникационно-интенсивных нагрузок.

В совокупности TPU 8i обеспечивает на 80% лучшую производительность на доллар для инференса по сравнению с предыдущим поколением, что позволяет миллионам одновременных агентов работать экономически эффективно.

📝 Новая топология Boardfly
В предыдущих поколениях TPU использовалась топология 3D-тор, отлично подходящая для обучения. Для TPU 8i Google разработала принципиально новую топологию Boardfly — высокорадиксную сеть, вдохновлённую принципами Dragonfly. Для кластера из 1024 чипов число «прыжков» пакета данных сократилось с 16 до всего 7, что критично для агентов, постоянно обменивающихся данными.

Сравнение TPU 8t и TPU 8i

ПараметрTPU 8t (обучение)TPU 8i (инференс)
Основная задачаОбучение моделейИнференс / агенты
Чипов в кластереДо 9 600 (суперпод)До 1 152 (под)
Вычисления121 экзафлопс (FP4)11,6 экзафлопс (FP8)
Общая память2 ПБ HBM (суперпод)331,8 ТБ HBM (под)
SRAM на чипВ 3× больше, чем у Ironwood
Топология сети3D-тор (ICI)Boardfly
Производительность/ВтДо 2× лучше IronwoodДо 2× лучше Ironwood
Прирост vs Ironwood~3× по вычислениям~80% лучше $/перф.

Как это работает в связке: от обучения до агента


graph TD
    A[Исходные данные и задача] --> B[TPU 8t: обучение модели]
    B --> C[Обученная модель / чекпоинт]
    C --> D[TPU 8i: деплой и инференс]
    D --> E[ИИ-агент получает запрос]
    E --> F[Рассуждение / планирование]
    F --> G{Многошаговый воркфлоу}
    G --> H[Шаг 1: поиск информации]
    G --> I[Шаг 2: обращение к API]
    G --> J[Шаг 3: генерация ответа]
    H --> K[Результат для пользователя]
    I --> K
    J --> K

Чипы восьмого поколения — TPU 8t и TPU 8i — являются ответом на эти вызовы, гарантируя, что каждая задача, от первого токена обучения до финального шага многоходовой цепочки рассуждений, выполняется по наиболее эффективному пути.

Вирго-сеть и полный стек инфраструктуры

Сами чипы — лишь часть картины. Google дополняет кремний новой сетевой тканью Virgo Network для дата-центров, охладителями четвёртого поколения на жидкостном охлаждении, улучшениями Google Cloud Managed Lustre и оркестровыми улучшениями GKE, разработанными для агентно-ориентированных нагрузок.

С помощью Virgo Network и TPU 8t можно объединить 134 000 TPU в единую ткань в одном дата-центре, а более одного миллиона TPU — по нескольким площадкам в единый обучающий кластер, фактически превращая глобально распределённую инфраструктуру в один бесшовный суперкомпьютер.

Оба чипа — TPU 8t и 8i — работают на базе Axion, собственных ARM-процессоров Google, и поддерживают жидкостное охлаждение. Компания также оптимизировала эффективность всего стека, внедрив интегрированное управление питанием, которое адаптирует потребление в зависимости от нагрузки в реальном времени — это даёт до 2× лучшей производительности на ватт по сравнению с Ironwood.

💡 Поддержка PyTorch
Для разработчиков важна новость: Google запускает preview нативной поддержки PyTorch для TPU — TorchTPU. С TorchTPU модели можно запускать на TPU как есть, с полной поддержкой нативных функций PyTorch, включая Eager Mode. Это существенно снижает порог входа для команд, привыкших к PyTorch-экосистеме.

Почему это важно: смена парадигмы

Решение разделить обучение и инференс отражает глубокий сдвиг на рынке. Несколько лет назад основные усилия были сосредоточены на обучении всё более крупных фундаментальных моделей. Теперь фокус расширился: нужно обслуживать эти модели в производстве, обрабатывая миллионы запросов, поддерживая длинные контексты и координируя специализированных агентов, работающих совместно. Google утверждает, что у этих задач настолько разные требования, что использовать одно и то же «железо» для обоих уже нецелесообразно.

С нашей точки зрения, этот «специализация прежде всего» дорожная карта подразумевает, что Google ожидает: рынок ИИ к 2027 году будет определяться роями агентов, требующих постоянного низкозатратного «воображения», а не лишь периодических масштабных прогонов обучения, характерных для ранней эпохи LLM.

Доступность и следующие шаги

Оба чипа станут общедоступны позднее в этом году и будут работать в рамках Google AI Hypercomputer — облачной суперкомпьютерной архитектуры, запущенной компанией в 2023 году, объединяющей высокопроизводительное оборудование, открытое программное обеспечение, фреймворки машинного обучения и гибкие модели потребления.

Восемь поколений TPU, более десяти лет разработки — и теперь Google делает ставку не на один универсальный чип, а на специализированную экосистему, созданную под конкретные этапы жизненного цикла ИИ.

Для российских разработчиков и компаний, работающих с облачными ИИ-решениями, анонс TPU 8t и 8i означает одно: инфраструктура для агентного ИИ стремительно взрослеет. Задачи, которые ещё недавно казались уделом научных лабораторий — миллионы одновременно работающих агентов, модели с триллионами параметров, мгновенный инференс — становятся инженерной реальностью.