Google TPU 8t и 8i: два чипа для эпохи ИИ-агентов

На конференции Google Cloud Next 2026 Google официально представила восьмое поколение своих фирменных процессоров TPU (Tensor Processing Unit — тензорный процессор для задач машинного обучения). Впервые в истории компания разделила архитектуру на два отдельных специализированных чипа: TPU 8t — для обучения моделей и TPU 8i — для инференса (inference — вывод, то есть работа уже обученных моделей в реальном времени). Это не просто обновление «железа» — это смена философии подхода к ИИ-инфраструктуре.

ℹ Что такое TPU?

TPU (Tensor Processing Unit) — специализированный чип, разработанный Google для ускорения задач машинного обучения. В отличие от GPU, TPU оптимизирован именно под матричные операции, характерные для нейросетей, что даёт значительный выигрыш в производительности и энергоэффективности.

Почему понадобилось два чипа?

Вопрос не праздный. Раньше Google выпускала TPU с небольшими вариациями — суффиксами вроде «p» или «e» — но в основе всегда лежала одна архитектура. Теперь же впервые чипы различаются принципиально с самого начала разработки, а не являются модификациями одной основы.

Причина — кардинальное изменение ландшафта ИИ. По мере того как ИИ эволюционирует от однократных чат-ботов к автономным агентам, способным рассуждать, планировать и выполнять многошаговые рабочие процессы, Google разделяет инфраструктуру для двух принципиально разных задач: обучения и инференса.

Представьте себе типичный сценарий: вы просите ИИ-ассистента найти и забронировать авиабилеты, согласовать даты с вашим календарём и уведомить коллег. Агент должен делать всё это быстро, параллельно, не заставляя вас ждать. По мере перехода бизнеса от «простого ИИ» к «агентному ИИ», работающему в непрерывных циклах рассуждений, узким местом становится уже не просто вычислительная мощность, а пропускная способность памяти и задержка межчиповых соединений.

Нельзя возглавить эпоху агентов, опираясь на универсальное «железо». Именно поэтому появились два отдельных чипа с принципиально разными архитектурами.

TPU 8t: суперкомпьютер для обучения

TPU 8t — это «силовая установка» для обучения, специально разработанная для высокопроизводительных ИИ-задач. Он переопределяет масштаб разработки ИИ, обеспечивая почти трёхкратное увеличение вычислительной производительности по сравнению с предыдущим поколением, что позволяет сократить время обучения самых масштабных моделей.

Ключевые характеристики TPU 8t

В одном суперподе размещается 9 600 чипов, обеспечивающих 121 экзафлопс вычислений и два петабайта общей памяти, соединённых высокоскоростными межчиповыми интерконнектами (ICI).

Благодаря этому можно сократить месяцы обучения до недель, используя мощь кластера более чем из 1 миллиона TPU-чипов под управлением Pathways и JAX.

Что особенно важно — Google ввела технологии TPUDirect RDMA и TPU Direct Storage. TPUDirect RDMA обеспечивает прямую передачу данных между памятью и сетевыми картами, минуя хост-процессор и оперативную память, что снижает задержки. TPU Direct Storage также позволяет обходить хост-CPU и обеспечивает прямой доступ к памяти между TPU и высокоскоростным хранилищем, фактически удваивая пропускную способность при массовых передачах данных.

Понимая, что простой — это главный враг обучения на фронтире, TPU 8t спроектирован с целевым показателем «goodput» (продуктивного времени вычислений) более 97%.

💡 Что такое goodput?

Goodput — это доля времени, когда чипы реально занимаются полезными вычислениями, а не простаивают из-за сбоев, синхронизации или передачи данных. 97% goodput означает, что из каждых 100 часов работы лишь 3 часа тратится «вхолостую» — это исключительно высокий показатель для кластеров такого масштаба.

TPU 8i: движок реального времени для агентов

Если TPU 8t — это «завод» по созданию умных моделей, то TPU 8i — это «нервная система», которая заставляет их работать мгновенно в продакшене.

TPU 8i создан для обработки «сложной, совместной, итеративной работы множества специализированных агентов», которые появляются с приходом агентного ИИ. Разработанный с повышенной пропускной способностью памяти для обслуживания чувствительных к задержкам нагрузок, TPU 8i масштабируется до 1 152 чипов в одном поде.

Ключевые характеристики TPU 8i

Чип оснащён в 3 раза большим объёмом SRAM-памяти на кристалле по сравнению с предыдущими версиями для размещения более крупных KV-кешей непосредственно на кристалле и интегрирует специализированный движок ускорения коллективных операций (Collectives Acceleration Engine, CAE).

Благодаря сокращению числа переходов для операций all-to-all (ключевых для MoE- и reasoning-моделей), топология Boardfly обеспечивает до 50% улучшения задержки для коммуникационно-интенсивных нагрузок.

В совокупности TPU 8i обеспечивает на 80% лучшую производительность на доллар для инференса по сравнению с предыдущим поколением, что позволяет миллионам одновременных агентов работать экономически эффективно.

📝 Новая топология Boardfly

В предыдущих поколениях TPU использовалась топология 3D-тор, отлично подходящая для обучения. Для TPU 8i Google разработала принципиально новую топологию Boardfly — высокорадиксную сеть, вдохновлённую принципами Dragonfly. Для кластера из 1024 чипов число «прыжков» пакета данных сократилось с 16 до всего 7, что критично для агентов, постоянно обменивающихся данными.

Сравнение TPU 8t и TPU 8i

Параметр	TPU 8t (обучение)	TPU 8i (инференс)
Основная задача	Обучение моделей	Инференс / агенты
Чипов в кластере	До 9 600 (суперпод)	До 1 152 (под)
Вычисления	121 экзафлопс (FP4)	11,6 экзафлопс (FP8)
Общая память	2 ПБ HBM (суперпод)	331,8 ТБ HBM (под)
SRAM на чип	—	В 3× больше, чем у Ironwood
Топология сети	3D-тор (ICI)	Boardfly
Производительность/Вт	До 2× лучше Ironwood	До 2× лучше Ironwood
Прирост vs Ironwood	~3× по вычислениям	~80% лучше $/перф.

Как это работает в связке: от обучения до агента


graph TD
    A[Исходные данные и задача] --> B[TPU 8t: обучение модели]
    B --> C[Обученная модель / чекпоинт]
    C --> D[TPU 8i: деплой и инференс]
    D --> E[ИИ-агент получает запрос]
    E --> F[Рассуждение / планирование]
    F --> G{Многошаговый воркфлоу}
    G --> H[Шаг 1: поиск информации]
    G --> I[Шаг 2: обращение к API]
    G --> J[Шаг 3: генерация ответа]
    H --> K[Результат для пользователя]
    I --> K
    J --> K

Чипы восьмого поколения — TPU 8t и TPU 8i — являются ответом на эти вызовы, гарантируя, что каждая задача, от первого токена обучения до финального шага многоходовой цепочки рассуждений, выполняется по наиболее эффективному пути.

Вирго-сеть и полный стек инфраструктуры

Сами чипы — лишь часть картины. Google дополняет кремний новой сетевой тканью Virgo Network для дата-центров, охладителями четвёртого поколения на жидкостном охлаждении, улучшениями Google Cloud Managed Lustre и оркестровыми улучшениями GKE, разработанными для агентно-ориентированных нагрузок.

С помощью Virgo Network и TPU 8t можно объединить 134 000 TPU в единую ткань в одном дата-центре, а более одного миллиона TPU — по нескольким площадкам в единый обучающий кластер, фактически превращая глобально распределённую инфраструктуру в один бесшовный суперкомпьютер.

Оба чипа — TPU 8t и 8i — работают на базе Axion, собственных ARM-процессоров Google, и поддерживают жидкостное охлаждение. Компания также оптимизировала эффективность всего стека, внедрив интегрированное управление питанием, которое адаптирует потребление в зависимости от нагрузки в реальном времени — это даёт до 2× лучшей производительности на ватт по сравнению с Ironwood.

💡 Поддержка PyTorch

Для разработчиков важна новость: Google запускает preview нативной поддержки PyTorch для TPU — TorchTPU. С TorchTPU модели можно запускать на TPU как есть, с полной поддержкой нативных функций PyTorch, включая Eager Mode. Это существенно снижает порог входа для команд, привыкших к PyTorch-экосистеме.

Почему это важно: смена парадигмы

Решение разделить обучение и инференс отражает глубокий сдвиг на рынке. Несколько лет назад основные усилия были сосредоточены на обучении всё более крупных фундаментальных моделей. Теперь фокус расширился: нужно обслуживать эти модели в производстве, обрабатывая миллионы запросов, поддерживая длинные контексты и координируя специализированных агентов, работающих совместно. Google утверждает, что у этих задач настолько разные требования, что использовать одно и то же «железо» для обоих уже нецелесообразно.

С нашей точки зрения, этот «специализация прежде всего» дорожная карта подразумевает, что Google ожидает: рынок ИИ к 2027 году будет определяться роями агентов, требующих постоянного низкозатратного «воображения», а не лишь периодических масштабных прогонов обучения, характерных для ранней эпохи LLM.

Доступность и следующие шаги

Оба чипа станут общедоступны позднее в этом году и будут работать в рамках Google AI Hypercomputer — облачной суперкомпьютерной архитектуры, запущенной компанией в 2023 году, объединяющей высокопроизводительное оборудование, открытое программное обеспечение, фреймворки машинного обучения и гибкие модели потребления.

Восемь поколений TPU, более десяти лет разработки — и теперь Google делает ставку не на один универсальный чип, а на специализированную экосистему, созданную под конкретные этапы жизненного цикла ИИ.

Для российских разработчиков и компаний, работающих с облачными ИИ-решениями, анонс TPU 8t и 8i означает одно: инфраструктура для агентного ИИ стремительно взрослеет. Задачи, которые ещё недавно казались уделом научных лабораторий — миллионы одновременно работающих агентов, модели с триллионами параметров, мгновенный инференс — становятся инженерной реальностью.

Google TPU 8t и 8i: два чипа для эпохи ИИ-агентов

Почему понадобилось два чипа?

TPU 8t: суперкомпьютер для обучения

Ключевые характеристики TPU 8t

TPU 8i: движок реального времени для агентов

Ключевые характеристики TPU 8i

Сравнение TPU 8t и TPU 8i

Как это работает в связке: от обучения до агента

Вирго-сеть и полный стек инфраструктуры

Почему это важно: смена парадигмы

Доступность и следующие шаги

Источники

Похожие статьи

Google строит первый дата-центр в Австрии: AI, зелёная энергия и 100 рабочих мест

TPU от Google: как работают чипы для самых тяжёлых задач ИИ

Курс Google и Kaggle по AI-агентам и vibe coding — июнь 2026

Anthropic, Google и Broadcom: гигаватты ИИ-вычислений

Основы AI: как работает искусственный интеллект