NVIDIA Cosmos: платформа мировых моделей для Physical AI

«Так же как большие языковые модели совершили революцию в генеративном AI, мировые модели Cosmos — это прорыв для физического AI.» — Дженсен Хуанг, CEO NVIDIA

Что такое NVIDIA Cosmos и для кого это?

NVIDIA Cosmos — это платформа мировых базовых моделей (World Foundation Models, WFM), специально разработанная для ускорения создания систем физического AI. Она включает передовые генеративные модели, надёжные защитные механизмы (guardrails) и ускоренный конвейер обработки данных. Платформа ориентирована на реальные системы: автономные транспортные средства (AV), роботов и агентов видеоаналитики.

NVIDIA анонсировала платформу Cosmos на CES 2025, позиционируя её как открытую инфраструктуру для разработки Physical AI. Самая актуальная версия — Cosmos 3 — была представлена Дженсеном Хуангом на COMPUTEX 2026.

Основная аудитория:

  • Команды разработчиков роботов и гуманоидных платформ
  • Инженеры автономных транспортных средств
  • Исследователи в области физического AI
  • Стартапы и предприятия, которым нужна синтетическая тренировочная среда
  • Разработчики систем умной инфраструктуры и видеоаналитики
ℹ Кто уже использует Cosmos
Среди первых компаний, принявших Cosmos, — Agility Robotics, Figure AI, Foretellix, Skild AI и Uber. Среди более широкого круга: Agile Robots, Doosan Robotics, LG Electronics, Samsung Electronics для роботики; Li Auto — для автономных автомобилей.

Архитектура платформы


graph TD
    A[NVIDIA Cosmos Platform] --> B[Cosmos Predict]
    A --> C[Cosmos Transfer]
    A --> D[Cosmos Reason]
    A --> E[Cosmos Curator]
    A --> F[Cosmos Evaluator]
    B --> G[Генерация будущих состояний мира]
    C --> H[Фотореалистичная симуляция из 3D-входных данных]
    D --> I[Цепочка рассуждений / VLM для физического мира]
    E --> J[Обработка и дедупликация видеоданных]
    F --> K[Оценка качества генеративных видео]


Ключевые возможности

1. Cosmos 3 — омнимодальная архитектура

Cosmos 3 — это набор омнимодальных мировых моделей, совместно обрабатывающих и генерирующих язык, изображения, видео, аудио и последовательности действий в единой архитектуре Mixture-of-Transformers. Поддерживая гибкие конфигурации ввода-вывода, платформа объединяет в одном фреймворке модели зрения-языка, видеогенераторы, симуляторы мира и модели действий.

Cosmos 3 — новая физическая AI-модель, лидирующая в таблицах, построенная на прорывной архитектуре Mixture-of-Transformers для рассуждений, симуляции мира и генерации действий.

Доступные варианты моделей:

  • Cosmos 3 Super — 64B параметров, на основе Qwen3-VL 32B
  • Cosmos 3 Nano — компактная версия для быстрого прототипирования
  • Cosmos 3 Edge — ожидается в ближайшее время для инференса в реальном времени.

2. Cosmos Predict — воображение для роботов

Cosmos Transfer 2.5 обеспечивает масштабируемую фотореалистичную симуляцию, основанную на физике, поддерживая разнообразные условия среды и освещения, а Cosmos Predict 2.5 генерирует реалистичные будущие состояния мира из мультимодальных входных данных.

Пример: Разработка автономных транспортных средств требует обучения на миллионах миль данных, включая редкие события — необычное поведение пешеходов, экстремальные погодные условия, нестандартные перекрёстки. Cosmos может генерировать физически точные сценарии вождения для дополнения реальных данных.

3. Cosmos Transfer — фотореалистичный мост

Cosmos Transfer WFM принимает структурированные видеовходы — карты сегментации, карты глубины, сканирования лидаров, карты оценки поз и траекторий — для генерации управляемых фотореалистичных видеовыходов.

4. Cosmos Reason — цепочки рассуждений

Cosmos Reason 2 предлагает улучшенное пространственно-временное понимание и продвинутые цепочки рассуждений, поддерживая сложные задачи: локализацию объектов, предсказание движения и контекстно-зависимое принятие решений для физических AI-приложений.

В отличие от «чёрных ящиков», Cosmos Reason может объяснять логику на естественном языке — описывать, почему робот выбрал определённый путь или как он предвидит столкновение до его возникновения.

5. Cosmos Curator — обработка данных

Благодаря ускоренному AI- и CUDA-конвейеру обработки данных на основе NVIDIA NeMo Curator разработчики могут обрабатывать, курировать и размечать 20 миллионов часов видео за 14 дней на платформе NVIDIA Blackwell, вместо более чем трёх лет при использовании только CPU.

6. Мультивселенная и симуляция

«Мультивселенная» симуляция позволяет с помощью Cosmos и Omniverse генерировать все возможные исходы, которые может предпринять AI-модель, чтобы она могла выбрать наилучший и наиболее точный путь.

7. Открытые наборы синтетических данных

С выходом Cosmos 3 NVIDIA открыла шесть наборов синтетических данных на Hugging Face. Они охватывают роботику, физическую симуляцию, пространственное мышление, движение человека, вождение и складские операции — их можно использовать для дообучения Cosmos 3 и других моделей.

💡 Совет разработчику
Cosmos Cookbook предлагает пошаговые рецепты и скрипты для дообучения, позволяя быстро создавать, кастомизировать и разворачивать мировые модели для роботики и автономных систем. Начните именно с него, если только знакомитесь с платформой.

Пример: быстрый запуск Cosmos 3 через Docker

docker run --runtime nvidia --gpus all \
  -v ~/.cache/huggingface:/root/.cache/huggingface \
  -v "$(pwd):/workspace" \
  -p 8000:8000 \
  --ipc=host \
  vllm/vllm-omni:cosmos3 \
  vllm serve nvidia/Cosmos3-Nano \
  --omni \
  --model-class-name Cosmos3OmniDiffusersPipeline \
  --allowed-local-media-path / \
  --port 8000 \
  --init-timeout 1800

Для nvidia/Cosmos3-Super (64B параметров) рекомендуется распределить веса по нескольким GPU: флаг --tensor-parallel-size позволяет разбить модель по нескольким ускорителям, а --enable-layerwise-offload — выгружать трансформерные блоки между CPU и GPU.

Минимальные требования к GPU: Для 7B-моделей подойдёт один H100 PCIe 80 ГБ. Для 14B-моделей или более высокой скорости генерации — два H100 SXM5 или один H200 SXM5.


Тарифы и лицензирование

NVIDIA Cosmos доступна бесплатно на Hugging Face и в каталоге NGC под открытой лицензией, что означает свободный доступ ко всем моделям при наличии оборудования NVIDIA.

Исходный код NVIDIA Cosmos выпущен под лицензией Apache 2. Модели выпущены под NVIDIA Open Model License.

Согласно NVIDIA Open Model License, модели можно использовать в коммерческих целях, создавать и распространять производные модели. NVIDIA не претендует на владение выходными данными, сгенерированными с использованием моделей.

Способ использованияСтоимостьПримечания
Веса моделей (Hugging Face / NGC)БесплатноНужно NVIDIA-железо
NVIDIA NIM API (hosted)По тарификации облакаAzure, CoreWeave, Nebius, Baseten
Self-hostingСтоимость GPU-арендыH100 / H200, от $2–4/час
Кастомная лицензияПо запросуcosmos-license@nvidia.com
⚠ Важно
Модели Cosmos формально не являются open source в полном смысле: NVIDIA не раскрыла конкретные обучающие данные и не предоставила все инструменты для воссоздания моделей с нуля. Для серьёзного производственного использования фактически предполагается наличие GPU NVIDIA (H100/H200), что сохраняет аппаратный бизнес NVIDIA в центре экосистемы.

Плюсы и минусы

✅ Плюсы❌ Минусы
Бесплатный доступ к весам моделейТребует мощного GPU NVIDIA (H100/H200)
Омнимодальность: текст, видео, аудио, действияНе является полностью open source (данные не раскрыты)
Физически достоверная симуляция мираВысокий порог входа для небольших команд
Открытые скрипты дообучения на GitHubПривязка к экосистеме NVIDIA (vendor lock-in)
Масштабируемая обработка данных (20M часов за 14 дней)Cosmos 3 Edge (для edge-устройств) пока не выпущен
Коммерческое использование разрешеноСложная настройка для production-деплоя
Активная экосистема партнёров (Uber, Figure AI, LG и др.)Guardrails нельзя отключать без аналогов
Интеграция с NVIDIA Omniverse, Isaac Sim, GR00TДокументация требует экспертизы в ML/DevOps

Сравнение с альтернативами

ПараметрNVIDIA CosmosOpenAI SoraGenesis (open source)
СпециализацияPhysical AI (роботы, AV)Генерация видео (общего назначения)Физическая симуляция роботов
ОткрытостьОткрытые веса, код Apache 2Закрытое APIПолностью open source
МультимодальностьТекст, видео, аудио, действияТекст → видео3D-физика, без видео-генерации
Физическая точностьВысокая (специализирована)Средняя (общего назначения)Очень высокая (симулятор)
Скорость обученияБыстрая (CUDA-ускорение)N/A (генеративная)До 430 000x быстрее реального времени
Аппаратные требованияH100/H200 GPUAPI (без требований к железу)GPU любого производителя
Коммерческое использованиеДа (Open Model License)Да (платное API)Да (MIT/Apache)
Интеграция с NVIDIA-стекомНативная (Omniverse, Isaac)НетЧастичная
ЦенаБесплатные веса + GPU-расходыОт $0.02/сек видеоБесплатно

OpenAI остаётся гигантом в области цифровых рассуждений, однако модель генерации видео Sora теперь сталкивается с прямой конкуренцией со стороны Cosmos в физической сфере. Cosmos — единственная крупная открытая платформа, созданная специально для рабочих процессов обучения физического AI.


Экосистема и Cosmos Coalition

Cosmos Coalition — это глобальное сотрудничество между разработчиками мировых моделей, AI-командами и лидерами физического AI. Основатели коалиции: Agile Robots, Black Forest Labs, Generalist, LTX, Runway и Skild AI.

Разработчики и провайдеры программного обеспечения могут ускорить доступ, кастомизацию и деплой Cosmos через облачных партнёров: Baseten, CoreWeave, Microsoft Azure, Nebius, Deep Infra и Classmethod.

📝 Реальный кейс
LEM Surgical использует NVIDIA Cosmos Transfer — открытую настраиваемую мировую модель — для генерации синтетических обучающих данных и платформу NVIDIA Isaac Sim для симуляции цифрового двойника хирургического робота Dynamis, уже сертифицированного FDA.

Вердикт: кому подойдёт NVIDIA Cosmos?

NVIDIA Cosmos подойдёт, если вы:

  • Разрабатываете роботов, автономные транспортные средства или системы умной инфраструктуры
  • Нуждаетесь в масштабируемой генерации физически достоверных синтетических данных
  • Имеете доступ к GPU NVIDIA уровня H100/H200
  • Хотите использовать открытые веса для fine-tuning под собственные задачи
  • Строите pipeline на основе NVIDIA-стека (Omniverse, Isaac Sim, GR00T)

Cosmos, вероятно, не для вас, если:

  • Вы работаете только с текстовыми или языковыми задачами
  • Нет доступа к профессиональным GPU уровня H100
  • Вас интересует только генерация «красивого» видео без физической точности

Итоговая оценка

КритерийОценка
Функциональность9/10
Открытость7/10
Простота входа5/10
Экосистема10/10
Стоимость использования7/10
Итого8/10

NVIDIA Cosmos — это наиболее полная и технически продвинутая открытая платформа для Physical AI на сегодняшний день. Высокий порог входа и привязка к NVIDIA-железу компенсируются беспрецедентной функциональностью, бесплатным доступом к весам и быстро растущей экосистемой партнёров. Для серьёзных команд, работающих в сфере роботики и автономных систем, это инструмент №1.