NVIDIA AI Blueprint: Video Search & Summarization (VSS)

«Produce summaries of long videos up to 100X faster than going through the videos manually» — NVIDIA Build Portal

Что это и для кого

NVIDIA Blueprint for Video Search and Summarization (VSS) — это набор эталонных архитектур для построения vision-агентов и приложений видеоаналитики, объединяющих ускоренные видеомикросервисы, модели зрение-языка (VLM) и большие языковые модели (LLM). Проект размещён на GitHub под флагом NVIDIA-AI-Blueprints и находится в активном развитии — репозиторий насчитывает более 187 звёзд и 72 форка, последний релиз — v2.3.1.

Инструмент рассчитан на видеоаналитиков и IT-инженеров, занимающихся анализом и суммаризацией видеоданных: blueprint предлагает развёртывание в один клик, простое управление конфигурациями и plug-and-play модели. Для GenAI-разработчиков и ML-инженеров, которым нужна глубокая кастомизация, предусмотрены детальные конфигурационные опции, возможность дообучения LLM и замены компонентов пайплайна.

Типичные отрасли применения — производство, склады, умные города, реклама, безопасность.

ℹ Реальный кейс
Компания Pegatron внедрила VSS для анализа производственных процессов сборки печатных плат. Результат: снижение трудозатрат на 7 % и сокращение процента брака на 67 %.

Архитектура: три слоя обработки

VSS организован в три области обработки: реальное время (извлечение признаков, эмбеддинги, понимание потока с публикацией результатов в брокер сообщений), аналитика downstream (обогащение метаданных до траекторий, инцидентов и верифицированных алертов) и агентная и офлайн-обработка (оркестрированные инструменты поиска, Q&A, суммаризации и клипового поиска, включая Model Context Protocol).


graph TD
    A[Видеопоток / Архив] --> B[Real-Time Video Intelligence]
    B --> C[Feature Extraction + Embeddings]
    C --> D[Message Broker]
    D --> E[Downstream Analytics]
    E --> F[Trajectories / Incidents / Alerts]
    D --> G[VectorDB + GraphDB]
    G --> H[CA-RAG Module]
    H --> I[VSS Agent MCP]
    I --> J[Поиск по NL]
    I --> K[Суммаризация]
    I --> L[Q&A / Visual QA]
    I --> M[Алерты]


Ключевые возможности

1. Суммаризация длинных видео (LVS)

С VSS пользователи могут суммаризировать видео в 100 раз быстрее, чем при ручном просмотре: например, часовое видео конвертируется в текстовый конспект менее чем за одну минуту.

Агент разбивает входное видео на сегменты, которые параллельно обрабатываются VLM-пайплайном для генерации детальных подписей к каждому фрагменту. Затем LLM рекурсивно суммаризирует эти подписи, формируя итоговое резюме всего видео.

2. Семантический поиск по видеоархиву

Workflow поиска позволяет отправлять запросы на естественном языке по видеоархивам для нахождения конкретных событий, объектов или действий. Используется многослойное получение и слияние эмбеддингов; после нахождения релевантных результатов агент критически оценивает клипы перед финальным ответом.

3. Алерты в реальном времени

Поддерживаются два workflow алертов: верификация алертов (VLM анализирует видеофрагменты, соответствующие алертам от компьютерного зрения) и алерты реального времени (VLM непрерывно обрабатывает сегменты из источника видео с заданными интервалами).

4. Context-Aware RAG (CA-RAG)

Плотные подписи, аудиотранскрипты и метаданные CV индексируются в векторные и графовые базы данных. Модуль CA-RAG использует Vector RAG и Graph-RAG как первичные источники для понимания видео — это применяется в ключевых функциях суммаризации, Q&A и отправки алертов.

5. Компьютерное зрение + аудио

Blueprint включает примеры использования CV-пайплайна с трекингом объектов, а также поддержку аудио.

6. Агентные skills (MCP)

Репозиторий содержит набор навыков (Skills) для работы с VSS; каждый поддиректорий в skills/ — самодостаточный skill по спецификации agentskills.io с именем, описанием, версией и лицензией. Среди них: управление алертами на стримах, запуск/отладка профилей, запросы к Elasticsearch через VA-MCP, поиск по архиву с VLM-критикой.

💡 Быстрый старт без своего железа
Не хотите сразу настраивать GPU-сервер? Попробуйте VSS через Brev Launchable — преднастроенные облачные инстансы (2×RTX PRO 6000 SE на AWS) позволяют запустить blueprint за минуты без собственной инфраструктуры.

Пример кода: деплой через Docker

# 1. Клонирование репозитория
git clone https://github.com/NVIDIA-AI-Blueprints/video-search-and-summarization
cd video-search-and-summarization

# 2. Создание venv и установка зависимостей агента
curl -LsSf https://astral.sh/uv/install.sh | sh
uv venv --python 3.13
uv sync
source .venv/bin/activate

# 3. Сборка Docker-образа агента
docker buildx build --platform linux/amd64 \
  -f agent/docker/Dockerfile \
  -t vss-agent:latest --load .

# 4. Запуск через Docker Compose (базовый профиль)
docker compose --profile dev-profile-base up

Конфигурация агента задаётся через переменные окружения:

LLM_MODEL=nvidia/nvidia-nemotron-nano-9b-v2
VLM_MODEL=nvidia/cosmos-reason2-8b
VST_URL=http://HOST:30888

Тарифы и лицензирование

Использование моделей в blueprint регулируется NVIDIA AI Foundation Models Community License; на этапе preview действуют NVIDIA API Trial Terms of Service.

СценарийСтоимостьТребования
Cloud Preview (build.nvidia.com)Бесплатно (trial)NVIDIA-аккаунт
Brev Launchable (AWS облако)По тарифу облака (GPU-инстансы)NVIDIA Developer
Локальный деплойБесплатно (open source код)NVIDIA AI Enterprise лицензия для NIM
Продакшн с NIMКоммерческая лицензия NVIDIA AI EnterpriseGPU H100/A100/L40s

Для локального хостинга NVIDIA NIM требуется NVIDIA AI Enterprise developer licence. Стоимость самой лицензии AI Enterprise NVIDIA указывает через enterprise-продажи; публичного прайса нет.

⚠ Важно про данные
Лицензия на тестовые данные (LICENSE.DATA) истекает через 12 месяцев с момента загрузки. Также запрещено использовать тестовые ASSETS в коммерческих продуктах или для обучения сторонних AI-моделей без отдельного соглашения.

Плюсы и минусы

✅ Плюсы❌ Минусы
GPU-ускорение: суммаризация в 100× быстрее ручного просмотраТребует мощного NVIDIA GPU (мин. L40s для VLM)
Открытый исходный код на GitHubДля продакшн-использования NIM нужна платная NVIDIA AI Enterprise лицензия
Поддержка MCP, агентных навыков, Docker/Helm/K8sВысокий порог входа для DevOps-настройки
Работает с live-стримами и архивным видеоПривязка к экосистеме NVIDIA (GPU, NIM, Metropolis)
Готовые blueprint для склада и Smart CityОграниченные облачные платформы: AWS поддерживается, Azure/GCP — в разработке
Поддержка аудио, трекинга объектов, Graph-RAGЛицензия на тестовые данные ограничена 12 месяцами
Активно развивается: релизы выходят ежемесячноДокументация разрозненна по нескольким репозиториям
Проверенные кейсы: Pegatron, Incheon Airport, Kuala LumpurТребует технической экспертизы для кастомизации

Сравнение с альтернативами

ПараметрNVIDIA VSS BlueprintTwelve LabsAWS Rekognition Video
ТипSelf-hosted / Cloud BlueprintSaaS APICloud API
МоделиCosmos Reason 2 VLM + Nemotron LLMMarengo + PegasusAWS-проприетарные
Семантический поиск✅ Multi-embedding + VLM-critique✅ Any-to-any search❌ Метки/теги, не семантика
Суммаризация✅ Chunking + LVS✅ Pegasus Generate API❌ Отсутствует нативно
Real-time стримы✅ Сотни потоков одновременно❌ Преимущественно архивное видео✅ Событийный стриминг
Graph-RAG / CA-RAG✅ Встроен
Бесплатный уровеньTrial (build.nvidia.com)10 ч индексации60 мин/месяц, 12 месяцев
Цена (платно)Корпоративная лицензия + GPUот $0,042/мин индексацииот $0,10/мин
Требует GPU✅ Обязательно❌ (SaaS)❌ (SaaS)
КастомизацияОчень высокаяУмереннаяНизкая
Интеграция с MCP

На рынке видеоаналитики выделяются две лагеря: полнопроходные платформы вроде Mixpeek и Twelve Labs (от загрузки до семантического поиска) и модульные облачные API от Google, Microsoft и AWS. Twelve Labs обеспечивает самый простой путь к поиску по видео на естественном языке.

У Twelve Labs две ключевые модели: Marengo — мультимодальная модель эмбеддингов, захватывающая визуальный, аудио- и пространственно-временной контекст для поиска по видео, — и Pegasus — видеоязыковая модель для генерации текстовых выходов.

Amazon Rekognition Video отлично подходит командам, чьё видео уже хранится в S3 и чей стек завязан на AWS.


Вердикт: кому подойдёт?

NVIDIA VSS Blueprint — это не SaaS-сервис с красивым интерфейсом, а мощная инженерная платформа для организаций, которые:

  • Уже имеют или планируют купить GPU-инфраструктуру NVIDIA (H100, A100, L40s, DGX Spark, Jetson Thor)
  • Строят собственные производственные, городские или промышленные системы видеонаблюдения
  • Хотят полный контроль над данными — без отправки видео в сторонний облачный API
  • Нуждаются в реальном времени: сотни потоков одновременно, мгновенные алерты
  • Готовы инвестировать время DevOps и ML-инженеров в настройку

Не подойдёт, если:

  • Нет NVIDIA GPU — рассмотрите Twelve Labs или Google Video Intelligence API
  • Нужен быстрый MVP без инфраструктурных затрат
  • Команда небольшая и нет ресурсов на эксплуатацию k8s/Docker-стека
📝 Идеальный сценарий
Склад или завод с IP-камерами → VSS обрабатывает потоки → автоматически детектирует инциденты (near-miss с погрузчиком) → верифицирует через VLM → отправляет алерт оператору. Всё — на локальном GPU-сервере, данные не покидают периметр.

Рейтинг: 8.5 / 10

КритерийОценка
Функциональность9/10
Производительность10/10
Простота старта6/10
Стоимость владения6/10
Экосистема и интеграции9/10
Документация7/10

VSS — лучший выбор для enterprise-команд с GPU-инфраструктурой NVIDIA, которые строят серьёзные системы видеоаналитики с требованиями к real-time, конфиденциальности данных и масштабируемости.