
video-use: монтаж видео через AI-агента в терминале
video-use — опенсорс-инструмент от команды browser-use: бросаете видео в папку, пишете Claude Code «смонтируй», получаете final.mp4.
Видеомонтаж через чат с агентом — без таймлайна и пресетов
Команда browser-use представила video-use — полностью открытый инструмент, который позволяет монтировать видео прямо через Claude Code. Он работает с любым типом контента — интервью, туториалы, путешествия, монтажи — без пресетов и меню. На момент публикации проект набрал около 4 200 звёзд на GitHub.
Что умеет video-use
Инструмент автоматически нарезает клипы, удаляет слова-паразиты, добавляет субтитры, применяет цветокоррекцию, управляет анимациями и рендерит финальный результат — без таймлайна, перетаскивания и проблем с дрейфом аудио.
| Функция | Детали |
|---|---|
| Удаление «мусора» | «умм», «эм», false-старты, паузы между дублями |
| Color grading (цветокоррекция) | Warm cinematic, neutral punch, или любая кастомная ffmpeg-цепочка |
| Аудио-фейды | 30 мс на каждом стыке — никаких щелчков |
| Субтитры | 2-словные UPPERCASE-блоки по умолчанию, полностью настраиваемые |
| Анимации | HyperFrames, Remotion, Manim, PIL — параллельные суб-агенты |
| Память сессии | project.md хранит историю: следующая сессия продолжит с того же места |
Одна команда в Claude Code запускает установку и настройку:
Set up https://github.com/browser-use/video-use for me.
Агент сам клонирует репозиторий, установит зависимости, зарегистрирует скилл и попросит API-ключ ElevenLabs.
Как это работает: LLM читает видео, а не смотрит его
Наивный подход: 30 000 кадров × 1 500 токенов = 45 млн токенов шума. Video-use: 12 КБ текста + несколько PNG.
LLM никогда не «смотрит» видео — он его читает, через два слоя, которые вместе дают всё необходимое для точных порезов на границах слов.
Слой 1 — аудиотранскрипт. Один вызов ElevenLabs Scribe на каждый источник даёт временны́е метки на уровне слов, диаризацию (разделение спикеров) и аудио-события — (laughter), (applause), (sigh). ElevenLabs Scribe v2 — модель с распознаванием речи в 90+ языках, точными временны́ми метками на уровне слов и поддержкой до 32 спикеров.
Слой 2 — визуальный композит (по запросу). Функция timeline_view генерирует PNG-«плёнку» с формой волны и подписями слов — только в точках принятия решений: неоднозначная пауза, сравнение дублей, проверка точки нарезки.
Разработчики сравнивают подход с тем, как browser-use даёт LLM структурированный DOM вместо скриншота — только здесь это применяется к видео.
graph LR
A[Транскрипция\nElevenLabs Scribe] --> B[Упаковка\ntakes_packed.md]
B --> C[LLM анализирует\nи предлагает стратегию]
C --> D{Ваше OK?}
D -->|Да| E[EDL — список\nточек нарезки]
E --> F[Рендер\nffmpeg]
F --> G[Self-eval\nна каждом стыке]
G -->|Проблема| F
G -->|Чисто| H[edit/final.mp4]
video-use превращает видеомонтаж в аудируемый агентский воркфлоу: транскрипты, списки решений о нарезке и шаги рендеринга можно просмотреть до начала продакшена.
Установка вручную
# 1. Клонируем и линкуем в директорию скиллов агента
git clone https://github.com/browser-use/video-use ~/Developer/video-use
ln -sfn ~/Developer/video-use ~/.claude/skills/video-use # Claude Code
# 2. Устанавливаем зависимости
cd ~/Developer/video-use
uv sync # или: pip install -e .
brew install ffmpeg # обязательно
brew install yt-dlp # опционально — для загрузки онлайн-источников
# 3. Добавляем API-ключ ElevenLabs
cp .env.example .env
# ELEVENLABS_API_KEY=...
Также потребуется доступ к LLM-провайдеру — Claude Code, OpenAI Codex, Hermes или OpenClaw — и API-ключ ElevenLabs для транскрипционного слоя Scribe.
Рабочий процесс в одной команде
После установки достаточно перейти в папку с отснятым материалом и запустить агента:
cd /path/to/your/videos
claude # или codex, hermes и т.д.
Затем в сессии написать, например:
edit these into a launch video
Агент инвентаризирует источники, предложит стратегию, дождётся вашего подтверждения и создаст edit/final.mp4 рядом с исходниками. Можно начать монтаж с Claude Code, поставить на паузу и продолжить на следующий день с Codex — новый агент будет точно знать, что уже сделано и что осталось.
transcribe.py и обеспечить совместимость с временны́ми метками на уровне слов и диаризацией.Почему это важно для отрасли
video-use — не просто умный видеоредактор: это proof-of-concept для более широкого тренда, когда AI-агенты работают со структурированными представлениями медиа вместо сырых данных. Идея — анализировать DOM вместо скриншота, читать транскрипт вместо просмотра видео — трансформирует подход AI к любым типам богатых медиа.
Вместо управления браузером video-use даёт AI-агенту контроль над ffmpeg, системами отжига субтитров, рендерерами анимаций и пайплайнами цветокоррекции — всё через команды на естественном языке.
Проект полностью открытый, активно развивается и доступен на GitHub: browser-use/video-use.