Видеомонтаж через чат с агентом — без таймлайна и пресетов

Команда browser-use представила video-use — полностью открытый инструмент, который позволяет монтировать видео прямо через Claude Code. Он работает с любым типом контента — интервью, туториалы, путешествия, монтажи — без пресетов и меню. На момент публикации проект набрал около 4 200 звёзд на GitHub.


Что умеет video-use

Инструмент автоматически нарезает клипы, удаляет слова-паразиты, добавляет субтитры, применяет цветокоррекцию, управляет анимациями и рендерит финальный результат — без таймлайна, перетаскивания и проблем с дрейфом аудио.

ФункцияДетали
Удаление «мусора»«умм», «эм», false-старты, паузы между дублями
Color grading (цветокоррекция)Warm cinematic, neutral punch, или любая кастомная ffmpeg-цепочка
Аудио-фейды30 мс на каждом стыке — никаких щелчков
Субтитры2-словные UPPERCASE-блоки по умолчанию, полностью настраиваемые
АнимацииHyperFrames, Remotion, Manim, PIL — параллельные суб-агенты
Память сессииproject.md хранит историю: следующая сессия продолжит с того же места
💡 Как запустить

Одна команда в Claude Code запускает установку и настройку:

Set up https://github.com/browser-use/video-use for me.

Агент сам клонирует репозиторий, установит зависимости, зарегистрирует скилл и попросит API-ключ ElevenLabs.


Как это работает: LLM читает видео, а не смотрит его

Наивный подход: 30 000 кадров × 1 500 токенов = 45 млн токенов шума. Video-use: 12 КБ текста + несколько PNG.

LLM никогда не «смотрит» видео — он его читает, через два слоя, которые вместе дают всё необходимое для точных порезов на границах слов.

Слой 1 — аудиотранскрипт. Один вызов ElevenLabs Scribe на каждый источник даёт временны́е метки на уровне слов, диаризацию (разделение спикеров) и аудио-события — (laughter), (applause), (sigh). ElevenLabs Scribe v2 — модель с распознаванием речи в 90+ языках, точными временны́ми метками на уровне слов и поддержкой до 32 спикеров.

Слой 2 — визуальный композит (по запросу). Функция timeline_view генерирует PNG-«плёнку» с формой волны и подписями слов — только в точках принятия решений: неоднозначная пауза, сравнение дублей, проверка точки нарезки.

Разработчики сравнивают подход с тем, как browser-use даёт LLM структурированный DOM вместо скриншота — только здесь это применяется к видео.


graph LR
    A[Транскрипция\nElevenLabs Scribe] --> B[Упаковка\ntakes_packed.md]
    B --> C[LLM анализирует\nи предлагает стратегию]
    C --> D{Ваше OK?}
    D -->|Да| E[EDL — список\nточек нарезки]
    E --> F[Рендер\nffmpeg]
    F --> G[Self-eval\nна каждом стыке]
    G -->|Проблема| F
    G -->|Чисто| H[edit/final.mp4]

video-use превращает видеомонтаж в аудируемый агентский воркфлоу: транскрипты, списки решений о нарезке и шаги рендеринга можно просмотреть до начала продакшена.


Установка вручную

# 1. Клонируем и линкуем в директорию скиллов агента
git clone https://github.com/browser-use/video-use ~/Developer/video-use
ln -sfn ~/Developer/video-use ~/.claude/skills/video-use  # Claude Code

# 2. Устанавливаем зависимости
cd ~/Developer/video-use
uv sync  # или: pip install -e .
brew install ffmpeg  # обязательно
brew install yt-dlp  # опционально — для загрузки онлайн-источников

# 3. Добавляем API-ключ ElevenLabs
cp .env.example .env
# ELEVENLABS_API_KEY=...

Также потребуется доступ к LLM-провайдеру — Claude Code, OpenAI Codex, Hermes или OpenClaw — и API-ключ ElevenLabs для транскрипционного слоя Scribe.

ℹ Поддерживаемые агенты
vidео-use работает с Claude Code, Codex, Hermes, Openclaw и любым агентом с доступом к shell. Для постоянной работы с VPS или Telegram можно запустить агента через Browser Use Box.

Рабочий процесс в одной команде

После установки достаточно перейти в папку с отснятым материалом и запустить агента:

cd /path/to/your/videos
claude  # или codex, hermes и т.д.

Затем в сессии написать, например:

edit these into a launch video

Агент инвентаризирует источники, предложит стратегию, дождётся вашего подтверждения и создаст edit/final.mp4 рядом с исходниками. Можно начать монтаж с Claude Code, поставить на паузу и продолжить на следующий день с Codex — новый агент будет точно знать, что уже сделано и что осталось.

⚠ Зависимость от ElevenLabs
В текущей реализации транскрипция строится на ElevenLabs Scribe. Если нужно заменить на Whisper или AssemblyAI, придётся вручную модифицировать transcribe.py и обеспечить совместимость с временны́ми метками на уровне слов и диаризацией.

Почему это важно для отрасли

video-use — не просто умный видеоредактор: это proof-of-concept для более широкого тренда, когда AI-агенты работают со структурированными представлениями медиа вместо сырых данных. Идея — анализировать DOM вместо скриншота, читать транскрипт вместо просмотра видео — трансформирует подход AI к любым типам богатых медиа.

Вместо управления браузером video-use даёт AI-агенту контроль над ffmpeg, системами отжига субтитров, рендерерами анимаций и пайплайнами цветокоррекции — всё через команды на естественном языке.

Проект полностью открытый, активно развивается и доступен на GitHub: browser-use/video-use.