trycua/cua: Open-source инфраструктура для Computer-Use агентов

«Инфраструктура для AI-агентов, которые не вызывают API — они буквально управляют компьютером.»

Cua (произносится «куа») — open-source инфраструктура для Computer-Use Agents (CUA): AI-агентов, которые видят экран, двигают мышью, печатают в полях и выполняют задачи так, как это делает человек. Проект родился как ответ на реальную инженерную боль: собирать пайплайн для управления рабочим столом из pyautogui, скриншотов и LLM вручную — занятие ненадёжное и не масштабируемое.

Cua — это компания из батча Y Combinator X25, которая остаётся строго приверженной MIT-лицензии open source.


Что такое Cua и для кого

c/ua — open-source фреймворк, позволяющий AI-агентам управлять полноценными операционными системами внутри высокопроизводительных, лёгких виртуальных контейнеров.

AI-агент, построенный на c/ua, работает в виртуальной среде и умеет: навигировать по любому интерфейсу приложений, читать экран и выполнять действия мышью и клавиатурой, переключаться между приложениями и самостоятельно отлаживать ошибки, работать в защищённом sandbox с контролируемым доступом к файлам.

Кому это нужно:

  • Разработчикам AI-агентов, которым нужна надёжная изолированная среда для экспериментов
  • ML-исследователям, тренирующим и оценивающим агентов на бенчмарках
  • Командам, строящим автоматизацию рабочих процессов для десктопных приложений
  • Инженерам, которым нужен MCP-сервер для Claude Code или Cursor
ℹ Масштаб проекта
По данным сайта cua.ai, платформой пользуются более 50 000 инженеров. Репозиторий набрал свыше 15 000 звёзд на GitHub и входит в топ GitHub Trending.

Архитектура: четыре продукта под одной крышей

Cua объединяет четыре компонента, необходимых для серьёзного построения, обучения и оценки агентов: готовые к работе sandboxes, SDK с единым API для всех ОС, набор бенчмарков (cua-bench) и Lume — слой виртуализации macOS/Linux.


graph TD
    A[cua-sandbox
SDK для создания и управления
виртуальными средами] --> E[Агент работает
в изолированной ОС] B[cua-agent
ReAct-фреймворк для запуска
агентов с LLM] --> E C[cua-bench
Бенчмарки: OSWorld,
ScreenSpot, Windows Arena] --> F[Оценка и обучение агентов] D[Lume + cua-driver
Виртуализация macOS/Linux
и macOS Driver] --> E E --> G[Cloud / Self-hosted] F --> G

Пакеты проекта

Проект состоит из следующих пакетов: cuabot — CLI для мультиагентных sandbox, cua-agent — фреймворк для computer-use задач, cua-sandbox — SDK для создания и управления sandbox, cua-computer-server — драйвер UI-взаимодействий, cua-bench — бенчмарки и RL-окружения, lume — управление macOS/Linux VM на Apple Silicon, lumier — Docker-совместимый интерфейс для Lume VM.


Ключевые возможности

1. Единый SDK для любой ОС

Один API для любого VM или контейнера — в облаке или локально. Вот как это выглядит на практике:

# Requires Python 3.11 or later
from cua import Sandbox, Image

# Один и тот же API для любой ОС
async with Sandbox.ephemeral(Image.linux()) as sb:  # или .macos() .windows() .android()
    result = await sb.shell.run("echo hello")
    screenshot = await sb.screenshot()
    await sb.mouse.click(100, 200)
    await sb.keyboard.type("Hello from Cua!")

2. Безопасные изолированные Sandboxes

Необученный или содержащий ошибки агент может случайно удалить важные файлы, изменить системные настройки или сломать среду разработки. Cua решает эту проблему с помощью защищённых изолированных контейнеров (VM и Docker), которые выступают в роли sandbox для агентов. Это гарантирует, что что бы агент ни делал, хост-система остаётся полностью нетронутой.

3. Нативный macOS Driver (cua-driver)

Агенты могут управлять любым нативным macOS-приложением в фоне — кликать, печатать и верифицировать, не перехватывая курсор, фокус или Space, даже на не-AX-поверхностях, таких как веб-контент Chromium и canvas-инструменты (Blender, Figma, DAW, игровые движки).

Поддерживается работа через CLI или MCP-сервер для Claude Code, Cursor и кастомных клиентов. Каждая сессия записывается как воспроизводимая траектория.

4. Бенчмарки и RL-окружения (cua-bench)

cua-bench позволяет оценивать компьютерных агентов на OSWorld, ScreenSpot, Windows Arena и пользовательских задачах, а также экспортировать траектории для обучения.

Запуск бенчмарка выглядит так:

# Установка и создание базового образа
cd cua-bench
uv tool install -e . && cb image create linux-docker

# Запуск бенчмарка с агентом
cb run dataset datasets/cua-bench-basic --agent cua-agent --max-parallel 4

5. Поддержка множества LLM-провайдеров

Фреймворк совместим с популярными LLM-провайдерами: OpenAI, Anthropic, а также open-source инструментами — Ollama, LM Studio и OpenRouter. Поддерживаются модели Anthropic, OpenAI, Google, Microsoft и Alibaba.

6. Снапшоты и горячий старт

Поддерживается сохранение и восстановление полного состояния sandbox. Горячий старт занимает менее 1 секунды.

7. cuabot — CLI для разработчиков

cuabot — это единая команда, которая оборачивает тяжёлую механику, позволяя любому coding-агенту получить sandbox-рабочий стол одной строкой: npx cuabot. Отдельные окна появляются нативно на вашем рабочем столе через H.265-стриминг со shared clipboard и передачей звука.

💡 Быстрый старт на macOS

Чтобы поднять macOS VM на Apple Silicon за считанные минуты:

# Установить Lume
/bin/bash -c "$(curl -fsSL https://raw.githubusercontent.com/trycua/cua/main/libs/lume/scripts/install.sh)"

# Запустить macOS Sequoia VM
lume run macos-sequoia-vanilla:latest

Производительность близка к нативной, поскольку нет дополнительного слоя гипервизора.


Тарифы и цены

Open-source SDK и локальный QEMU-путь — MIT-лицензия, бесплатно навсегда. Управляемый облачный сервис cua.ai — платный, с оплатой по использованию.

В облачной версии взимается плата за инференс модели (зависит от модели) и за время работы sandbox (почасовая тарификация).

ВариантСтоимостьОписание
Self-hosted (open-source)Бесплатно (MIT)Локальный запуск через QEMU/Docker, полный контроль
cua.ai CloudPay-as-you-goУправляемые sandboxes в облаке, первые запуски бесплатно
Lume (Apple Silicon)Бесплатно (MIT)Нативные macOS/Linux VM на M1/M2/M3/M4

Первые запуски sandbox в облаке предоставляются бесплатно при регистрации.

⚠ Ограничение локальной версии
Функции macOS VM работают только на Apple Silicon, а облачный runtime (cua.ai) — платный управляемый сервис. Локальный QEMU-путь поддерживается, но требует реального дискового пространства и терпения. Также 20–40 ГБ на VM быстро заполняют ноутбук.

Плюсы и минусы

✅ Плюсы❌ Минусы
MIT-лицензия, полностью open-sourcemacOS VM только на Apple Silicon
Единый Python API для macOS, Linux, Windows, AndroidAPI меняется быстро (нет гарантий стабильности)
Встроенные бенчмарки (OSWorld, ScreenSpot, Windows Arena)Локальный запуск требует много дискового места (20–40 ГБ/VM)
Поддержка MCP-сервера для Claude Code, CursorОблачная версия платная (pay-as-you-go)
Изоляция: агент не может навредить хост-системеТочность лучших моделей на OSWorld — 30–50%
Запись каждой сессии как воспроизводимой траекторииMCP для Windows VM ещё «сырой»
Поддержка OpenAI, Anthropic, Ollama, OpenRouter и др.Требует Python 3.11+
Горячий старт sandbox менее чем за 1 секундуДокументация для некоторых компонентов неполная

Сравнение с альтернативами

Ближайшие конкуренты — E2B Desktop и Daytona. E2B Desktop хорош для Linux. Преимущество Cua — покрытие нескольких ОС (особенно macOS) и наличие бенчмарков и Driver-компонента.

Параметрtrycua/cuaE2B DesktopBrowserbase
ЛицензияMIT (open-source)Open-source + платный cloudПлатный SaaS
ОСmacOS, Linux, Windows, AndroidLinux (Windows в планах)Только браузер
Нативный macOS✅ (Apple Silicon)
Встроенные бенчмарки✅ OSWorld, ScreenSpot, Windows Arena
MCP-интеграция✅ Claude Code, Cursor
Запись траекторийЧастично
Горячий старт< 1 сек~1–4 секN/A
Self-hosted✅ полностью
ФокусПолный desktop (GUI + shell)Code sandbox + Linux desktopWeb-браузер

E2B — более зрелая платформа с акцентом на code sandbox и enterprise-поддержкой (используется Fortune 100-компаниями). Browserbase специализируется исключительно на headless-браузерах и не подходит для нативных десктопных задач. Cua выигрывает там, где нужен полноценный GUI-контроль над несколькими ОС.


Примеры применения

📝 CAD и творческие инструменты
Например: CAD Copilot — модификация 3D-моделей в Fusion 360 или FreeCAD. Аналогично агенты работают в Blender, Figma, DAW и игровых движках — включая canvas-интерфейсы, недоступные через Accessibility API.

Другие сценарии:

  • Тестирование UI — прогон пользовательских сценариев на разных ОС в CI/CD
  • RPA нового поколения — замена хрупких скриптов автоматизации на агентов с vision-LLM
  • Обучение моделей — экспорт записанных траекторий для RL-тренировки собственных агентов
  • Интеграция в IDE — Claude Code и Cursor получают инструменты управления рабочим столом через MCP

Вердикт

Честное ограничение: функции macOS VM работают только на Apple Silicon, а облачный runtime (cua.ai) — платный managed-сервис. cua-agent предоставляет стандартный ReAct-цикл, но точность SOTA-моделей на OSWorld составляет 30–50% — это ещё не «технология для бабушки».

Но при всём этом: Cua — первый проект, который воспринимает computer-use как настоящую инфраструктуру, а не weekend-хак.

Кому подойдёт:

  • ML-инженерам и исследователям, строящим и оценивающим CUA-агентов
  • Командам, нуждающимся в воспроизводимом, изолированном окружении для тестирования
  • Разработчикам на Apple Silicon, которым нужен нативный macOS sandbox
  • Всем, кто интегрирует агентные инструменты в Claude Code или Cursor

Кому НЕ подойдёт:

  • Тем, кто хочет готового коробочного агента «под ключ» (Cua — инфраструктура, а не агент)
  • Пользователям Windows/Intel без Apple Silicon для macOS VM
  • Проектам, требующим только браузерной автоматизации (лучше подойдёт Browserbase или Playwright)

Рейтинг: 8.5 / 10

КритерийОценка
Функциональность9/10
Документация7/10
Удобство старта8/10
Стабильность API7/10
Ценность для open-source сообщества10/10

Ссылки: