ARIS: ИИ-агент для ML-исследований пока вы спите
ARIS (Auto-Research-In-Sleep) — open-source система на основе Claude Code для автономного ML-исследования: от идеи до готовой статьи без участия человека.
Пока вы спите — агент пишет статью
ARIS позволяет Claude Code вести исследования пока вы спите: утром вас ждут оценённая статья, выявленные слабые места, проведённые эксперименты и переписанный нарратив — всё автономно. Проект на GitHub уже набрал более 8 400 звёзд и 780+ форков, а первые результаты показывают: начальные черновики, созданные инструментом, получили оценки ИИ-рецензентов 7–8/10, а работы были отправлены на топовые конференции — AAAI 2026 и IEEE TGRS, что говорит о выходе полностью автоматизированных исследований за рамки «демо».
Что такое ARIS
ARIS (Auto-Research-In-Sleep) — система автономного исследовательского воркфлоу (рабочего процесса) для ML/AI-учёных, цель которой — позволить исследователям пройти весь путь от обзора литературы и генерации идей до запуска экспериментов, написания статьи и подготовки ответа рецензентам с минимальным вмешательством человека.
Авторы позиционируют ARIS именно как методологию, а не платформу: главное — рабочий процесс исследования, который можно перенести куда угодно.
Архитектура: два агента лучше, чем один
Ключевой механизм — кросс-модельная (cross-model) коллаборация: Claude Code ведёт исследование, а внешний LLM через Codex MCP (Model Context Protocol) выступает критическим рецензентом.
Почему именно две модели? Авторы объясняют это через теорию игр: одна модель, рецензирующая собственную работу, скатывается к локальным минимумам — как стохастический бандит с предсказуемым шумом. Две разные модели создают настоящую состязательную (adversarial) динамику, аналогичную равновесию Нэша в двухигровых сценариях.
Система также поддерживает альтернативные комбинации моделей — Kimi, LongCat, DeepSeek и другие — без необходимости использовать API Claude или OpenAI.
graph LR
A[Исследователь даёт направление] --> B[/idea-discovery\nПоиск идей + обзор литературы]
B --> C[/experiment-bridge\nЗапуск GPU-экспериментов]
C --> D[Claude Code\nВыполнение]
D -->|результаты| E[/auto-review-loop\nВнешний LLM-рецензент]
E -->|правки| D
E --> F[/paper-writing\nНаписание статьи в LaTeX]
F --> G[Готовый PDF для подачи]
Радикальная лёгкость без зависимостей
Вся система — это обычные Markdown-файлы. Никакого фреймворка, никакой базы данных, никакого Docker и фоновых процессов. Каждый навык (skill) — единственный файл SKILL.md, читаемый любым LLM: можно заменить Claude Code на Codex CLI, OpenClaw, Cursor, Trae, Antigravity, Windsurf или собственного агента — воркфлоу продолжит работать.
Основные возможности и режимы работы
| Режим | Команда | Что делает |
|---|---|---|
| Базовый | /research-pipeline "тема" | Полный цикл: идея → статья |
| Целевой | /research-pipeline "улучши X" — ref paper: arxiv... | Читает статью, находит слабости, фиксирует их |
| Ребуттал | /rebuttal "paper/ + reviews" — venue: ICML | Разбирает рецензии и готовит ответ |
| Планирование | /plan | Пошаговое планирование перед запуском |
| Мета-оптимизация | /meta-optimize | Агент улучшает собственные навыки |
Что нового в версиях 0.4.5 и 0.4.6
Версия 0.4.5 (13 мая 2026) принесла полноценную поддержку reasoning-моделей — thinking-блоки сквозным образом и параметр reasoning_effort='xhigh' для GPT-5.5, o1, o3, o4 и DeepSeek-thinking. Добавлены DeepSeek V4 Pro, Xiaomi MiMo, Qwen 3.6 и Doubao в настройках /setup. Дефолтная модель поднята до Claude Opus 4.7 + GPT-5.5.
В версии 0.4.6 (14 мая 2026) исправлены два долгоживущих скрытых бага:
Баг 1: PermissionMode::Prompt из-за ошибки derived-Ord молча разрешал все инструменты — теперь запросы корректно маршрутизируются к пользователю.
Баг 2: В системном промпте была захардкожена дата current_date = "2026-03-31" — из-за этого модели отвергали реальные данные после этой даты (в том числе статьи пользователей на arXiv) как «будущее / prompt injection». Теперь используется реальное системное время.
Также в 0.4.6 появилась поддержка кастомных OpenAI-совместимых провайдеров с динамическим обнаружением моделей через /setup — благодаря вкладу сообщества.
Реальные результаты
В реальном ночном прогоне из четырёх раундов на ML-проекте — от «пограничного отклонения» до «готово к подаче» — система автономно провела более 20 GPU-экспериментов, переписала нарративную структуру статьи и убрала заявления, которые не выдержали проверки, — всё без участия человека.
В тестовом прогоне была сгенерирована 9-страничная теоретическая статья в стиле ICLR 2026 (7 разделов, 29 цитат, 4 рисунка, 2 сравнительные таблицы) из одного файла NARRATIVE_REPORT.md — без единой ошибки компиляции и неопределённых ссылок.
# Базовый запуск — ARIS сам найдёт идеи и напишет статью
/research-pipeline "factorized gap in discrete diffusion LMs"
# Улучшение конкретной статьи с кодом
/research-pipeline "improve method X" \
-- ref paper: https://arxiv.org/abs/2406.04329, \
base repo: https://github.com/org/project
Значение для отрасли
ARIS-Code интегрируется с внешними системами: двусторонняя синхронизация с Overleaf, мониторинг кривых обучения через W&B и мобильные push-уведомления через Lark — когда эксперименты на GPU достигают ключевой точки, вы мгновенно получаете уведомление на телефон.
При этом авторы честно предупреждают: ARIS оптимизирован под AI-системы рецензирования, поэтому высокие оценки от ИИ-рецензентов — ожидаемое следствие воркфлоу, а не независимое доказательство качества. Человеческие рецензенты видят аспекты, которые AI-системы рецензирования не улавливают.
Тем не менее проект задаёт новую планку: автоматизация полного цикла научного исследования перестала быть экспериментом и превращается в рабочий инструмент для реальных публикаций.
«ARIS — это методология, а не платформа. Важен исследовательский воркфлоу — берите его куда угодно.» — авторы проекта
Репозиторий: github.com/wanshuiyin/Auto-claude-code-research-in-sleep