ARIS: ИИ-агент для ML-исследований пока вы спите

Пока вы спите — агент пишет статью

ARIS позволяет Claude Code вести исследования пока вы спите: утром вас ждут оценённая статья, выявленные слабые места, проведённые эксперименты и переписанный нарратив — всё автономно. Проект на GitHub уже набрал более 8 400 звёзд и 780+ форков, а первые результаты показывают: начальные черновики, созданные инструментом, получили оценки ИИ-рецензентов 7–8/10, а работы были отправлены на топовые конференции — AAAI 2026 и IEEE TGRS, что говорит о выходе полностью автоматизированных исследований за рамки «демо».

Что такое ARIS

ARIS (Auto-Research-In-Sleep) — система автономного исследовательского воркфлоу (рабочего процесса) для ML/AI-учёных, цель которой — позволить исследователям пройти весь путь от обзора литературы и генерации идей до запуска экспериментов, написания статьи и подготовки ответа рецензентам с минимальным вмешательством человека.

Авторы позиционируют ARIS именно как методологию, а не платформу: главное — рабочий процесс исследования, который можно перенести куда угодно.

ℹ Ключевая идея

ARIS — это не очередной AI-фреймворк с зависимостями. Вся система состоит из обычных Markdown-файлов, которые читает любой LLM-агент.

Архитектура: два агента лучше, чем один

Ключевой механизм — кросс-модельная (cross-model) коллаборация: Claude Code ведёт исследование, а внешний LLM через Codex MCP (Model Context Protocol) выступает критическим рецензентом.

Почему именно две модели? Авторы объясняют это через теорию игр: одна модель, рецензирующая собственную работу, скатывается к локальным минимумам — как стохастический бандит с предсказуемым шумом. Две разные модели создают настоящую состязательную (adversarial) динамику, аналогичную равновесию Нэша в двухигровых сценариях.

Система также поддерживает альтернативные комбинации моделей — Kimi, LongCat, DeepSeek и другие — без необходимости использовать API Claude или OpenAI.


graph LR
    A[Исследователь даёт направление] --> B[/idea-discovery\nПоиск идей + обзор литературы]
    B --> C[/experiment-bridge\nЗапуск GPU-экспериментов]
    C --> D[Claude Code\nВыполнение]
    D -->|результаты| E[/auto-review-loop\nВнешний LLM-рецензент]
    E -->|правки| D
    E --> F[/paper-writing\nНаписание статьи в LaTeX]
    F --> G[Готовый PDF для подачи]

Радикальная лёгкость без зависимостей

Вся система — это обычные Markdown-файлы. Никакого фреймворка, никакой базы данных, никакого Docker и фоновых процессов. Каждый навык (skill) — единственный файл SKILL.md, читаемый любым LLM: можно заменить Claude Code на Codex CLI, OpenClaw, Cursor, Trae, Antigravity, Windsurf или собственного агента — воркфлоу продолжит работать.

Основные возможности и режимы работы

Режим	Команда	Что делает
Базовый	`/research-pipeline "тема"`	Полный цикл: идея → статья
Целевой	`/research-pipeline "улучши X" — ref paper: arxiv...`	Читает статью, находит слабости, фиксирует их
Ребуттал	`/rebuttal "paper/ + reviews" — venue: ICML`	Разбирает рецензии и готовит ответ
Планирование	`/plan`	Пошаговое планирование перед запуском
Мета-оптимизация	`/meta-optimize`	Агент улучшает собственные навыки

💡 Targeted mode — мощный инструмент

Целевой режим особенно полезен: укажите статью с arXiv и репозиторий — ARIS прочитает работу, найдёт пробелы, клонирует кодовую базу и сгенерирует идеи, которые устраняют именно эти слабости, используя именно этот код.

Что нового в версиях 0.4.5 и 0.4.6

Версия 0.4.5 (13 мая 2026) принесла полноценную поддержку reasoning-моделей — thinking-блоки сквозным образом и параметр reasoning_effort='xhigh' для GPT-5.5, o1, o3, o4 и DeepSeek-thinking. Добавлены DeepSeek V4 Pro, Xiaomi MiMo, Qwen 3.6 и Doubao в настройках /setup. Дефолтная модель поднята до Claude Opus 4.7 + GPT-5.5.

В версии 0.4.6 (14 мая 2026) исправлены два долгоживущих скрытых бага:

⚠ Важные исправления в v0.4.6

Баг 1: PermissionMode::Prompt из-за ошибки derived-Ord молча разрешал все инструменты — теперь запросы корректно маршрутизируются к пользователю.

Баг 2: В системном промпте была захардкожена дата current_date = "2026-03-31" — из-за этого модели отвергали реальные данные после этой даты (в том числе статьи пользователей на arXiv) как «будущее / prompt injection». Теперь используется реальное системное время.

Также в 0.4.6 появилась поддержка кастомных OpenAI-совместимых провайдеров с динамическим обнаружением моделей через /setup — благодаря вкладу сообщества.

Реальные результаты

В реальном ночном прогоне из четырёх раундов на ML-проекте — от «пограничного отклонения» до «готово к подаче» — система автономно провела более 20 GPU-экспериментов, переписала нарративную структуру статьи и убрала заявления, которые не выдержали проверки, — всё без участия человека.

В тестовом прогоне была сгенерирована 9-страничная теоретическая статья в стиле ICLR 2026 (7 разделов, 29 цитат, 4 рисунка, 2 сравнительные таблицы) из одного файла NARRATIVE_REPORT.md — без единой ошибки компиляции и неопределённых ссылок.

📝 Пример команды

# Базовый запуск — ARIS сам найдёт идеи и напишет статью
/research-pipeline "factorized gap in discrete diffusion LMs"

# Улучшение конкретной статьи с кодом
/research-pipeline "improve method X" \
  -- ref paper: https://arxiv.org/abs/2406.04329, \
     base repo: https://github.com/org/project

Значение для отрасли

ARIS-Code интегрируется с внешними системами: двусторонняя синхронизация с Overleaf, мониторинг кривых обучения через W&B и мобильные push-уведомления через Lark — когда эксперименты на GPU достигают ключевой точки, вы мгновенно получаете уведомление на телефон.

При этом авторы честно предупреждают: ARIS оптимизирован под AI-системы рецензирования, поэтому высокие оценки от ИИ-рецензентов — ожидаемое следствие воркфлоу, а не независимое доказательство качества. Человеческие рецензенты видят аспекты, которые AI-системы рецензирования не улавливают.

Тем не менее проект задаёт новую планку: автоматизация полного цикла научного исследования перестала быть экспериментом и превращается в рабочий инструмент для реальных публикаций.

«ARIS — это методология, а не платформа. Важен исследовательский воркфлоу — берите его куда угодно.» — авторы проекта

Репозиторий: github.com/wanshuiyin/Auto-claude-code-research-in-sleep

Пока вы спите — агент пишет статью

Что такое ARIS

Архитектура: два агента лучше, чем один

Радикальная лёгкость без зависимостей

Основные возможности и режимы работы

Что нового в версиях 0.4.5 и 0.4.6

Реальные результаты

Значение для отрасли

Источники

Похожие статьи

PraisonAI: автономные AI-агенты за 5 строк кода

LLMs с нуля: легендарный репозиторий на GitHub с 92К звёзд

Qwen3.6-35B-A3B: мощный ИИ для кодинга теперь открыт

Open WebUI: мощная self-hosted платформа для локального AI

Разработчик выпустил open-source систему анализа акций на базе ИИ