Разработчик из сообщества r/LocalLLaMA обучил LoRA-адаптер (Low-Rank Adaptation — метод лёгкой дообучения нейросети) на базе модели CoPaw-Flash-9B, превратив компактную 9-миллиардную модель в автономного аналитика данных. Базовая модель не справлялась с комплексными аналитическими задачами ни разу, а после дообучения — завершает 89% рабочих процессов полностью без вмешательства человека.

Проблема: маленькие модели не умеют быть самостоятельными

Большинство open-source моделей в диапазоне 4B–14B параметров работают как «продвинутые вызыватели функций». Дай им открытый запрос вроде «Проанализируй этот датасет и дай мне инсайты» — они выполнят один шаг, остановятся и будут ждать, пока человек скажет «продолжай».

ℹ В чём разница
Обычный tool-calling — модель вызывает одну функцию и ждёт следующей инструкции. Агентное поведение — модель сама планирует цепочку действий, выполняет их, обрабатывает ошибки и доводит задачу до конца.

Автор проекта поставил вопрос: можно ли «зашить» настоящую автономность прямо в веса компактной модели — без массивных внешних фреймворков и сложных систем промптинга?

Что именно сделано

За основу взята модель CoPaw-Flash-9B от команды AgentScope (Alibaba). Это не обычная чат-модель — она изначально оптимизирована для агентных сценариев: вызов инструментов, выполнение команд, управление памятью, многошаговое планирование. Архитектура — Qwen3.5-9B.

Ключ к результату — в тренировочных данных. Вместо стандартного instruction tuning (дообучение на парах «вопрос-ответ») автор создал многошаговые трассировки — записи полных рабочих сессий, где модель:

  1. Получает открытый запрос
  2. Планирует последовательность действий
  3. Пишет и выполняет Python-код
  4. Обрабатывает ошибки и повторяет
  5. Строит визуализации
  6. Формулирует выводы

Данные покрывали реальные сценарии из финансов, образования и спортивной аналитики.


graph TD
    A[Открытый запрос пользователя] --> B[Планирование шагов]
    B --> C[Генерация Python-кода]
    C --> D{Код выполнен?}
    D -->|Ошибка| E[Отладка и исправление]
    E --> C
    D -->|Успех| F[Визуализация данных]
    F --> G[Анализ результатов]
    G --> H{Задача решена?}
    H -->|Нет| B
    H -->|Да| I[Итоговый отчёт]

Результаты

МетрикаБазовая модельПосле LoRA
Завершение полного workflow0%89%
Самостоятельная отладка кодаНетДа
Построение визуализацийНетДа
Формирование итоговых выводовНетДа
Размер модели9B параметров9B + LoRA-адаптер

Модель не просто вызывает инструменты — она планирует, пишет код, отлаживает его и доводит анализ до конца в непрерывном цикле.

⚠ Важный нюанс
Цифра 89% получена автором на собственных тестовых сценариях. Независимых бенчмарков и рецензий пока нет — результаты стоит воспринимать как предварительные.

Почему это важно

Проект CoPaw-Flash-9B DataAnalyst уже демонстрирует работу модели на 29 аналитических задачах в 16 доменах — без участия человека. Это один из первых примеров, когда по-настоящему агентное поведение достигается в модели, способной работать на обычном потребительском GPU.

💡 Для практиков
Qwen3.5-9B поддерживает контекст до 256K токенов и работает в режимах thinking/non-thinking. Модель можно запустить локально через llama.cpp или Ollama, а LoRA-адаптеры применяются поверх базовых весов без полного дообучения.

Подход интересен ещё и тем, что это не проприетарное решение крупной компании, а работа независимого разработчика. Это подтверждает тренд: LoRA-дообучение на качественных, специально сконструированных данных может давать впечатляющие результаты даже на компактных моделях — если правильно подобрать формат тренировочных данных.

В сообществе LocalLLaMA пост вызвал активное обсуждение. Пользователей особенно заинтересовала методология создания тренировочных данных — многошаговых трассировок вместо простых пар «инструкция-ответ». Этот приём потенциально применим к любым агентным задачам, не только к анализу данных.