LoRA для анализа данных: 9B-модель справляется с 89% задач без человека

Разработчик из сообщества r/LocalLLaMA обучил LoRA-адаптер (Low-Rank Adaptation — метод лёгкой дообучения нейросети) на базе модели CoPaw-Flash-9B, превратив компактную 9-миллиардную модель в автономного аналитика данных. Базовая модель не справлялась с комплексными аналитическими задачами ни разу, а после дообучения — завершает 89% рабочих процессов полностью без вмешательства человека.

Проблема: маленькие модели не умеют быть самостоятельными

Большинство open-source моделей в диапазоне 4B–14B параметров работают как «продвинутые вызыватели функций». Дай им открытый запрос вроде «Проанализируй этот датасет и дай мне инсайты» — они выполнят один шаг, остановятся и будут ждать, пока человек скажет «продолжай».

ℹ В чём разница

Обычный tool-calling — модель вызывает одну функцию и ждёт следующей инструкции. Агентное поведение — модель сама планирует цепочку действий, выполняет их, обрабатывает ошибки и доводит задачу до конца.

Автор проекта поставил вопрос: можно ли «зашить» настоящую автономность прямо в веса компактной модели — без массивных внешних фреймворков и сложных систем промптинга?

Что именно сделано

За основу взята модель CoPaw-Flash-9B от команды AgentScope (Alibaba). Это не обычная чат-модель — она изначально оптимизирована для агентных сценариев: вызов инструментов, выполнение команд, управление памятью, многошаговое планирование. Архитектура — Qwen3.5-9B.

Ключ к результату — в тренировочных данных. Вместо стандартного instruction tuning (дообучение на парах «вопрос-ответ») автор создал многошаговые трассировки — записи полных рабочих сессий, где модель:

Получает открытый запрос
Планирует последовательность действий
Пишет и выполняет Python-код
Обрабатывает ошибки и повторяет
Строит визуализации
Формулирует выводы

Данные покрывали реальные сценарии из финансов, образования и спортивной аналитики.


graph TD
    A[Открытый запрос пользователя] --> B[Планирование шагов]
    B --> C[Генерация Python-кода]
    C --> D{Код выполнен?}
    D -->|Ошибка| E[Отладка и исправление]
    E --> C
    D -->|Успех| F[Визуализация данных]
    F --> G[Анализ результатов]
    G --> H{Задача решена?}
    H -->|Нет| B
    H -->|Да| I[Итоговый отчёт]

Результаты

Метрика	Базовая модель	После LoRA
Завершение полного workflow	0%	89%
Самостоятельная отладка кода	Нет	Да
Построение визуализаций	Нет	Да
Формирование итоговых выводов	Нет	Да
Размер модели	9B параметров	9B + LoRA-адаптер

Модель не просто вызывает инструменты — она планирует, пишет код, отлаживает его и доводит анализ до конца в непрерывном цикле.

⚠ Важный нюанс

Цифра 89% получена автором на собственных тестовых сценариях. Независимых бенчмарков и рецензий пока нет — результаты стоит воспринимать как предварительные.

Почему это важно

Проект CoPaw-Flash-9B DataAnalyst уже демонстрирует работу модели на 29 аналитических задачах в 16 доменах — без участия человека. Это один из первых примеров, когда по-настоящему агентное поведение достигается в модели, способной работать на обычном потребительском GPU.

💡 Для практиков

Qwen3.5-9B поддерживает контекст до 256K токенов и работает в режимах thinking/non-thinking. Модель можно запустить локально через llama.cpp или Ollama, а LoRA-адаптеры применяются поверх базовых весов без полного дообучения.

Подход интересен ещё и тем, что это не проприетарное решение крупной компании, а работа независимого разработчика. Это подтверждает тренд: LoRA-дообучение на качественных, специально сконструированных данных может давать впечатляющие результаты даже на компактных моделях — если правильно подобрать формат тренировочных данных.

В сообществе LocalLLaMA пост вызвал активное обсуждение. Пользователей особенно заинтересовала методология создания тренировочных данных — многошаговых трассировок вместо простых пар «инструкция-ответ». Этот приём потенциально применим к любым агентным задачам, не только к анализу данных.

Проблема: маленькие модели не умеют быть самостоятельными

Что именно сделано

Результаты

Почему это важно

Источники

Похожие статьи

Тонкая настройка открытых моделей: когда нужна и как делать

Fine-tuning LLM: когда нужно и как сделать

DeepSeek V4 Pro догнал GPT-5.2 за 10 недель и в 17 раз дешевле

Vibe coding: как программисты экономят деньги с помощью ИИ

GLM 5.1 обходит все модели, кроме Opus, втрое дешевле