
Qwen3 вместо Claude: опыт разработчиков на локальных LLM
Разработчики на Hacker News делятся реальным опытом замены Claude и GPT на локальные модели. Что работает, а что нет.
Реально ли заменить Claude локальной моделью для ежедневного кодинга?
Тред на Hacker News «Ask HN: Has anyone replaced Claude/GPT with a local model for daily coding?» набрал более 600 голосов и 300 комментариев — это явно больная тема. Разработчики делятся живыми кейсами: у кого-то локальный стек уже заменяет Claude в продакшне, у кого-то пока только «на поиграться». Главный вывод: это реально, но с оговорками.
Qwen3.6-35B-A3B как фаворит для агентного кодирования
Qwen3.6-35B-A3B — последняя открытая MoE-модель (Mixture of Experts, смесь экспертов) от Alibaba: 35 миллиардов параметров суммарно, но при генерации каждого токена активируются лишь 3 миллиарда. Это делает её исключительно эффективной для локального развёртывания.
Несмотря на компактность, Qwen3.6-35B-A3B показывает выдающиеся результаты в агентном кодировании — значительно превосходит предшественницу Qwen3.5-35B-A3B и конкурирует с куда более крупными плотными моделями, такими как Qwen3.5-27B и Gemma4-31B.
Автор треда Greenpants рассказывает, что полностью перешёл на локальный стек из соображений конфиденциальности и бесплатности. Он запускает Qwen3.6-35B через Pi coding harness (агентный фреймворк для кодинга) в контейнере без доступа к интернету на Mac Studio с 128 ГБ RAM.
Qwen3.6 35b в агентном режиме — как джуниор со знаниями во всех областях, которого нужно постоянно направлять, тогда как Claude Opus — как сеньор, который думает вместе с тобой об архитектуре.
При этом автор оценивает локальную модель в 5× ускорение по сравнению с ручным кодингом, а Claude Opus — в 15×. Разница есть, но при нулевой стоимости результат всё равно впечатляет.
Сравнение: локальная модель vs Claude Opus
| Параметр | Qwen3.6-35B (локально) | Claude Opus (облако) |
|---|---|---|
| Стоимость | Бесплатно | Платно (API) |
| Приватность | Полная (офлайн) | Данные уходят в облако |
| Ускорение разработки | ~5× | ~15× |
| Работа с нишевыми фреймворками | Слабее | Сильнее |
| Автономность рассуждений | Требует чётких промптов | Думает самостоятельно |
| Доступность | Любое железо | Зависит от API |
Vulkan vs ROCm: неожиданный победитель
Пользователь lambda, работающий на ноутбуке Strix Halo с 128 ГБ unified memory и запускающий llama.cpp в контейнере, поделился интересным наблюдением: Vulkan-бэкенд оказывается быстрее ROCm даже при работе с AMD-железом.
Ранее уже фиксировались случаи, когда llama.cpp с Vulkan обгонял AMD ROCm в ряде LLM-бенчмарков. Vulkan обеспечивает наиболее широкое покрытие железа — Nvidia, AMD, Intel, старые GPU и ряд Apple/Asahi-конфигураций.
Проблема кэширования контекста и её решение
Один из технических нюансов, поднятых в треде, — неэффективное кэширование KV-кэша (Key-Value Cache) у гибридных MoE-моделей Qwen. При каждом новом ходе в диалоге модель пересчитывала весь контекст заново.
Пользователь lambda объясняет корень проблемы: старые модели Qwen не умели сохранять цепочку рассуждений (thinking trace) между ходами, и при следующем промпте весь interleaved context приходилось обрабатывать заново. Qwen3.6 это исправляет.
Решение — одна строка в конфиге llama.cpp:
chat-template-kwargs = {"preserve_thinking": true}
Эта настройка включает сохранение рассуждений между ходами, что резко сокращает повторные вычисления.
preserve_thinking работает только с Qwen3.6+.Типичный локальный стек для кодинга в 2026 году
graph TD
A[Разработчик] --> B[Pi / агентный фреймворк]
B --> C[llama.cpp в контейнере]
C --> D{Задача}
D -->|Быстрое кодирование| E[Qwen3.6-35B-A3B\n3B активных параметров]
D -->|Сложные задачи| F[Qwen3.5-122B-A10B\n10B активных параметров]
D -->|Чат и переводы| G[Gemma 4 31B]
D -->|Аудио| H[Gemma 4 12B]
E --> I[Mac Studio / Strix Halo\n128 ГБ RAM]
F --> I
G --> I
H --> I
Слабые стороны локального подхода
Пользователи честно говорят о минусах:
- Нужна точность в промптах. Модель не додумывает за вас — любые неоднозначности она разрешает в сторону простейшего решения (например, пишет CSS прямо в HTML вместо отдельного файла).
- Петли и ошибки инструментов. Агент нередко застревает в циклах или неправильно вызывает edit tool, после чего тратит много токенов на повторное чтение файлов.
- Нишевые фреймворки — слабое место. Без доступа к интернету модель может не знать специфику менее распространённых библиотек вроде Wagtail.
- Агентное кодирование: Qwen3.6-35B-A3B (быстро) или Qwen3.5-122B-A10B (мощнее)
- Чат и переводы: Gemma 4 31B
- Аудио: Gemma 4 12B
- Максимальное качество кодинга: Qwen3-Coder-480B-A35B — достигает SOTA-результатов, конкурируя с Claude Sonnet-4 и GPT-4.1
Контекст и значение для отрасли
Qwen3.6-35B-A3B вышла 16 апреля 2026 года под лицензией Apache 2.0 и доступна на Hugging Face, Ollama и Unsloth (в формате GGUF). Тот факт, что модель с конкурентоспособным качеством кодинга теперь работает на потребительском железе полностью офлайн — это серьёзный сдвиг.
Благодаря архитектуре MoE с ~3B активными параметрами модель генерирует токены примерно в 3–5 раз быстрее, чем плотная 27B-модель на аналогичном железе — и это при полном отсутствии затрат на API.
Дискуссия на Hacker News показывает: локальные модели перестали быть уделом энтузиастов и постепенно становятся реальной альтернативой для privacy-ориентированных разработчиков и компаний, которые не готовы отправлять свой код в облако.