Локальные LLM: руководство по запуску на своём железе

Облачные API стоят денег, отправляют ваши данные на чужие серверы и перестают работать, когда провайдер решит поменять условия. Между тем в 2026 году open-source модели вплотную подошли к уровню закрытых решений — и запустить их на собственном компьютере стало проще, чем поставить Photoshop. Эта статья — полное практическое руководство: от выбора видеокарты до первого запроса к локальной LLM.

Зачем вообще запускать LLM локально

Три главные причины, по которым разработчики и компании переходят на локальный инференс:

Приватность. Данные не покидают вашу машину. Для медицинских, юридических и финансовых задач это не опция, а требование.

Стоимость. При активном использовании API-расходы растут линейно. Локальная модель — фиксированная инвестиция в железо, после которой каждый токен бесплатен.

Контроль. Нет лимитов запросов, нет цензуры провайдера, нет зависимости от чужого uptime. Вы сами выбираете модель, квантование и параметры генерации.

Закрытые проприетарные модели больше не имеют того технического преимущества, которое было у них в 2024 году. Open-source модели от DeepSeek, Meta и Mistral теперь сопоставимы по качеству, предлагая при этом значительную экономию и гибкость деплоя.

ℹ Когда локальный запуск НЕ нужен

Если вам достаточно пары десятков запросов в день и данные не чувствительны — облачный API проще и дешевле. Локальный запуск окупается при регулярной нагрузке или жёстких требованиях к приватности.

Выбор железа: GPU решает всё

Главный ресурс для локального инференса — видеопамять (VRAM). Именно она определяет, какого размера модель поместится в GPU целиком и будет работать быстро. CPU и оперативная память вторичны при наличии видеокарты.

Формула: сколько VRAM нужно

Размер модели в памяти зависит от числа параметров и уровня квантования:

Параметры модели	FP16 (полная точность)	Q4_K_M (4-bit)	Рекомендуемый GPU
3-4B	6-8 ГБ	2-3 ГБ	RTX 4060 (8 ГБ)
7-8B	14-16 ГБ	5-6 ГБ	RTX 4060 Ti 16 ГБ
13-14B	26-28 ГБ	8-10 ГБ	RTX 4070 Ti (12 ГБ)
32-34B	64-68 ГБ	18-20 ГБ	RTX 4090 (24 ГБ)
70B	140 ГБ	40+ ГБ	2× RTX 4090 или A100

⚠ Золотое правило

Видеокарта с бóльшим объёмом VRAM, но меньшей скоростью всегда лучше, чем быстрая карта с недостатком памяти. Если модель не помещается в VRAM целиком, часть расчётов уходит на CPU — и скорость падает в 5-10 раз.

Что покупать в 2026 году

Бюджет	GPU	VRAM	Подходящие модели	Скорость (7-8B Q4)
~$300	RTX 4060	8 ГБ	3-7B	~30 tok/s
~$600	RTX 4070 Ti	12 ГБ	7-14B	~45 tok/s
~$1200	RTX 4080	16 ГБ	13-30B	~50 tok/s
~$1800	RTX 4090	24 ГБ	до 34B	~60 tok/s
~$3000+	Серверные GPU	48-80 ГБ	70B+	production-уровень

Apple Silicon — отдельная история. Mac с M2/M3/M4 Pro/Max используют единую память (unified memory), что позволяет загружать крупные модели без дискретного GPU. M3 Ultra с 192 ГБ RAM может комфортно запустить 70B модель.

Вариант без GPU: только CPU

Да, это работает. С 16-ядерным CPU и 64 ГБ DDR5-6000 можно получить 15-20 токенов в секунду на модели 13B Q4. Для batch-обработки и фоновых задач — вполне приемлемо. Для интерактивного чата — некомфортно.

Софт: Ollama, LM Studio и llama.cpp

Под капотом практически всех инструментов для локального запуска LLM лежит один и тот же движок — llama.cpp. Это проект на C/C++, созданный Георгием Герганов, который оптимизирован для инференса на потребительском железе. Разница между инструментами — в обёртке.


graph TD
    A[llama.cpp — базовый движок] --> B[Ollama — CLI + API-сервер]
    A --> C[LM Studio — GUI-приложение]
    A --> D[Другие: Jan, GPT4All, koboldcpp]
    B --> E[Для разработчиков и автоматизации]
    C --> F[Для экспериментов и чата]
    D --> G[Специализированные задачи]

Ollama — стандарт для разработчиков

Ollama — Go-приложение, которое превращает запуск локальных моделей в опыт, аналогичный Docker: одна команда — и модель работает. Предоставляет REST API, совместимый с форматом OpenAI, что позволяет подключить к ней любое приложение.

# Установка (Linux/macOS)
curl -fsSL https://ollama.com/install.sh | sh

# Запуск модели — одна команда
ollama run llama3.3

# API-запрос
curl http://localhost:11434/api/generate -d '{
  "model": "llama3.3",
  "prompt": "Объясни квантование нейросетей простым языком"
}'

Когда выбирать Ollama: CI/CD-пайплайны, интеграция в приложения через API, Docker-деплой, обслуживание нескольких пользователей одновременно.

LM Studio — GUI для исследования

LM Studio — десктопное приложение с графическим интерфейсом. Позволяет искать модели на Hugging Face, скачивать одним кликом, настраивать параметры генерации через ползунки и тут же тестировать в чате.

Преимущество на Mac: LM Studio по умолчанию использует MLX (фреймворк Apple для ML), что на Apple Silicon даёт заметный прирост. Бенчмарки показывают 237 tok/s на M3 Ultra (LM Studio) против 149 tok/s (Ollama) для модели Gemma 3 1B.

Когда выбирать LM Studio: первое знакомство с локальными моделями, сравнение моделей между собой, интерактивный чат, работа на Mac.

llama.cpp напрямую — максимальный контроль

Для тех, кому нужна полная настройка: собственные параметры квантования, нестандартные модели, выжимание максимума из железа.

# Сборка из исходников
git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp && cmake -B build -DGGML_CUDA=ON && cmake --build build -j

# Запуск с API-сервером
./build/bin/llama-server -m models/llama-3.3-8b-Q4_K_M.gguf \
  --host 0.0.0.0 --port 8080 -ngl 99

💡 Совет для практиков

Многие разработчики используют оба инструмента: LM Studio — для быстрого тестирования и поиска подходящей модели, Ollama — для интеграции в рабочие проекты. Модели, найденные в LM Studio, можно затем использовать в Ollama.

Какую модель выбрать

В 2026 году экосистема open-source моделей огромна. Вот ключевые семейства и их сильные стороны.

Топ-модели для локального запуска

Модель	Размеры	Сильная сторона	Лицензия
Llama 3.3 (Meta)	8B, 70B	Универсальная, огромное сообщество	Llama 3.3 Community
Qwen 3 (Alibaba)	7B, 14B, 72B	Код, мультиязычность, рассуждения	Apache 2.0
Mistral Small 3	7B	Скорость инференса, инструкции	Apache 2.0
DeepSeek-R1-Distill	1.5B–70B	Рассуждения (reasoning), математика	MIT
Phi-4 (Microsoft)	3.8B, 14B	Максимум на минимальном железе	MIT
Gemma 3 (Google)	1B, 4B, 12B, 27B	Сбалансированность, мультимодальность	Gemma License

Как выбрать размер модели


flowchart TD
    A[Сколько VRAM?] --> B{< 8 ГБ}
    A --> C{8-12 ГБ}
    A --> D{16-24 ГБ}
    A --> E{24+ ГБ}
    B --> F[Phi-4-mini 3.8B
DeepSeek-R1-Distill 1.5B]
    C --> G[Llama 3.3 8B
Qwen 3 7B
Mistral Small 3]
    D --> H[Qwen 3 14B
DeepSeek-R1-Distill 32B]
    E --> I[Llama 3.3 70B
Qwen 3 72B]

Для общих задач (чат, суммаризация, письмо) — Llama 3.3 8B. Самое большое сообщество, тысячи файнтюнов, работает на любом современном GPU.

Для кода — Qwen 3 14B. На бенчмарке HumanEval (генерация Python-кода) Qwen 2.5 14B набирает 72.5%, обгоняя Llama 3.3 8B (68.1%) и Mistral 7B (43.6%).

Для рассуждений и математики — DeepSeek-R1-Distill-Qwen-32B. Дистиллированная версия флагманской модели DeepSeek-R1 (671B параметров), которая превосходит OpenAI o1-mini на многих бенчмарках. Требует 20 ГБ VRAM в Q4.

На слабом железе — Phi-4-mini 3.8B. Единственный реальный вариант для GPU с 4-6 ГБ VRAM, при этом удивительно способная модель для своего размера.

Квантование: как уместить большую модель в маленький GPU

Квантование — это сжатие весов модели с высокой точности (16-bit float) до меньшей (8-bit, 4-bit). Это как JPEG для нейросетей: теряется немного качества, но размер уменьшается в разы.

Формат квантования	Размер (для 8B модели)	Качество	Скорость
FP16 (без квантования)	~16 ГБ	Эталон	Базовая
Q8_0 (8-bit)	~8 ГБ	~99% от FP16	+10-15%
Q5_K_M (5-bit)	~6 ГБ	~97% от FP16	+20-25%
Q4_K_M (4-bit)	~5 ГБ	~95% от FP16	+30-35%
Q3_K_M (3-bit)	~4 ГБ	~90% от FP16	+35-40%
Q2_K (2-bit)	~3 ГБ	~80% от FP16	+40%+

💡 Оптимальный выбор

Q4_K_M — золотой стандарт для локального запуска. Сокращает потребление VRAM примерно на 75% по сравнению с FP16 при минимальной потере качества. Для 99% задач разницу с полной точностью вы не заметите.

В Ollama квантование уже встроено в модели — при ollama run llama3.3 вы получаете Q4_K_M по умолчанию. Для llama.cpp и LM Studio модели в формате GGUF можно скачать с Hugging Face, где пользователи (особенно TheBloke и bartowski) публикуют варианты во всех популярных квантованиях.

Пошаговый запуск: от нуля до работающей модели

Разберём полный путь на примере Ollama — самого простого способа начать.

Шаг 1. Установка

# Linux / macOS
curl -fsSL https://ollama.com/install.sh | sh

# Windows — скачать установщик с ollama.com
# Docker
docker run -d --gpus all -p 11434:11434 ollama/ollama

Шаг 2. Запуск первой модели

# Скачать и запустить (одна команда)
ollama run llama3.3

# Для слабого железа — модель поменьше
ollama run phi4-mini

При первом запуске модель скачивается (~4.5 ГБ для Llama 3.3 8B Q4). Последующие запуски — мгновенные.

Шаг 3. Использование через API

import requests

response = requests.post("http://localhost:11434/api/generate", json={
    "model": "llama3.3",
    "prompt": "Напиши функцию сортировки на Python",
    "stream": False
})

print(response.json()["response"])

Шаг 4. Подключение к инструментам

Ollama совместима с форматом OpenAI API, поэтому работает с:

Continue (VS Code / JetBrains) — AI-автодополнение кода
Open WebUI — веб-интерфейс, аналог ChatGPT
LangChain / LlamaIndex — RAG-пайплайны
Anything LLM — чат с документами

# Пример: запуск Open WebUI
docker run -d -p 3000:8080 \
  --add-host=host.docker.internal:host-gateway \
  -e OLLAMA_BASE_URL=http://host.docker.internal:11434 \
  ghcr.io/open-webui/open-webui:main

📝 Типичная рабочая связка

Ollama (бэкенд) + Open WebUI (интерфейс чата) + Continue (IDE-интеграция). Одна модель обслуживает всё через API — никаких дополнительных затрат.

Оптимизация и типичные проблемы

Скорость генерации слишком низкая

Убедитесь, что модель загружена в GPU полностью (nvidia-smi — проверьте VRAM)
Уменьшите размер контекстного окна: ollama run llama3.3 --ctx-size 4096
Попробуйте более агрессивное квантование (Q3_K_M вместо Q4_K_M)
Если модель не помещается в GPU — выберите модель поменьше

Модель «галлюцинирует» или отвечает невпопад

Увеличьте размер модели (14B вместо 7B даёт ощутимый скачок качества)
Попробуйте другое семейство (Qwen для кода, DeepSeek-R1 для рассуждений)
Настройте температуру: temperature 0.1-0.3 для фактических задач, 0.7-0.9 для креатива

Нехватка VRAM

Включите CPU-offloading: часть слоёв модели уходит в оперативку (медленнее, но работает)
Используйте Q3_K_M или Q2_K квантование
Рассмотрите модели поменьше: Phi-4-mini 3.8B работает даже на 4 ГБ VRAM

Заключение

Локальный запуск LLM в 2026 году — это не хобби для энтузиастов, а практичный рабочий инструмент. Видеокарта за $300-600 и 10 минут на установку Ollama дают вам приватную, бесплатную и полностью подконтрольную языковую модель.

Начните с Ollama + Llama 3.3 8B — этого достаточно для большинства задач. Если нужен код — попробуйте Qwen 3. Если нужны рассуждения — DeepSeek-R1-Distill. По мере роста задач вы всегда сможете перейти на модель побольше или добавить GPU.

Главное — начать. Первый ollama run занимает меньше минуты.