Локальные LLM: руководство по запуску на своём железе
Как запустить большую языковую модель локально: выбор железа, софта, модели и пошаговая настройка Ollama, llama.cpp и LM Studio.
Облачные API стоят денег, отправляют ваши данные на чужие серверы и перестают работать, когда провайдер решит поменять условия. Между тем в 2026 году open-source модели вплотную подошли к уровню закрытых решений — и запустить их на собственном компьютере стало проще, чем поставить Photoshop. Эта статья — полное практическое руководство: от выбора видеокарты до первого запроса к локальной LLM.
Зачем вообще запускать LLM локально
Три главные причины, по которым разработчики и компании переходят на локальный инференс:
Приватность. Данные не покидают вашу машину. Для медицинских, юридических и финансовых задач это не опция, а требование.
Стоимость. При активном использовании API-расходы растут линейно. Локальная модель — фиксированная инвестиция в железо, после которой каждый токен бесплатен.
Контроль. Нет лимитов запросов, нет цензуры провайдера, нет зависимости от чужого uptime. Вы сами выбираете модель, квантование и параметры генерации.
Закрытые проприетарные модели больше не имеют того технического преимущества, которое было у них в 2024 году. Open-source модели от DeepSeek, Meta и Mistral теперь сопоставимы по качеству, предлагая при этом значительную экономию и гибкость деплоя.
Выбор железа: GPU решает всё
Главный ресурс для локального инференса — видеопамять (VRAM). Именно она определяет, какого размера модель поместится в GPU целиком и будет работать быстро. CPU и оперативная память вторичны при наличии видеокарты.
Формула: сколько VRAM нужно
Размер модели в памяти зависит от числа параметров и уровня квантования:
| Параметры модели | FP16 (полная точность) | Q4_K_M (4-bit) | Рекомендуемый GPU |
|---|---|---|---|
| 3-4B | 6-8 ГБ | 2-3 ГБ | RTX 4060 (8 ГБ) |
| 7-8B | 14-16 ГБ | 5-6 ГБ | RTX 4060 Ti 16 ГБ |
| 13-14B | 26-28 ГБ | 8-10 ГБ | RTX 4070 Ti (12 ГБ) |
| 32-34B | 64-68 ГБ | 18-20 ГБ | RTX 4090 (24 ГБ) |
| 70B | 140 ГБ | 40+ ГБ | 2× RTX 4090 или A100 |
Что покупать в 2026 году
| Бюджет | GPU | VRAM | Подходящие модели | Скорость (7-8B Q4) |
|---|---|---|---|---|
| ~$300 | RTX 4060 | 8 ГБ | 3-7B | ~30 tok/s |
| ~$600 | RTX 4070 Ti | 12 ГБ | 7-14B | ~45 tok/s |
| ~$1200 | RTX 4080 | 16 ГБ | 13-30B | ~50 tok/s |
| ~$1800 | RTX 4090 | 24 ГБ | до 34B | ~60 tok/s |
| ~$3000+ | Серверные GPU | 48-80 ГБ | 70B+ | production-уровень |
Apple Silicon — отдельная история. Mac с M2/M3/M4 Pro/Max используют единую память (unified memory), что позволяет загружать крупные модели без дискретного GPU. M3 Ultra с 192 ГБ RAM может комфортно запустить 70B модель.
Вариант без GPU: только CPU
Да, это работает. С 16-ядерным CPU и 64 ГБ DDR5-6000 можно получить 15-20 токенов в секунду на модели 13B Q4. Для batch-обработки и фоновых задач — вполне приемлемо. Для интерактивного чата — некомфортно.
Софт: Ollama, LM Studio и llama.cpp
Под капотом практически всех инструментов для локального запуска LLM лежит один и тот же движок — llama.cpp. Это проект на C/C++, созданный Георгием Герганов, который оптимизирован для инференса на потребительском железе. Разница между инструментами — в обёртке.
graph TD
A[llama.cpp — базовый движок] --> B[Ollama — CLI + API-сервер]
A --> C[LM Studio — GUI-приложение]
A --> D[Другие: Jan, GPT4All, koboldcpp]
B --> E[Для разработчиков и автоматизации]
C --> F[Для экспериментов и чата]
D --> G[Специализированные задачи]
Ollama — стандарт для разработчиков
Ollama — Go-приложение, которое превращает запуск локальных моделей в опыт, аналогичный Docker: одна команда — и модель работает. Предоставляет REST API, совместимый с форматом OpenAI, что позволяет подключить к ней любое приложение.
# Установка (Linux/macOS)
curl -fsSL https://ollama.com/install.sh | sh
# Запуск модели — одна команда
ollama run llama3.3
# API-запрос
curl http://localhost:11434/api/generate -d '{
"model": "llama3.3",
"prompt": "Объясни квантование нейросетей простым языком"
}'
Когда выбирать Ollama: CI/CD-пайплайны, интеграция в приложения через API, Docker-деплой, обслуживание нескольких пользователей одновременно.
LM Studio — GUI для исследования
LM Studio — десктопное приложение с графическим интерфейсом. Позволяет искать модели на Hugging Face, скачивать одним кликом, настраивать параметры генерации через ползунки и тут же тестировать в чате.
Преимущество на Mac: LM Studio по умолчанию использует MLX (фреймворк Apple для ML), что на Apple Silicon даёт заметный прирост. Бенчмарки показывают 237 tok/s на M3 Ultra (LM Studio) против 149 tok/s (Ollama) для модели Gemma 3 1B.
Когда выбирать LM Studio: первое знакомство с локальными моделями, сравнение моделей между собой, интерактивный чат, работа на Mac.
llama.cpp напрямую — максимальный контроль
Для тех, кому нужна полная настройка: собственные параметры квантования, нестандартные модели, выжимание максимума из железа.
# Сборка из исходников
git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp && cmake -B build -DGGML_CUDA=ON && cmake --build build -j
# Запуск с API-сервером
./build/bin/llama-server -m models/llama-3.3-8b-Q4_K_M.gguf \
--host 0.0.0.0 --port 8080 -ngl 99
Какую модель выбрать
В 2026 году экосистема open-source моделей огромна. Вот ключевые семейства и их сильные стороны.
Топ-модели для локального запуска
| Модель | Размеры | Сильная сторона | Лицензия |
|---|---|---|---|
| Llama 3.3 (Meta) | 8B, 70B | Универсальная, огромное сообщество | Llama 3.3 Community |
| Qwen 3 (Alibaba) | 7B, 14B, 72B | Код, мультиязычность, рассуждения | Apache 2.0 |
| Mistral Small 3 | 7B | Скорость инференса, инструкции | Apache 2.0 |
| DeepSeek-R1-Distill | 1.5B–70B | Рассуждения (reasoning), математика | MIT |
| Phi-4 (Microsoft) | 3.8B, 14B | Максимум на минимальном железе | MIT |
| Gemma 3 (Google) | 1B, 4B, 12B, 27B | Сбалансированность, мультимодальность | Gemma License |
Как выбрать размер модели
flowchart TD
A[Сколько VRAM?] --> B{< 8 ГБ}
A --> C{8-12 ГБ}
A --> D{16-24 ГБ}
A --> E{24+ ГБ}
B --> F[Phi-4-mini 3.8B
DeepSeek-R1-Distill 1.5B]
C --> G[Llama 3.3 8B
Qwen 3 7B
Mistral Small 3]
D --> H[Qwen 3 14B
DeepSeek-R1-Distill 32B]
E --> I[Llama 3.3 70B
Qwen 3 72B]
Для общих задач (чат, суммаризация, письмо) — Llama 3.3 8B. Самое большое сообщество, тысячи файнтюнов, работает на любом современном GPU.
Для кода — Qwen 3 14B. На бенчмарке HumanEval (генерация Python-кода) Qwen 2.5 14B набирает 72.5%, обгоняя Llama 3.3 8B (68.1%) и Mistral 7B (43.6%).
Для рассуждений и математики — DeepSeek-R1-Distill-Qwen-32B. Дистиллированная версия флагманской модели DeepSeek-R1 (671B параметров), которая превосходит OpenAI o1-mini на многих бенчмарках. Требует 20 ГБ VRAM в Q4.
На слабом железе — Phi-4-mini 3.8B. Единственный реальный вариант для GPU с 4-6 ГБ VRAM, при этом удивительно способная модель для своего размера.
Квантование: как уместить большую модель в маленький GPU
Квантование — это сжатие весов модели с высокой точности (16-bit float) до меньшей (8-bit, 4-bit). Это как JPEG для нейросетей: теряется немного качества, но размер уменьшается в разы.
| Формат квантования | Размер (для 8B модели) | Качество | Скорость |
|---|---|---|---|
| FP16 (без квантования) | ~16 ГБ | Эталон | Базовая |
| Q8_0 (8-bit) | ~8 ГБ | ~99% от FP16 | +10-15% |
| Q5_K_M (5-bit) | ~6 ГБ | ~97% от FP16 | +20-25% |
| Q4_K_M (4-bit) | ~5 ГБ | ~95% от FP16 | +30-35% |
| Q3_K_M (3-bit) | ~4 ГБ | ~90% от FP16 | +35-40% |
| Q2_K (2-bit) | ~3 ГБ | ~80% от FP16 | +40%+ |
В Ollama квантование уже встроено в модели — при ollama run llama3.3 вы получаете Q4_K_M по умолчанию. Для llama.cpp и LM Studio модели в формате GGUF можно скачать с Hugging Face, где пользователи (особенно TheBloke и bartowski) публикуют варианты во всех популярных квантованиях.
Пошаговый запуск: от нуля до работающей модели
Разберём полный путь на примере Ollama — самого простого способа начать.
Шаг 1. Установка
# Linux / macOS
curl -fsSL https://ollama.com/install.sh | sh
# Windows — скачать установщик с ollama.com
# Docker
docker run -d --gpus all -p 11434:11434 ollama/ollama
Шаг 2. Запуск первой модели
# Скачать и запустить (одна команда)
ollama run llama3.3
# Для слабого железа — модель поменьше
ollama run phi4-mini
При первом запуске модель скачивается (~4.5 ГБ для Llama 3.3 8B Q4). Последующие запуски — мгновенные.
Шаг 3. Использование через API
import requests
response = requests.post("http://localhost:11434/api/generate", json={
"model": "llama3.3",
"prompt": "Напиши функцию сортировки на Python",
"stream": False
})
print(response.json()["response"])
Шаг 4. Подключение к инструментам
Ollama совместима с форматом OpenAI API, поэтому работает с:
- Continue (VS Code / JetBrains) — AI-автодополнение кода
- Open WebUI — веб-интерфейс, аналог ChatGPT
- LangChain / LlamaIndex — RAG-пайплайны
- Anything LLM — чат с документами
# Пример: запуск Open WebUI
docker run -d -p 3000:8080 \
--add-host=host.docker.internal:host-gateway \
-e OLLAMA_BASE_URL=http://host.docker.internal:11434 \
ghcr.io/open-webui/open-webui:main
Оптимизация и типичные проблемы
Скорость генерации слишком низкая
- Убедитесь, что модель загружена в GPU полностью (
nvidia-smi— проверьте VRAM) - Уменьшите размер контекстного окна:
ollama run llama3.3 --ctx-size 4096 - Попробуйте более агрессивное квантование (Q3_K_M вместо Q4_K_M)
- Если модель не помещается в GPU — выберите модель поменьше
Модель «галлюцинирует» или отвечает невпопад
- Увеличьте размер модели (14B вместо 7B даёт ощутимый скачок качества)
- Попробуйте другое семейство (Qwen для кода, DeepSeek-R1 для рассуждений)
- Настройте температуру:
temperature 0.1-0.3для фактических задач,0.7-0.9для креатива
Нехватка VRAM
- Включите CPU-offloading: часть слоёв модели уходит в оперативку (медленнее, но работает)
- Используйте Q3_K_M или Q2_K квантование
- Рассмотрите модели поменьше: Phi-4-mini 3.8B работает даже на 4 ГБ VRAM
Заключение
Локальный запуск LLM в 2026 году — это не хобби для энтузиастов, а практичный рабочий инструмент. Видеокарта за $300-600 и 10 минут на установку Ollama дают вам приватную, бесплатную и полностью подконтрольную языковую модель.
Начните с Ollama + Llama 3.3 8B — этого достаточно для большинства задач. Если нужен код — попробуйте Qwen 3. Если нужны рассуждения — DeepSeek-R1-Distill. По мере роста задач вы всегда сможете перейти на модель побольше или добавить GPU.
Главное — начать. Первый ollama run занимает меньше минуты.
Источники
- Ollama VRAM Requirements: Complete 2026 Guide
- Running Open Source LLMs Locally: Hardware Guide 2026
- Best Local LLM Models 2026: Benchmarks & Use Cases
- Llama.cpp vs Ollama — Best Local LLM Tool 2026
- Ollama vs LM Studio 2026: CLI Power vs GUI Comfort
- Open Source LLMs in 2026: Complete Comparison
- VRAM Requirements for AI 2026: Complete Guide by Model Size
- DeepSeek-R1: The Open-Source Reasoning Model