Обзор Ollama: запускаем LLM локально
Ollama — CLI-инструмент для локального запуска LLM. Обзор возможностей, поддерживаемые модели, сравнение с LM Studio и llama.cpp, системные требования.
Облачные API дорожают, данные утекают, а лимиты раздражают. Ollama предлагает альтернативу: запустить большую языковую модель прямо на своём компьютере одной командой. Без регистрации, без токенов, без ежемесячных счетов. Разбираемся, насколько это реально в 2026 году.
Что такое Ollama и для кого
Ollama — open-source CLI-инструмент для скачивания, запуска и управления LLM-моделями локально. Написан на Go, работает как демон с REST API. Представьте Docker, но для AI-моделей: одна команда — и модель работает.
Целевая аудитория:
- Разработчики, встраивающие LLM в свои приложения через локальный API
- DevOps-инженеры, деплоящие модели в Docker-контейнерах
- Исследователи, тестирующие десятки моделей без облачных расходов
- Компании, которым критична приватность — данные не покидают периметр
- Энтузиасты, которым не страшна командная строка
Как это работает
graph LR
A["ollama pull llama3.1"] --> B["Скачивание модели
(GGUF-формат)"]
B --> C["Квантование
и оптимизация"]
C --> D["Запуск демона
(REST API на :11434)"]
D --> E["Использование"]
E --> F["CLI-чат"]
E --> G["HTTP API"]
E --> H["OpenAI-совместимый
эндпоинт"]
Ollama автоматически определяет ваше железо (CPU/GPU), выбирает оптимальный способ инференса и управляет памятью. Модели хранятся в локальном реестре — аналогия с Docker-образами здесь неслучайна.
Установка и быстрый старт
Установка занимает одну команду на любой платформе:
# macOS / Linux
curl -fsSL https://ollama.com/install.sh | sh
# Windows — скачать установщик с ollama.com
# Или через winget:
winget install Ollama.Ollama
Запуск первой модели:
# Скачать и запустить Llama 3.1 8B
ollama run llama3.1
# Скачать конкретную модель
ollama pull deepseek-r1:14b
# Список установленных моделей
ollama list
# Удалить модель
ollama rm llama3.1
llama3.1:8b — она требует около 5 ГБ дискового пространства и 8 ГБ оперативной памяти. Отличный баланс между качеством и скоростью для первого знакомства.Ключевые возможности
Библиотека моделей
Ollama поддерживает более 100 open-source моделей через свой реестр. Актуальные на апрель 2026:
| Модель | Параметры | Назначение |
|---|---|---|
| Llama 3.3 | 70B | Универсальная, флагман Meta |
| Qwen 3.5 | 0.6B–235B (MoE) | Гибридные рассуждения, мультиязычная |
| DeepSeek-R1 | 1.5B–671B | Глубокие рассуждения, уровень O3 |
| Gemma 2 | 2B, 9B, 27B | Компактные модели от Google |
| Phi-4 | 14B | Сильная модель от Microsoft |
| Mistral | 7B | Быстрый инференс, хорошее качество |
| CodeLlama | 7B–34B | Генерация и анализ кода |
| LLaVA | 7B–34B | Мультимодальная (текст + изображения) |
OpenAI-совместимый API
Ollama предоставляет эндпоинт, совместимый с OpenAI API. Это значит, что приложения, написанные для ChatGPT, можно переключить на локальную модель заменой одной строки:
from openai import OpenAI
client = OpenAI(
base_url="http://localhost:11434/v1",
api_key="ollama" # любое значение, авторизации нет
)
response = client.chat.completions.create(
model="llama3.1",
messages=[
{"role": "user", "content": "Объясни квантовые вычисления простыми словами"}
]
)
print(response.choices[0].message.content)
Кастомные модели через Modelfile
Можно создавать собственные конфигурации модели — аналог Dockerfile:
FROM llama3.1
PARAMETER temperature 0.7
PARAMETER num_ctx 8192
SYSTEM """
Ты — опытный Python-разработчик. Отвечай кратко, с примерами кода.
Всегда объясняй, почему выбрал конкретный подход.
"""
ollama create my-python-helper -f Modelfile
ollama run my-python-helper
GPU-ускорение
Ollama автоматически определяет и использует GPU:
- NVIDIA — CUDA, compute capability 5.0+ (GTX 900 серия и новее)
- AMD — ROCm (серия RX 6000+, Linux)
- Apple Silicon — Metal (M1/M2/M3/M4)
- CPU — поддерживается, но инференс значительно медленнее
Разница в скорости между CPU и GPU на типичной 7B модели — примерно 10×. На CPU вы получите 3–6 токенов/с, на GPU — 30–80 токенов/с и выше.
Системные требования
| Размер модели | RAM | VRAM (GPU) | Диск | Скорость |
|---|---|---|---|---|
| 3B (Phi-3 mini) | 8 ГБ | 4 ГБ | ~2 ГБ | 30–60 tok/s (GPU) |
| 7–8B (Llama 3.1) | 16 ГБ | 8 ГБ | ~5 ГБ | 20–50 tok/s (GPU) |
| 13–14B (Phi-4) | 32 ГБ | 16 ГБ | ~8 ГБ | 15–35 tok/s (GPU) |
| 70B (Llama 3.3) | 64 ГБ | 40+ ГБ | ~40 ГБ | 5–15 tok/s (GPU) |
Тарифы и цены
Ollama полностью бесплатна. Проект распространяется под лицензией MIT. Нет платных версий, подписок или enterprise-тарифов.
Ваши реальные затраты:
- Железо — уже имеющийся компьютер или сервер
- Электричество — GPU под нагрузкой потребляет 150–350 Вт
- Диск — от 2 до 40 ГБ на модель
Для сравнения: OpenAI GPT-4o стоит $2.50–$10 за миллион токенов. При активном использовании (1М токенов/день) это $75–$300 в месяц. Ollama окупается за 1–3 месяца даже с учётом покупки видеокарты.
Плюсы и минусы
| ✅ Плюсы | ❌ Минусы |
|---|---|
| Полностью бесплатно и open-source | Нет GUI — только командная строка |
| Установка в одну команду | Качество уступает GPT-4o / Claude на сложных задачах |
| 100+ моделей из коробки | Требуется мощное железо для больших моделей |
| OpenAI-совместимый API | Нет встроенного веб-интерфейса для чата |
| Отличная Docker-интеграция | На CPU — медленный инференс |
| Modelfile для кастомизации | Управление памятью при нескольких моделях |
| Активное сообщество и частые обновления | Нет fine-tuning из коробки |
| Полная приватность данных | Модели занимают много дискового пространства |
Сравнение с альтернативами
| Параметр | Ollama | LM Studio | llama.cpp |
|---|---|---|---|
| Интерфейс | CLI + REST API | GUI + встроенный чат | CLI / библиотека |
| Установка | Одна команда | Скачать установщик | Компиляция из исходников |
| Целевая аудитория | Разработчики, DevOps | Все пользователи | Продвинутые разработчики |
| OpenAI API | ✅ Встроенный | ✅ Встроенный | ✅ Через llama-server |
| Docker | ✅ Официальный образ | ❌ Только десктоп | ⚠️ Вручную |
| Скорость (Apple Silicon) | Хорошая | Выше (MLX-бэкенд) | Максимальная (ручная настройка) |
| Кастомизация | Modelfile | GUI-параметры | Полный контроль |
| Модели | 100+ в реестре | Hugging Face + реестр | Любой GGUF-файл |
| Лицензия | MIT | Бесплатно (проприетарный) | MIT |
| Сложность | Низкая | Минимальная | Высокая |
Ollama — это золотая середина: проще llama.cpp, гибче LM Studio. Если вам нужен API для приложений — Ollama. Если красивый GUI для экспериментов — LM Studio. Если максимальный контроль — llama.cpp.
Экосистема и интеграции
Ollama стала де-факто стандартом для локального инференса. Основные интеграции:
- Open WebUI — веб-интерфейс в стиле ChatGPT для Ollama
- LangChain / LlamaIndex — фреймворки для RAG и агентов
- Continue.dev — AI-автокомплит в VS Code через локальную модель
- Obsidian, Logseq — плагины для AI-помощника в заметках
- Dify, Flowise — no-code платформы с поддержкой Ollama
graph TD
O["Ollama
(порт 11434)"] --> W["Open WebUI
(веб-чат)"]
O --> L["LangChain
(RAG-пайплайн)"]
O --> C["Continue.dev
(VS Code)"]
O --> A["REST API
(свои приложения)"]
O --> D["Docker Compose
(продакшн-деплой)"]
Практический пример: Ollama + Docker Compose
version: "3.8"
services:
ollama:
image: ollama/ollama
ports:
- "11434:11434"
volumes:
- ollama_data:/root/.ollama
deploy:
resources:
reservations:
devices:
- capabilities: [gpu]
webui:
image: ghcr.io/open-webui/open-webui:main
ports:
- "3000:8080"
environment:
- OLLAMA_BASE_URL=http://ollama:11434
depends_on:
- ollama
volumes:
ollama_data:
docker compose up -d
# Скачиваем модель внутри контейнера
docker exec -it ollama ollama pull llama3.1
# Открываем http://localhost:3000 — чат готов
Вердикт
Ollama — лучший CLI-инструмент для локального запуска LLM в 2026 году. Простота установки, OpenAI-совместимый API, богатая библиотека моделей и отличная Docker-интеграция делают его первым выбором для разработчиков.
Не подойдёт тем, кто ищет GUI «из коробки» (берите LM Studio) или нуждается в качестве GPT-4o на сложных задачах — локальные модели пока уступают. Но для прототипирования, приватных задач и экономии на API — незаменим.
Кому подойдёт:
- Разработчики, встраивающие LLM в продукты
- Команды с требованиями к приватности данных
- DevOps, деплоящие AI-сервисы в Docker
- Энтузиасты, изучающие AI на своём железе
Кому не подойдёт:
- Пользователи без технического бэкграунда (лучше LM Studio)
- Задачи, требующие GPT-4o/Claude-уровня качества
- Работа на слабом железе без GPU
Рейтинг: 8.5/10
Источники
- https://ollama.com/
- https://github.com/ollama/ollama
- https://ollama.com/library
- https://docs.ollama.com/gpu
- https://www.openxcell.com/blog/llama-cpp-vs-ollama/
- https://www.openxcell.com/blog/lm-studio-vs-ollama/
- https://localllm.in/blog/ollama-vram-requirements-for-local-llms
- https://www.morphllm.com/best-ollama-models