Обзор Ollama: запускаем LLM локально

Облачные API дорожают, данные утекают, а лимиты раздражают. Ollama предлагает альтернативу: запустить большую языковую модель прямо на своём компьютере одной командой. Без регистрации, без токенов, без ежемесячных счетов. Разбираемся, насколько это реально в 2026 году.

Что такое Ollama и для кого

Ollama — open-source CLI-инструмент для скачивания, запуска и управления LLM-моделями локально. Написан на Go, работает как демон с REST API. Представьте Docker, но для AI-моделей: одна команда — и модель работает.

Целевая аудитория:

Разработчики, встраивающие LLM в свои приложения через локальный API
DevOps-инженеры, деплоящие модели в Docker-контейнерах
Исследователи, тестирующие десятки моделей без облачных расходов
Компании, которым критична приватность — данные не покидают периметр
Энтузиасты, которым не страшна командная строка

ℹ Главное

Ollama полностью бесплатна и open-source (MIT-лицензия). Никаких подписок, лимитов на токены или скрытых платежей. Вы платите только за электричество.

Как это работает


graph LR
    A["ollama pull llama3.1"] --> B["Скачивание модели
(GGUF-формат)"]
    B --> C["Квантование
и оптимизация"]
    C --> D["Запуск демона
(REST API на :11434)"]
    D --> E["Использование"]
    E --> F["CLI-чат"]
    E --> G["HTTP API"]
    E --> H["OpenAI-совместимый
эндпоинт"]

Ollama автоматически определяет ваше железо (CPU/GPU), выбирает оптимальный способ инференса и управляет памятью. Модели хранятся в локальном реестре — аналогия с Docker-образами здесь неслучайна.

Установка и быстрый старт

Установка занимает одну команду на любой платформе:

# macOS / Linux
curl -fsSL https://ollama.com/install.sh | sh

# Windows — скачать установщик с ollama.com
# Или через winget:
winget install Ollama.Ollama

Запуск первой модели:

# Скачать и запустить Llama 3.1 8B
ollama run llama3.1

# Скачать конкретную модель
ollama pull deepseek-r1:14b

# Список установленных моделей
ollama list

# Удалить модель
ollama rm llama3.1

💡 Совет

Начните с модели llama3.1:8b — она требует около 5 ГБ дискового пространства и 8 ГБ оперативной памяти. Отличный баланс между качеством и скоростью для первого знакомства.

Ключевые возможности

Библиотека моделей

Ollama поддерживает более 100 open-source моделей через свой реестр. Актуальные на апрель 2026:

Модель	Параметры	Назначение
Llama 3.3	70B	Универсальная, флагман Meta
Qwen 3.5	0.6B–235B (MoE)	Гибридные рассуждения, мультиязычная
DeepSeek-R1	1.5B–671B	Глубокие рассуждения, уровень O3
Gemma 2	2B, 9B, 27B	Компактные модели от Google
Phi-4	14B	Сильная модель от Microsoft
Mistral	7B	Быстрый инференс, хорошее качество
CodeLlama	7B–34B	Генерация и анализ кода
LLaVA	7B–34B	Мультимодальная (текст + изображения)

OpenAI-совместимый API

Ollama предоставляет эндпоинт, совместимый с OpenAI API. Это значит, что приложения, написанные для ChatGPT, можно переключить на локальную модель заменой одной строки:

from openai import OpenAI

client = OpenAI(
    base_url="http://localhost:11434/v1",
    api_key="ollama"  # любое значение, авторизации нет
)

response = client.chat.completions.create(
    model="llama3.1",
    messages=[
        {"role": "user", "content": "Объясни квантовые вычисления простыми словами"}
    ]
)
print(response.choices[0].message.content)

Кастомные модели через Modelfile

Можно создавать собственные конфигурации модели — аналог Dockerfile:

FROM llama3.1

PARAMETER temperature 0.7
PARAMETER num_ctx 8192

SYSTEM """
Ты — опытный Python-разработчик. Отвечай кратко, с примерами кода.
Всегда объясняй, почему выбрал конкретный подход.
"""

ollama create my-python-helper -f Modelfile
ollama run my-python-helper

📝 Пример: локальный RAG

Ollama + LangChain + ChromaDB = полностью локальная RAG-система. Индексируете документы компании, задаёте вопросы через Ollama — данные никуда не уходят. Идеально для NDA-проектов и внутренних баз знаний.

GPU-ускорение

Ollama автоматически определяет и использует GPU:

NVIDIA — CUDA, compute capability 5.0+ (GTX 900 серия и новее)
AMD — ROCm (серия RX 6000+, Linux)
Apple Silicon — Metal (M1/M2/M3/M4)
CPU — поддерживается, но инференс значительно медленнее

Разница в скорости между CPU и GPU на типичной 7B модели — примерно 10×. На CPU вы получите 3–6 токенов/с, на GPU — 30–80 токенов/с и выше.

Системные требования

Размер модели	RAM	VRAM (GPU)	Диск	Скорость
3B (Phi-3 mini)	8 ГБ	4 ГБ	~2 ГБ	30–60 tok/s (GPU)
7–8B (Llama 3.1)	16 ГБ	8 ГБ	~5 ГБ	20–50 tok/s (GPU)
13–14B (Phi-4)	32 ГБ	16 ГБ	~8 ГБ	15–35 tok/s (GPU)
70B (Llama 3.3)	64 ГБ	40+ ГБ	~40 ГБ	5–15 tok/s (GPU)

⚠ Важно

Без GPU модели работают, но медленно. Для комфортного использования моделей 7B+ настоятельно рекомендуется видеокарта с минимум 8 ГБ VRAM. На Apple Silicon M-серии всё работает заметно лучше благодаря общей памяти.

Тарифы и цены

Ollama полностью бесплатна. Проект распространяется под лицензией MIT. Нет платных версий, подписок или enterprise-тарифов.

Ваши реальные затраты:

Железо — уже имеющийся компьютер или сервер
Электричество — GPU под нагрузкой потребляет 150–350 Вт
Диск — от 2 до 40 ГБ на модель

Для сравнения: OpenAI GPT-4o стоит $2.50–$10 за миллион токенов. При активном использовании (1М токенов/день) это $75–$300 в месяц. Ollama окупается за 1–3 месяца даже с учётом покупки видеокарты.

Плюсы и минусы

✅ Плюсы	❌ Минусы
Полностью бесплатно и open-source	Нет GUI — только командная строка
Установка в одну команду	Качество уступает GPT-4o / Claude на сложных задачах
100+ моделей из коробки	Требуется мощное железо для больших моделей
OpenAI-совместимый API	Нет встроенного веб-интерфейса для чата
Отличная Docker-интеграция	На CPU — медленный инференс
Modelfile для кастомизации	Управление памятью при нескольких моделях
Активное сообщество и частые обновления	Нет fine-tuning из коробки
Полная приватность данных	Модели занимают много дискового пространства

Сравнение с альтернативами

Параметр	Ollama	LM Studio	llama.cpp
Интерфейс	CLI + REST API	GUI + встроенный чат	CLI / библиотека
Установка	Одна команда	Скачать установщик	Компиляция из исходников
Целевая аудитория	Разработчики, DevOps	Все пользователи	Продвинутые разработчики
OpenAI API	✅ Встроенный	✅ Встроенный	✅ Через llama-server
Docker	✅ Официальный образ	❌ Только десктоп	⚠️ Вручную
Скорость (Apple Silicon)	Хорошая	Выше (MLX-бэкенд)	Максимальная (ручная настройка)
Кастомизация	Modelfile	GUI-параметры	Полный контроль
Модели	100+ в реестре	Hugging Face + реестр	Любой GGUF-файл
Лицензия	MIT	Бесплатно (проприетарный)	MIT
Сложность	Низкая	Минимальная	Высокая

Ollama — это золотая середина: проще llama.cpp, гибче LM Studio. Если вам нужен API для приложений — Ollama. Если красивый GUI для экспериментов — LM Studio. Если максимальный контроль — llama.cpp.

Экосистема и интеграции

Ollama стала де-факто стандартом для локального инференса. Основные интеграции:

Open WebUI — веб-интерфейс в стиле ChatGPT для Ollama
LangChain / LlamaIndex — фреймворки для RAG и агентов
Continue.dev — AI-автокомплит в VS Code через локальную модель
Obsidian, Logseq — плагины для AI-помощника в заметках
Dify, Flowise — no-code платформы с поддержкой Ollama


graph TD
    O["Ollama
(порт 11434)"] --> W["Open WebUI
(веб-чат)"]
    O --> L["LangChain
(RAG-пайплайн)"]
    O --> C["Continue.dev
(VS Code)"]
    O --> A["REST API
(свои приложения)"]
    O --> D["Docker Compose
(продакшн-деплой)"]

Практический пример: Ollama + Docker Compose

version: "3.8"
services:
  ollama:
    image: ollama/ollama
    ports:
      - "11434:11434"
    volumes:
      - ollama_data:/root/.ollama
    deploy:
      resources:
        reservations:
          devices:
            - capabilities: [gpu]

  webui:
    image: ghcr.io/open-webui/open-webui:main
    ports:
      - "3000:8080"
    environment:
      - OLLAMA_BASE_URL=http://ollama:11434
    depends_on:
      - ollama

volumes:
  ollama_data:

docker compose up -d
# Скачиваем модель внутри контейнера
docker exec -it ollama ollama pull llama3.1
# Открываем http://localhost:3000 — чат готов

💡 Совет

Связка Ollama + Open WebUI разворачивается за 5 минут и даёт полноценный чат-интерфейс, неотличимый от ChatGPT. Идеально для команд, которым нужен корпоративный AI-чат без облака.

Вердикт

Ollama — лучший CLI-инструмент для локального запуска LLM в 2026 году. Простота установки, OpenAI-совместимый API, богатая библиотека моделей и отличная Docker-интеграция делают его первым выбором для разработчиков.

Не подойдёт тем, кто ищет GUI «из коробки» (берите LM Studio) или нуждается в качестве GPT-4o на сложных задачах — локальные модели пока уступают. Но для прототипирования, приватных задач и экономии на API — незаменим.

Кому подойдёт:

Разработчики, встраивающие LLM в продукты
Команды с требованиями к приватности данных
DevOps, деплоящие AI-сервисы в Docker
Энтузиасты, изучающие AI на своём железе

Кому не подойдёт:

Пользователи без технического бэкграунда (лучше LM Studio)
Задачи, требующие GPT-4o/Claude-уровня качества
Работа на слабом железе без GPU

Рейтинг: 8.5/10