DreamServer: полный AI-стек на своём железе за одну команду

Локальный AI без облаков и подписок

Light Heart Labs опубликовала DreamServer — open-source платформу, которая разворачивает полноценный AI-стек на вашем компьютере одной командой в терминале. Это локальный набор инструментов — LLM-инференс, чат, голос, агенты, рабочие процессы, RAG, генерация изображений и инструменты конфиденциальности — всё деплоится на вашем железе единственной командой. Никаких облаков, никаких ежемесячных платежей.

«Если AI становится критической инфраструктурой — её не должны арендовать. Самостоятельный хостинг локального AI должен быть суверенным правом человека, а не карьерным выбором.» — Light Heart Labs

Что внутри

Платформа включает 13 интегрированных сервисов — LLM-инференс, интерфейс чата, голосовой ввод и вывод (STT + TTS), AI-агенты, автоматизацию рабочих процессов, RAG, веб-поиск, глубокий ресёрч, генерацию изображений и инструменты конфиденциальности, а также панель управления с метриками GPU в реальном времени.

Полный список компонентов:

Категория	Сервис	Назначение
Чат и инференс	Open WebUI	Интерфейс чата, история, загрузка документов, 30+ языков
Чат и инференс	llama-server	Высокопроизводительный LLM-инференс с continuous batching
Чат и инференс	LiteLLM	API-шлюз для local/cloud/hybrid режимов
Голос	Whisper	Speech-to-text (распознавание речи)
Голос	Kokoro	Text-to-speech (синтез речи)
Агенты	n8n	Автоматизация с 400+ интеграциями (Slack, email, БД)
Агенты	APE	Agent Policy Engine — аудит вызовов инструментов агентами
Знания	Qdrant	Векторная БД для RAG
Знания	SearXNG	Самохостируемый веб-поиск без трекинга
Генерация	ComfyUI	Генерация изображений (нодовый интерфейс)
Приватность	Privacy Shield	Прокси для зачистки PII в API-запросах
Мониторинг	Token Spy	Счётчик токенов для локальных и проксированных LLM
Мониторинг	Dashboard	Метрики GPU, состояние сервисов, управление моделями

💡 Быстрый старт

Чтобы развернуть DreamServer, достаточно одной команды:

curl -fsSL https://raw.githubusercontent.com/Light-Heart-Labs/DreamServer/main/dream-server/get-dream-server.sh | bash

После этого откройте http://localhost:3000 — чат уже работает.

Как работает установка

Установщик автоматически определяет ваш GPU и подбирает оптимальную модель. Ручная настройка не требуется. Система использует bootstrap mode: лёгкая модель запускается немедленно, пока полноразмерная скачивается в фоне — то есть чат доступен уже через ~2 минуты после запуска.

Инсталлятор DREAMGATE берёт на себя всё — определение GPU, выбор модели, оркестрацию сервисов.

Поддерживаемые платформы

Поддерживаются Linux (NVIDIA + AMD), Windows (WSL2) и macOS (Apple Silicon).

Linux: протестированы Ubuntu 24.04/22.04, Debian 12, Fedora 41+, Arch Linux, CachyOS, openSUSE Tumbleweed.
Windows: требует Docker Desktop с бэкендом WSL2; NVIDIA GPU использует Docker GPU passthrough, а AMD Strix Halo работает через специфичный платформенный ускоренный путь.
macOS: требует Apple Silicon (M1+) и Docker Desktop; llama-server запускается нативно с Metal GPU-ускорением, остальные сервисы работают в Docker.

Автоматический выбор модели по железу

DreamServer не заставляет вас разбираться в тирах VRAM — всё подбирается автоматически. По умолчанию используется профиль MODEL_PROFILE=qwen (Qwen3/Qwen3.5), также поддерживается MODEL_PROFILE=gemma4.


graph TD
    A[Запуск установщика] --> B{Определение GPU}
    B --> C[< 8 GB или CPU]
    B --> D[8–11 GB]
    B --> E[12–20 GB]
    B --> F[20–40 GB]
    B --> G[40+ GB]
    C --> C1[Qwen3.5 2B Q4_K_M]
    D --> D1[Qwen3.5 9B Q4_K_M]
    E --> E1[Qwen3.5 9B Q4_K_M]
    F --> F1[Qwen3 30B-A3B MoE]
    G --> G1[Qwen3 30B-A3B MoE / 128K ctx]

Qwen3 хорошо подходит, когда нужна многоязычность, коммерческая гибкость и широкая экосистема файнтюнов и квантизаций. Для тех, кто предпочитает модели Google, доступен профиль Gemma 4 — Gemma 4 — последнее поколение в семействе Google open-weight Gemma, созданное для мощного рассуждения, кодинга и мультимодальных задач, с четырьмя вариантами размеров для разных сценариев развёртывания.

Нет GPU? Не проблема

ℹ Cloud-режим

DreamServer работает и в облачном режиме — тот же полный стек, но на базе OpenAI/Anthropic/Together API вместо локального инференса. Запустить:

./install.sh --cloud

Есть и гибридный вариант: часть задач уходит в облако, часть остаётся локально. Все порты настраиваются через переменные окружения, конфликты разрешаются просто.

Расширяемость

Полный стек сервисов предварительно подключён — чат, агенты, голос, рабочие процессы, поиск, RAG, генерация изображений, инструменты конфиденциальности, наблюдаемость и инструменты разработчика. Каждый сервис является расширением. Достаточно положить папку и выполнить dream enable — новый модуль подхватится автоматически.

⚠ Требования к диску

Полноразмерные модели занимают от 20 ГБ и выше. Убедитесь, что на диске достаточно места перед запуском установки.

Контекст: почему это важно

Запуск мощных языковых моделей локально становится всё доступнее в 2026 году — такие модели, как Gemma 4, Qwen3.5/3.6 и другие, теперь соперничают с облачными сервисами по качеству, сохраняя полную конфиденциальность данных и исключая подписочные расходы.

Каждый промпт, отправленный в облачный API, покидает машину пользователя и проходит через инфраструктуру третьих сторон. Для проприетарных кодовых баз, чувствительных прототипов или регулируемых отраслей это неприемлемо. Запуск инференса локально оставляет все данные на устройстве — и для многих команд одного только суверенитета данных достаточно, чтобы оправдать затраты на настройку.

📝 Что получает пользователь

Приватность: запросы не покидают ваш компьютер
Стоимость: никаких расходов per-token после разовой настройки
Автономность: работает без интернета
Контроль: сами выбираете модель, версию, конфигурацию

DreamServer — один из наиболее полных self-hosted AI-стеков на сегодняшний день. На GitHub проект уже собрал 478 звёзд и 140 форков. Исходный код доступен по лицензии Apache 2.0 на github.com/Light-Heart-Labs/DreamServer.

Локальный AI без облаков и подписок

Что внутри

Как работает установка

Поддерживаемые платформы

Автоматический выбор модели по железу

Нет GPU? Не проблема

Расширяемость

Контекст: почему это важно

Источники

Похожие статьи

Open WebUI: мощная self-hosted платформа для локального AI

Plausible Analytics: приватная альтернатива Google Analytics

MCP-сервер с финансовыми данными для локальных LLM

HackerRank открыл AI-агента для оценки резюме

50+ AI-проектов на GitHub: RAG, агенты, OCR в одном репо