Open-LLM-VTuber: живой AI-компаньон с Live2D и голосом прямо на вашем ПК

Open-LLM-VTuber интерфейс с Live2D аватаром

Что это и для кого?

Open-LLM-VTuber — это мощный голосовой AI-компаньон, который поддерживает разговоры в реальном времени, визуальное восприятие и вызов инструментов, а также оснащён живым Live2D-аватаром с поддержкой Cubism 5. Он даже может управлять вашим браузером для выполнения задач и подключаться к стриминговым платформам для взаимодействия с аудиторией.

Проект называется Open-LLM-VTuber, потому что изначальной целью разработки было воссоздание закрытого AI-VTuber neuro-sama с помощью опенсорс-решений, работающих офлайн на платформах помимо Windows.

Кому подойдёт:

  • Энтузиастам локального ИИ и privacy-ориентированным пользователям
  • VTuber-стримерам, ищущим опенсорс-альтернативу
  • Разработчикам, желающим встроить интерактивного AI-агента
  • Аниме-фанатам и любителям виртуальных компаньонов
ℹ Вдохновение
Проект появился как попытка опенсорс-сообщества воссоздать знаменитого AI-VTuber neuro-sama — полностью локально и на всех платформах, а не только на Windows.

Как это работает: архитектура


graph LR
    A[🎤 Микрофон / VAD] --> B[ASR движок\nWhisper / FunASR / sherpa-onnx]
    B --> C[LLM Агент\nOllama / OpenAI / Claude / DeepSeek...]
    C --> D[TTS синтез\nEdge TTS / GPTSoVITS / Bark...]
    D --> E[Live2D аватар\nCubism 5 / анимация губ]
    E --> F[🖥️ Браузер или Desktop Pet]
    C --> G[🧠 Долгосрочная память\nLetta / история чатов]

Система объединяет распознавание речи, языковую обработку и синтез речи в единый конвейер. При этом бэкенд LLM, распознавание речи и синтезатор голоса спроектированы как взаимозаменяемые модули.


Ключевые возможности

🎙️ Голосовое взаимодействие без рук

Проект поддерживает прерывание голосом без наушников (AI не слышит собственный голос), тактильную обратную связь через клики и перетаскивание, Live2D-выражения с управлением эмоциями из бэкенда, Pet-режим с прозрачным фоном и поверх всех окон, а также отображение внутренних мыслей AI без их проговаривания вслух.

🤖 Огромный выбор LLM-бэкендов

Поддерживаются: Ollama, OpenAI (и любой OpenAI-совместимый API), Gemini, Claude, Mistral, DeepSeek, Zhipu AI, GGUF, LM Studio, vLLM и другие.

🎤 ASR: распознавание речи

Поддерживаемые движки ASR: sherpa-onnx, FunASR, Faster-Whisper, Whisper.cpp, Whisper, Groq Whisper, Azure ASR и другие.

🔊 TTS: синтез голоса

Доступные TTS-движки: sherpa-onnx, pyttsx3, MeloTTS, Coqui-TTS, GPTSoVITS, Bark, CosyVoice, Edge TTS, Fish Audio, Azure TTS и другие.

🐱 Desktop Pet режим

Режим Desktop Pet позволяет разместить VTuber-компаньона прямо на рабочем столе. Аватар живёт поверх всех окон с прозрачным фоном — его можно перетащить в любую часть экрана.

🧠 Долгосрочная память

В версии 1.2.0 добавлена реализация долгосрочной памяти на основе Letta (также известной как MemGPT). Ваш AI-компаньон может запоминать прошлые разговоры, хотя это увеличивает задержку ответа.

👁️ Видение и MCP

В версии v1.2.0 добавлены: долгосрочная память на базе Letta, поддержка MCP, Live2D Cubism 5, поддержка китайского языка во фронтенде, обновлённая система апдейтов и клиент Bilibili Danmaku. AI теперь может вызывать инструменты, поддерживающие протокол Model Context Protocol (MCP).

🌍 Кроссплатформенность и офлайн-режим

Проект полностью поддерживает Windows, macOS и Linux, предлагая два режима использования: веб-версию и десктопный клиент (с поддержкой прозрачного фона в режиме desktop pet).

Поддерживается полностью офлайн-режим с использованием локальных моделей — интернет не нужен. Все разговоры остаются на устройстве, обеспечивая конфиденциальность.

💡 Быстрый старт
Для запуска без скачивания локальных моделей используйте конфигурацию OpenAI Compatible API + Groq Whisper ASR — достаточно только API-ключа. Это позволяет полностью пропустить настройку локального GPU.

🎨 Кастомизация персонажа

Можно импортировать собственные Live2D-модели для уникального внешнего вида компаньона, задавать его персону через промпт, а также клонировать голос для нужного звучания.


Пример конфигурации

Минимальный запуск через Quick Start (Ollama + sherpa-onnx ASR + Edge TTS):

# Клонирование репозитория (флаг --recursive обязателен)
git clone --recursive https://github.com/Open-LLM-VTuber/Open-LLM-VTuber.git
cd Open-LLM-VTuber

# Запуск сервера (uv управляет зависимостями автоматически)
uv run run_server.py

Затем открыть http://localhost:12393 в браузере Chrome.

⚠ Важно
Проект рекомендует использовать только Chrome. Известны проблемы с браузерами Edge и Safari. При удалённом доступе с другого устройства потребуется настройка HTTPS.

Тарифы и лицензия

Open-LLM-VTuber полностью бесплатен для личного использования. Однако лицензионная ситуация заслуживает внимания:

Начиная с версии v1.2.0, фронтенд перешёл на лицензию Open-LLM-VTuber License 1.0. Бэкенд пока остаётся под MIT, но ожидается переход на единую лицензию около v1.3–v1.4.

Для большинства пользователей, включая стримеров, педагогов и исследователей, изменения не затронут привычное использование. Разрешены все некоммерческие цели и использование для VTuber-стриминга на YouTube, Twitch, Bilibili.

Коммерческое использование (платный доступ, подписки, хостинг-сервисы, SaaS) потребует отдельной лицензии.

«Мы не планируем делать проект закрытым и не намерены убирать возможность полностью офлайн-запуска» — команда разработчиков.


Плюсы и минусы

✅ Плюсы❌ Минусы
Полностью бесплатный и опенсорсСложная начальная настройка для новичков
Работает 100% офлайн — приватностьТребует мощного железа для локальных LLM
Огромный выбор LLM / ASR / TTSДолгосрочная память увеличивает задержку
Кроссплатформенность (Win/Mac/Linux)Только Chrome для веб-версии
Живой Live2D-аватар с эмоциями (Cubism 5)Лицензия меняется — коммерческое использование ограничено
Desktop Pet режим с прозрачным фономLive2D 2.1 модели больше не поддерживаются (с v1.2.0)
MCP-инструменты, видение, интеграция со стримингомАктивная разработка = нестабильные обновления
Голосовое прерывание без наушниковУдалённый доступ требует настройки HTTPS

Сравнение с альтернативами

ПараметрOpen-LLM-VTuberSillyTavernCharacter.AI
ЦенаБесплатноБесплатноFreemium
Live2D аватар✅ Встроен❌ Нет❌ Нет
Голосовое взаимодействие✅ Полное (ASR+TTS)⚠️ Через плагины⚠️ Ограниченно
Прерывание речи✅ Да❌ Нет❌ Нет
Офлайн-режим✅ Полный✅ Полный❌ Только облако
Выбор LLM✅ Любой✅ Любой❌ Только их модели
Desktop Pet✅ Да❌ Нет❌ Нет
MCP-поддержка✅ v1.2.0+❌ Нет❌ Нет
Простота старта⚠️ Средняя⚠️ Средняя✅ Высокая
Кастомизация✅ Полная✅ Полная⚠️ Ограниченная

SillyTavern — наиболее гибкий вариант для ролевых игр: бесплатный опенсорс-фронтенд с поддержкой карточек персонажей, lorebooks, групповых чатов и глубокого управления промптами. Однако он не имеет встроенного Live2D-аватара и голосового прерывания.

Character.AI — простейший вариант для новичков с огромной библиотекой персонажей и достаточным бесплатным тарифом, но полностью в облаке и с жёсткими ограничениями контента.

📝 Пример использования
Стример на Twitch хочет живого AI-VTuber, который реагирует на голос зрителей. Open-LLM-VTuber подключается к Ollama (локальный DeepSeek) + GPTSoVITS (клонированный голос) + Live2D-аватар кастомного персонажа. Всё работает локально — без подписок и утечки данных.

Вердикт

Open-LLM-VTuber — уникальный опенсорс-проект, не имеющий прямых аналогов по совокупности возможностей: живой Live2D-аватар, полная голосовая интерактивность с прерыванием, поддержка любого LLM и 100% офлайн-работа.

Проект находится в активной разработке, с большим количеством интересных функций, которые появятся в ближайшее время.

Кому однозначно подойдёт:

  • Энтузиастам локального ИИ, ценящим приватность
  • VTuber-стримерам, ищущим опенсорс-решение
  • Разработчикам, строящим интерактивных AI-агентов

Кому не подойдёт:

  • Пользователям без технического опыта (пока нет простого GUI-установщика)
  • Тем, кому нужен коммерческий продукт с гарантиями поддержки

Рейтинг: 8.5 / 10

КритерийОценка
Функциональность9/10
Уникальность10/10
Простота установки6/10
Производительность8/10
Сообщество и документация8/10