LiteLLM: единый AI Gateway для 100+ языковых моделей
LiteLLM — открытый AI Gateway от BerriAI: единый Python SDK и прокси-сервер для работы с 100+ LLM через OpenAI-совместимый формат. 20k+ звёзд на GitHub, Netflix среди пользователей.
Один интерфейс — все языковые модели
LiteLLM — это открытый AI Gateway, который предоставляет единый унифицированный интерфейс для обращения к 100+ LLM-провайдерам — OpenAI, Anthropic, Gemini, Bedrock, Azure и другим — в формате OpenAI. Проект от компании BerriAI уже стал де-факто стандартом для команд, которым нужно управлять несколькими языковыми моделями одновременно: репозиторий на GitHub набрал более 20 000 звёзд и 2 600 форков.
Netflix, например, сообщает, что разработчики получают «доступ к новейшим LLM-моделям в день их выхода — обычно в течение суток — без необходимости переписывать код».
Два режима работы
Проект построен вокруг двух ключевых компонентов: Python SDK и Proxy Server. SDK предоставляет разработчикам удобную библиотеку для интеграции нескольких LLM в приложения, а Proxy Server выступает как production-grade шлюз для управления LLM-трафиком в масштабе — с централизованным отслеживанием затрат, контролем доступа и мониторингом API-вызовов в реальном времени.
Python SDK — быстрый старт
Установка одной командой и вызов любой модели без изменения кода:
from litellm import completion
import os
os.environ["OPENAI_API_KEY"] = "your-openai-key"
os.environ["ANTHROPIC_API_KEY"] = "your-anthropic-key"
# OpenAI
response = completion(
model="openai/gpt-4o",
messages=[{"role": "user", "content": "Hello!"}]
)
# Anthropic — тот же код, другой провайдер
response = completion(
model="anthropic/claude-sonnet-4-20250514",
messages=[{"role": "user", "content": "Hello!"}]
)
AI Gateway — прокси-сервер для команды
uv tool install 'litellm[proxy]'
litellm --model gpt-4o
После запуска любой клиент, совместимый с OpenAI API, может работать через шлюз без изменений:
import openai
client = openai.OpenAI(api_key="anything", base_url="http://0.0.0.0:4000")
response = client.chat.completions.create(
model="gpt-4o",
messages=[{"role": "user", "content": "Hello!"}]
)
Архитектура: как LiteLLM маршрутизирует запросы
graph LR
A[Ваше приложение / SDK] --> B[LiteLLM Gateway]
B --> C[OpenAI]
B --> D[Anthropic]
B --> E[AWS Bedrock]
B --> F[Google Vertex AI]
B --> G[Azure OpenAI]
B --> H[100+ провайдеров]
B --> I[Логи / Метрики / Guardrails]
Ключевые возможности
Поддерживаются все основные эндпоинты: /chat/completions, /responses, /embeddings, /images, /audio, /batches, /rerank, /a2a, /messages и другие.
Proxy Server предоставляет: централизованный API-шлюз с аутентификацией и авторизацией, многопользовательское отслеживание затрат и управление расходами на уровне проекта/пользователя, кастомизацию на уровне проекта (логирование, guardrails, кэширование), виртуальные ключи для безопасного контроля доступа и UI-дашборд для мониторинга и управления.
Новые возможности: A2A и MCP
Среди поддерживаемых провайдеров агентов — LangGraph, Vertex AI Agent Engine, Azure AI Foundry, Bedrock AgentCore, Pydantic AI. Через протокол A2A (Agent-to-Agent) агенты можно регистрировать прямо в шлюзе и вызывать через стандартный SDK.
Сравнение: LiteLLM vs конкуренты
| Параметр | LiteLLM | Helicone | OpenRouter |
|---|---|---|---|
| Тип | Self-hosted / Cloud | Self-hosted / Cloud | Managed SaaS |
| Провайдеры | 100+ | 100+ | 500+ |
| Python SDK | ✅ | ❌ | ❌ |
| Guardrails | ✅ | Частично | ❌ |
| Виртуальные ключи | ✅ | ✅ | ❌ |
| Открытый код | ✅ | ✅ | ❌ |
| RBAC / мультиарендность | ✅ | ❌ | ❌ |
| Latency overhead | ~8ms P95 | ~50ms | N/A |
LiteLLM имеет более широкое сообщество и богатый набор функций из коробки — бюджеты, RBAC, GUI-дашборд.
Производительность и стабильность
Одно из обновлений принесло 54% прирост RPS (с 1 040 до 1 602 RPS на инстанс) за счёт исправления неэффективностей O(n²) в LiteLLM Router.
Стабильные релизы (v1.x.x:main-stable) проходят CI/CD, ручное ревью и трёхдневное production-тестирование. Именно их рекомендуется использовать в продакшне.
-stable — они прошли 12-часовые нагрузочные тесты перед публикацией.Что нового в последних версиях
В версии v1.80.0 появились: Agent Hub — регистрация и публикация агентов для организации, поддержка RunwayML с генерацией видео, изображений и синтезом речи, day-0 поддержка GPT-5.1 и GPT-5.1-Codex, Prometheus-метрики в open-source версии и Vector Store Files API.
Среди свежих изменений — LLM-as-a-Judge guardrail, поддержка azure/gpt-5.5 и gpt-5.5-pro, новые эндпоинты /v1/memory для CRUD-операций с памятью агентов.
LiteLLM убирает трение при работе с разными LLM-провайдерами: разные SDK, схемы аутентификации, форматы запросов и типы ошибок — всё это становится единым интерфейсом.
Значение для рынка
Аналитики ожидают, что LiteLLM укрепит позиции как «дефолтный» открытый шлюз для LLM, а корпоративное внедрение будет расти по мере того, как регуляторный фокус на AI усиливает спрос на централизованные плоскости управления.
Для наблюдаемости LiteLLM интегрируется с Lunary, MLflow, Langfuse, Helicone, Promptlayer, Traceloop, Slack. Проект активно развивается: стабильные релизы выходят каждую неделю, как правило по воскресеньям.
LiteLLM доступен на GitHub под открытой лицензией. Корпоративная версия с расширенными функциями безопасности и поддержкой доступна отдельно.