Один интерфейс — все языковые модели

LiteLLM — это открытый AI Gateway, который предоставляет единый унифицированный интерфейс для обращения к 100+ LLM-провайдерам — OpenAI, Anthropic, Gemini, Bedrock, Azure и другим — в формате OpenAI. Проект от компании BerriAI уже стал де-факто стандартом для команд, которым нужно управлять несколькими языковыми моделями одновременно: репозиторий на GitHub набрал более 20 000 звёзд и 2 600 форков.

Netflix, например, сообщает, что разработчики получают «доступ к новейшим LLM-моделям в день их выхода — обычно в течение суток — без необходимости переписывать код».


Два режима работы

Проект построен вокруг двух ключевых компонентов: Python SDK и Proxy Server. SDK предоставляет разработчикам удобную библиотеку для интеграции нескольких LLM в приложения, а Proxy Server выступает как production-grade шлюз для управления LLM-трафиком в масштабе — с централизованным отслеживанием затрат, контролем доступа и мониторингом API-вызовов в реальном времени.

ℹ Как выбрать режим?
Python SDK — если вы интегрируете LLM напрямую в кодовую базу. Proxy Server (AI Gateway) — если нужен централизованный шлюз для всей команды или организации с виртуальными ключами, логированием и дашбордом.

Python SDK — быстрый старт

Установка одной командой и вызов любой модели без изменения кода:

from litellm import completion
import os

os.environ["OPENAI_API_KEY"] = "your-openai-key"
os.environ["ANTHROPIC_API_KEY"] = "your-anthropic-key"

# OpenAI
response = completion(
    model="openai/gpt-4o",
    messages=[{"role": "user", "content": "Hello!"}]
)

# Anthropic — тот же код, другой провайдер
response = completion(
    model="anthropic/claude-sonnet-4-20250514",
    messages=[{"role": "user", "content": "Hello!"}]
)

AI Gateway — прокси-сервер для команды

uv tool install 'litellm[proxy]'
litellm --model gpt-4o

После запуска любой клиент, совместимый с OpenAI API, может работать через шлюз без изменений:

import openai
client = openai.OpenAI(api_key="anything", base_url="http://0.0.0.0:4000")
response = client.chat.completions.create(
    model="gpt-4o",
    messages=[{"role": "user", "content": "Hello!"}]
)

Архитектура: как LiteLLM маршрутизирует запросы


graph LR
    A[Ваше приложение / SDK] --> B[LiteLLM Gateway]
    B --> C[OpenAI]
    B --> D[Anthropic]
    B --> E[AWS Bedrock]
    B --> F[Google Vertex AI]
    B --> G[Azure OpenAI]
    B --> H[100+ провайдеров]
    B --> I[Логи / Метрики / Guardrails]


Ключевые возможности

Поддерживаются все основные эндпоинты: /chat/completions, /responses, /embeddings, /images, /audio, /batches, /rerank, /a2a, /messages и другие.

Proxy Server предоставляет: централизованный API-шлюз с аутентификацией и авторизацией, многопользовательское отслеживание затрат и управление расходами на уровне проекта/пользователя, кастомизацию на уровне проекта (логирование, guardrails, кэширование), виртуальные ключи для безопасного контроля доступа и UI-дашборд для мониторинга и управления.

Новые возможности: A2A и MCP

Среди поддерживаемых провайдеров агентов — LangGraph, Vertex AI Agent Engine, Azure AI Foundry, Bedrock AgentCore, Pydantic AI. Через протокол A2A (Agent-to-Agent) агенты можно регистрировать прямо в шлюзе и вызывать через стандартный SDK.

💡 MCP-инструменты
LiteLLM поддерживает MCP (Model Context Protocol) как на уровне Python SDK, так и на уровне Gateway. Можно подключить MCP-сервер, загрузить инструменты в формате OpenAI и передавать их в любую модель. Также Gateway работает как MCP-сервер для Cursor IDE.

Сравнение: LiteLLM vs конкуренты

ПараметрLiteLLMHeliconeOpenRouter
ТипSelf-hosted / CloudSelf-hosted / CloudManaged SaaS
Провайдеры100+100+500+
Python SDK
GuardrailsЧастично
Виртуальные ключи
Открытый код
RBAC / мультиарендность
Latency overhead~8ms P95~50msN/A

LiteLLM имеет более широкое сообщество и богатый набор функций из коробки — бюджеты, RBAC, GUI-дашборд.


Производительность и стабильность

Одно из обновлений принесло 54% прирост RPS (с 1 040 до 1 602 RPS на инстанс) за счёт исправления неэффективностей O(n²) в LiteLLM Router.

Стабильные релизы (v1.x.x:main-stable) проходят CI/CD, ручное ревью и трёхдневное production-тестирование. Именно их рекомендуется использовать в продакшне.

⚠ Важно для продакшна
Для production-развёртываний используйте Docker-образы с тегом -stable — они прошли 12-часовые нагрузочные тесты перед публикацией.

Что нового в последних версиях

В версии v1.80.0 появились: Agent Hub — регистрация и публикация агентов для организации, поддержка RunwayML с генерацией видео, изображений и синтезом речи, day-0 поддержка GPT-5.1 и GPT-5.1-Codex, Prometheus-метрики в open-source версии и Vector Store Files API.

Среди свежих изменений — LLM-as-a-Judge guardrail, поддержка azure/gpt-5.5 и gpt-5.5-pro, новые эндпоинты /v1/memory для CRUD-операций с памятью агентов.

LiteLLM убирает трение при работе с разными LLM-провайдерами: разные SDK, схемы аутентификации, форматы запросов и типы ошибок — всё это становится единым интерфейсом.


Значение для рынка

Аналитики ожидают, что LiteLLM укрепит позиции как «дефолтный» открытый шлюз для LLM, а корпоративное внедрение будет расти по мере того, как регуляторный фокус на AI усиливает спрос на централизованные плоскости управления.

Для наблюдаемости LiteLLM интегрируется с Lunary, MLflow, Langfuse, Helicone, Promptlayer, Traceloop, Slack. Проект активно развивается: стабильные релизы выходят каждую неделю, как правило по воскресеньям.

LiteLLM доступен на GitHub под открытой лицензией. Корпоративная версия с расширенными функциями безопасности и поддержкой доступна отдельно.