GPT-5.5 в Databricks: новый стандарт корпоративных AI-агентов

OpenAI и Databricks объявили о глубокой интеграции флагманской модели GPT-5.5 в корпоративные рабочие процессы платформы Databricks. Поводом стали впечатляющие результаты на специализированном бенчмарке OfficeQA Pro — модель не просто обошла предшественников, но и впервые в истории этого теста преодолела планку в 50% точности в полностью автономном агентном режиме.

«Codex с GPT-5.5 сейчас является лучшим среди всех агентов и моделей на рынке» — команда Databricks

Что такое OfficeQA Pro и почему это важно

OfficeQA Pro — это корпоративный бенчмарк (эталонный тест), разработанный Databricks для оценки способности AI-моделей работать с реальными документами предприятий. Бенчмарк построен на базе 89 000 страниц бюллетеней Министерства финансов США и измеряет способность модели извлекать информацию из документов, интерпретировать сложные таблицы и выполнять точные вычисления на основе реальных корпоративных данных.

OfficeQA Pro оценивает, как модели справляются с парсингом, извлечением информации и обоснованными рассуждениями в рабочих процессах, включающих отсканированные PDF-файлы, устаревшие форматы и документы с длинным контекстом — именно эти задачи чаще всего ломают производственные агентные системы.

ℹ Почему это актуально для бизнеса
Многие крупные компании хранят критически важные данные в отсканированных архивах, legacy-форматах и многостраничных PDF-отчётах. Ошибка при разборе одной цифры может исказить всю цепочку бизнес-решений. Именно поэтому точность парсинга — ключевой KPI для корпоративных AI-агентов.

Результаты GPT-5.5 на OfficeQA Pro

Когда модели предоставляются нужные документы (режим OfficeQA Pro LLM с Oracle PDF + веб-поиском), GPT-5.5 набирает 64,66% — заметный прирост по сравнению с 57,14% у GPT-5.4, что соответствует улучшению примерно на 13% и новому рекорду на этом бенчмарке.

Но ещё более показательны результаты в режиме полноценного агентного сценария — когда модель сама ищет документы, разбирает их и вычисляет ответы без посторонней помощи:

В тесте OfficeQA Pro Agent Harness, где модель должна самостоятельно находить нужные документы, парсить их и вычислять ответы с помощью агентного окружения Codex, GPT-5.5 набрала 52,63% — против 36,10% у GPT-5.4. Это означает сокращение числа ошибок на 46% по сравнению с GPT-5.4, и GPT-5.5 стала первой моделью, преодолевшей барьер в 50% точности на OfficeQA Pro.

Сравнение моделей на OfficeQA Pro

МодельLLM + Oracle PDF + WebAgent Harness (полный агент)
GPT-5.457,14%36,10%
GPT-5.564,66%52,63%
Прирост~+13%-46% ошибок
💡 Что значит «первая за 50%»
До GPT-5.5 ни одна модель не могла самостоятельно — без подсказок и оракульных данных — правильно ответить более чем на половину вопросов из OfficeQA Pro в режиме end-to-end агента. Это качественный, а не количественный скачок.

Где именно GPT-5.5 стала лучше

Парсинг старых и отсканированных документов

Databricks зафиксировала наибольший прирост от GPT-5.5 именно в задачах с интенсивным парсингом. Более ранние модели, такие как GPT-5.4, не могли корректно распознать все цифры, тогда как GPT-5.5 демонстрирует ступенчатый скачок в разборе старых документов и отсканированных PDF.

«Как только не удаётся извлечь определённую цифру или число, это полностью меняет траекторию работы агента», — поясняет Арнав Сингхви из Databricks.

Многошаговая оркестрация задач

Команда также зафиксировала улучшения в оркестрации многошаговых задач. У GPT-5.4 иногда наблюдались «лишние» поисковые обходные пути, что приводило к крайне неэффективным траекториям выполнения.

По сравнению с предыдущими моделями, GPT-5.5 надёжнее извлекает релевантный контекст и завершает сложные рабочие процессы без дополнительного надзора.


graph TD
    A[Входящий запрос агента] --> B[Поиск нужных документов]
    B --> C[Парсинг PDF / legacy-форматов]
    C --> D{Все цифры
распознаны?}
    D -- Нет, GPT-5.4 --> E[Ошибка в цепочке \nрассуждений]
    D -- Да, GPT-5.5 --> F[Вычисление ответа]
    F --> G[Финальный результат]
    E --> H[Неверный вывод]

Как GPT-5.5 доступна в Databricks

Databricks предоставляет GPT-5.5 через AI Unity Gateway, где клиенты используют модель в рабочих процессах, построенных с помощью AgentBricks и Agent Supervisor API.

Unity AI Gateway управляет как GPT-5.5, так и Codex: контролирует права доступа, расходы, устанавливает защитные барьеры и обеспечивает полную наблюдаемость с первого дня.

Databricks делает GPT-5.5 доступной на AWS, Azure и GCP. Пользователи могут опробовать модель в AI Playground, развернуть Codex через Unity AI Gateway или строить собственных агентов с помощью Agent Bricks.

Ключевые инструменты платформы

ИнструментНазначение
Unity AI GatewayЦентрализованное управление доступом, расходами и безопасностью
AgentBricksКонструктор корпоративных агентов на базе GPT-5.5
Agent Supervisor APIНадзор и оркестрация мультиагентных сценариев
GenieАналитика на естественном языке поверх корпоративных данных
AI PlaygroundИнтерактивная среда для экспериментов с моделями

Возможности для разработчиков

Благодаря улучшенным возможностям выполнения и рассуждения GPT-5.5, кастомные агенты Agent Bricks Custom Agents теперь способны справляться с более сложными многошаговыми рабочими процессами — от анализа документов до автоматизации бизнес-процессов на уровне отдела.

Разработчики могут создавать агентов на базе GPT-5.5, используя предпочтительные инструменты и фреймворки, а затем развёртывать их как полностью управляемые бессерверные Databricks Apps.

Пример минимального кода для запуска агента через Foundation Model API Databricks:

import openai

client = openai.OpenAI(
    api_key="<DATABRICKS_TOKEN>",
    base_url="https://<DATABRICKS_HOST>/serving-endpoints"
)

response = client.chat.completions.create(
    model="openai-gpt-5-5",
    messages=[
        {
            "role": "user",
            "content": "Проанализируй прикреплённый финансовый отчёт и выдели ключевые показатели."
        }
    ]
)

print(response.choices[0].message.content)
⚠ Важно про точность
Databricks рекомендует использовать RAG (Retrieval-Augmented Generation — генерация с извлечением данных) в сценариях, где точность особенно критична. GPT-5.5, как и любая LLM, может пропускать отдельные факты или генерировать неверную информацию.

GPT-5.5: характеристики модели

Модель поддерживает мультимодальные входные данные и располагает контекстным окном в 400 000 токенов с максимальным выводом 128 000 токенов. Дата отсечения обучающих данных GPT-5.5 — декабрь 2025 года.

GPT-5.5 достигает лидирующих результатов сразу на нескольких бенчмарках: на GDPval (тест способности агентов выполнять специализированную работу по 44 профессиям) — 84,9%; на OSWorld-Verified (управление реальными компьютерными средами) — 78,7%; на Tau2-bench Telecom (сложные процессы клиентского обслуживания) — 98,0% без настройки промптов.

GPT-5.5 также лежит в основе Codex — агента для написания кода от OpenAI.

Партнёрство OpenAI и Databricks: зачем это нужно

Для понимания стратегического контекста: Databricks — одна из ключевых платформ для работы с данными и построения AI-систем в крупном бизнесе. Миллионы строк корпоративных данных хранятся именно здесь. Интеграция GPT-5.5 означает, что предприятия получают доступ к передовым возможностям OpenAI прямо там, где живут их данные — с полным контролем над доступом, стоимостью и безопасностью.

«GPT-5.5 стал огромным шагом вперёд с точки зрения работы со знаниями. Это ступенчатое изменение в том, как мы выполняем интеллектуальную работу» — из отзывов клиентов Databricks

Бизнес-пользователи могут безопасно взаимодействовать со сложными корпоративными данными на естественном языке — исследовать данные, отвечать на ситуативные вопросы и автоматизировать задачи, которые раньше занимали часы или дни. Глубокое понимание Genie корпоративной онтологии данных в сочетании с постоянно улучшающимися возможностями таких моделей, как GPT-5.5, позволяет рядовым сотрудникам использовать мощную аналитику в повседневной работе.

Итог

Интеграция GPT-5.5 в Databricks — это не просто очередное обновление модели. Это демонстрация того, что разрыв между «впечатляющим на демо» и «надёжным в реальных корпоративных условиях» наконец начинает сокращаться. Сокращение ошибок на 46% в end-to-end агентном сценарии и первое преодоление 50%-го порога на OfficeQA Pro — цифры, которые говорят сами за себя.

Для российских компаний, работающих с большими объёмами документов, финансовой отчётностью или мультишаговыми аналитическими задачами, подобные решения открывают новые возможности для автоматизации — даже если прямой доступ к Databricks сейчас ограничен, сама архитектура и подходы (мультиагентность, RAG, Unity Gateway) применимы с использованием локальных или альтернативных платформ.