GPT-5.5 в Databricks: новый стандарт корпоративных AI-агентов
Databricks интегрировала GPT-5.5 в корпоративные агентные сценарии после того, как модель установила рекорд на бенчмарке OfficeQA Pro.
GPT-5.5 в Databricks: новый стандарт корпоративных AI-агентов
OpenAI и Databricks объявили о глубокой интеграции флагманской модели GPT-5.5 в корпоративные рабочие процессы платформы Databricks. Поводом стали впечатляющие результаты на специализированном бенчмарке OfficeQA Pro — модель не просто обошла предшественников, но и впервые в истории этого теста преодолела планку в 50% точности в полностью автономном агентном режиме.
«Codex с GPT-5.5 сейчас является лучшим среди всех агентов и моделей на рынке» — команда Databricks
Что такое OfficeQA Pro и почему это важно
OfficeQA Pro — это корпоративный бенчмарк (эталонный тест), разработанный Databricks для оценки способности AI-моделей работать с реальными документами предприятий. Бенчмарк построен на базе 89 000 страниц бюллетеней Министерства финансов США и измеряет способность модели извлекать информацию из документов, интерпретировать сложные таблицы и выполнять точные вычисления на основе реальных корпоративных данных.
OfficeQA Pro оценивает, как модели справляются с парсингом, извлечением информации и обоснованными рассуждениями в рабочих процессах, включающих отсканированные PDF-файлы, устаревшие форматы и документы с длинным контекстом — именно эти задачи чаще всего ломают производственные агентные системы.
Результаты GPT-5.5 на OfficeQA Pro
Когда модели предоставляются нужные документы (режим OfficeQA Pro LLM с Oracle PDF + веб-поиском), GPT-5.5 набирает 64,66% — заметный прирост по сравнению с 57,14% у GPT-5.4, что соответствует улучшению примерно на 13% и новому рекорду на этом бенчмарке.
Но ещё более показательны результаты в режиме полноценного агентного сценария — когда модель сама ищет документы, разбирает их и вычисляет ответы без посторонней помощи:
В тесте OfficeQA Pro Agent Harness, где модель должна самостоятельно находить нужные документы, парсить их и вычислять ответы с помощью агентного окружения Codex, GPT-5.5 набрала 52,63% — против 36,10% у GPT-5.4. Это означает сокращение числа ошибок на 46% по сравнению с GPT-5.4, и GPT-5.5 стала первой моделью, преодолевшей барьер в 50% точности на OfficeQA Pro.
Сравнение моделей на OfficeQA Pro
| Модель | LLM + Oracle PDF + Web | Agent Harness (полный агент) |
|---|---|---|
| GPT-5.4 | 57,14% | 36,10% |
| GPT-5.5 | 64,66% | 52,63% |
| Прирост | ~+13% | -46% ошибок |
Где именно GPT-5.5 стала лучше
Парсинг старых и отсканированных документов
Databricks зафиксировала наибольший прирост от GPT-5.5 именно в задачах с интенсивным парсингом. Более ранние модели, такие как GPT-5.4, не могли корректно распознать все цифры, тогда как GPT-5.5 демонстрирует ступенчатый скачок в разборе старых документов и отсканированных PDF.
«Как только не удаётся извлечь определённую цифру или число, это полностью меняет траекторию работы агента», — поясняет Арнав Сингхви из Databricks.
Многошаговая оркестрация задач
Команда также зафиксировала улучшения в оркестрации многошаговых задач. У GPT-5.4 иногда наблюдались «лишние» поисковые обходные пути, что приводило к крайне неэффективным траекториям выполнения.
По сравнению с предыдущими моделями, GPT-5.5 надёжнее извлекает релевантный контекст и завершает сложные рабочие процессы без дополнительного надзора.
graph TD
A[Входящий запрос агента] --> B[Поиск нужных документов]
B --> C[Парсинг PDF / legacy-форматов]
C --> D{Все цифры
распознаны?}
D -- Нет, GPT-5.4 --> E[Ошибка в цепочке \nрассуждений]
D -- Да, GPT-5.5 --> F[Вычисление ответа]
F --> G[Финальный результат]
E --> H[Неверный вывод]
Как GPT-5.5 доступна в Databricks
Databricks предоставляет GPT-5.5 через AI Unity Gateway, где клиенты используют модель в рабочих процессах, построенных с помощью AgentBricks и Agent Supervisor API.
Unity AI Gateway управляет как GPT-5.5, так и Codex: контролирует права доступа, расходы, устанавливает защитные барьеры и обеспечивает полную наблюдаемость с первого дня.
Databricks делает GPT-5.5 доступной на AWS, Azure и GCP. Пользователи могут опробовать модель в AI Playground, развернуть Codex через Unity AI Gateway или строить собственных агентов с помощью Agent Bricks.
Ключевые инструменты платформы
| Инструмент | Назначение |
|---|---|
| Unity AI Gateway | Централизованное управление доступом, расходами и безопасностью |
| AgentBricks | Конструктор корпоративных агентов на базе GPT-5.5 |
| Agent Supervisor API | Надзор и оркестрация мультиагентных сценариев |
| Genie | Аналитика на естественном языке поверх корпоративных данных |
| AI Playground | Интерактивная среда для экспериментов с моделями |
Возможности для разработчиков
Благодаря улучшенным возможностям выполнения и рассуждения GPT-5.5, кастомные агенты Agent Bricks Custom Agents теперь способны справляться с более сложными многошаговыми рабочими процессами — от анализа документов до автоматизации бизнес-процессов на уровне отдела.
Разработчики могут создавать агентов на базе GPT-5.5, используя предпочтительные инструменты и фреймворки, а затем развёртывать их как полностью управляемые бессерверные Databricks Apps.
Пример минимального кода для запуска агента через Foundation Model API Databricks:
import openai
client = openai.OpenAI(
api_key="<DATABRICKS_TOKEN>",
base_url="https://<DATABRICKS_HOST>/serving-endpoints"
)
response = client.chat.completions.create(
model="openai-gpt-5-5",
messages=[
{
"role": "user",
"content": "Проанализируй прикреплённый финансовый отчёт и выдели ключевые показатели."
}
]
)
print(response.choices[0].message.content)
GPT-5.5: характеристики модели
Модель поддерживает мультимодальные входные данные и располагает контекстным окном в 400 000 токенов с максимальным выводом 128 000 токенов. Дата отсечения обучающих данных GPT-5.5 — декабрь 2025 года.
GPT-5.5 достигает лидирующих результатов сразу на нескольких бенчмарках: на GDPval (тест способности агентов выполнять специализированную работу по 44 профессиям) — 84,9%; на OSWorld-Verified (управление реальными компьютерными средами) — 78,7%; на Tau2-bench Telecom (сложные процессы клиентского обслуживания) — 98,0% без настройки промптов.
GPT-5.5 также лежит в основе Codex — агента для написания кода от OpenAI.
Партнёрство OpenAI и Databricks: зачем это нужно
Для понимания стратегического контекста: Databricks — одна из ключевых платформ для работы с данными и построения AI-систем в крупном бизнесе. Миллионы строк корпоративных данных хранятся именно здесь. Интеграция GPT-5.5 означает, что предприятия получают доступ к передовым возможностям OpenAI прямо там, где живут их данные — с полным контролем над доступом, стоимостью и безопасностью.
«GPT-5.5 стал огромным шагом вперёд с точки зрения работы со знаниями. Это ступенчатое изменение в том, как мы выполняем интеллектуальную работу» — из отзывов клиентов Databricks
Бизнес-пользователи могут безопасно взаимодействовать со сложными корпоративными данными на естественном языке — исследовать данные, отвечать на ситуативные вопросы и автоматизировать задачи, которые раньше занимали часы или дни. Глубокое понимание Genie корпоративной онтологии данных в сочетании с постоянно улучшающимися возможностями таких моделей, как GPT-5.5, позволяет рядовым сотрудникам использовать мощную аналитику в повседневной работе.
Итог
Интеграция GPT-5.5 в Databricks — это не просто очередное обновление модели. Это демонстрация того, что разрыв между «впечатляющим на демо» и «надёжным в реальных корпоративных условиях» наконец начинает сокращаться. Сокращение ошибок на 46% в end-to-end агентном сценарии и первое преодоление 50%-го порога на OfficeQA Pro — цифры, которые говорят сами за себя.
Для российских компаний, работающих с большими объёмами документов, финансовой отчётностью или мультишаговыми аналитическими задачами, подобные решения открывают новые возможности для автоматизации — даже если прямой доступ к Databricks сейчас ограничен, сама архитектура и подходы (мультиагентность, RAG, Unity Gateway) применимы с использованием локальных или альтернативных платформ.