Главное

DeepSeek V4 Pro вошёл в топ агентных AI-моделей: на независимом бенчмарке FoodTruck Bench он вплотную приблизился к GPT-5.2 — разрыв всего 3% по медиане. При этом стоимость работы с API у DeepSeek примерно в 17 раз ниже. Это первая китайская модель, попавшая в «фронтирный» эшелон этого теста.


Что такое FoodTruck Bench

FoodTruck Bench — это 30-дневный агентный (agentic) бенчмарк, то есть тест, где модель не просто отвечает на вопросы, а самостоятельно управляет бизнес-процессами. Модель «ведёт» виртуальный фудтрак, используя 34 инструмента: управление локациями, ценообразование, инвентарь, персонал, погода, мероприятия. При этом у неё есть persistent memory (постоянная память) и она делает ежедневные рефлексии по результатам.

ℹ Что такое агентный бенчмарк
В отличие от классических тестов типа MMLU или HumanEval, агентные бенчмарки проверяют способность модели принимать многоходовые решения, работать с инструментами и удерживать контекст на протяжении длительных задач — то есть имитируют реальную бизнес-нагрузку.

Результаты: DeepSeek V4 Pro в топ-4

По итогам тестирования DeepSeek V4 Pro занял четвёртое место:

МестоМодельПозиция
1Claude Opus 4.6Лидер
2GPT-5.2Фронтир
3Grok 4.3 LatestTied с DeepSeek
4DeepSeek V4 ProВ пределах 3% от GPT-5.2

DeepSeek V4 Pro сравнялся с Grok 4.3 Latest по итоговому исходу и оказался в пределах 3% от медианного результата GPT-5.2. GPT-5.2 — это фронтирная модель серии GPT-5, отличающаяся более высокой производительностью на агентных задачах и в работе с длинным контекстом.

💡 Почему это важно
До этого теста китайские модели не попадали в «фронтирный» эшелон FoodTruck Bench. DeepSeek V4 Pro стал первым — и сразу с результатом в пределах 3% от лидера.

Архитектура: почему V4 Pro такой эффективный

DeepSeek-V4-Pro — это MoE-модель (Mixture-of-Experts) с 1,6 триллиона параметров, из которых активируется 49 миллиардов, с контекстным окном в 1 миллион токенов.

Серия V4 использует гибридную архитектуру внимания, объединяющую Compressed Sparse Attention (CSA) и Heavily Compressed Attention (HCA). В режиме контекста 1M токенов V4 Pro требует лишь 27% операций одиночного вывода и 10% KV-кэша по сравнению с DeepSeek-V3.2.

DeepSeek-V4-Pro-Max — режим максимальных вычислений — значительно развивает возможности open-source моделей и демонстрирует производительность высшего уровня в бенчмарках по кодированию, существенно сокращая разрыв с ведущими закрытыми моделями на задачах рассуждения и агентных задачах.


Временной разрыв сократился до 10 недель

Главная сенсация — не сам результат, а скорость, с которой DeepSeek его достиг.

Раньше разрыв между Китаем и США на этом бенчмарке ощущался как год. Сейчас — примерно десять недель.

GPT-5.2 тестировался в середине февраля 2026 года. DeepSeek V4 Pro повторил его результат десятью неделями позже. Это резкое ускорение темпа: если раньше китайские модели отставали на год, теперь речь идёт о нескольких месяцах.

По данным американского регулятора, в апреле 2026 года CAISI (Центр стандартов и инноваций в области ИИ) оценил DeepSeek V4 Pro и пришёл к выводу, что его возможности отстают от фронтира примерно на 8 месяцев — однако это оценка по закрытым государственным бенчмаркам, и она заметно расходится с независимыми тестами.

⚠ Спор об оценке
CAISI использует непубличные бенчмарки и оценивает отставание DeepSeek V4 Pro от фронтира в 8 месяцев. Независимые тесты, такие как FoodTruck Bench и Artificial Analysis Intelligence Index, дают принципиально иную картину. Расхождение методологий — важный контекст при анализе любых заявлений о «гонке» AI.

Ценовой разрыв: в 17 раз дешевле

Если по производительности разрыв сократился до 3%, то по цене разрыв — огромный, и не в пользу OpenAI.

GPT-5.2 стоит $1,75 за миллион входных токенов и $14 за миллион выходных токенов.

DeepSeek V4 Pro предлагается по $0,435/M input и $0,87/M output — плюс скидка на кэшированные запросы. Итого — ~17× дешевле для той же агентной нагрузки.


graph LR
    A["GPT-5.2\n$1.75/M input\n$14/M output"] -->|"÷17"| B["DeepSeek V4 Pro\n$0.435/M input\n$0.87/M output"]
    B --> C["Тот же результат\nна FoodTruck Bench"]
    style A fill:#ff6b6b,color:#fff
    style B fill:#4ecdc4,color:#fff
    style C fill:#45b7d1,color:#fff

DeepSeek V4 демонстрирует более высокую экономическую эффективность по сравнению с моделями аналогичного уровня: по сравнению с наиболее конкурентоспособной американской моделью по цене (GPT-5.4 mini) DeepSeek V4 был дешевле на 5 из 7 бенчмарков.

📝 Пример расчёта

Если агентная задача требует 10M выходных токенов в месяц:

  • GPT-5.2: 10M × $14 = $140
  • DeepSeek V4 Pro: 10M × $0,87 = $8,70

Экономия — более $130 в месяц только на выходных токенах.


Что это значит для разработчиков

DeepSeek V4 Pro лидирует среди open-weight моделей на GDPval-AA — агентном бенчмарке реальных рабочих задач от Artificial Analysis.

GPT-5.5 и Opus 4.7 — закрытые, проприетарные модели от OpenAI и Anthropic, стоящие несколько долларов за миллион выходных токенов через API. DeepSeek V4 Pro — open-weight, поддерживает self-hosting и доступен через API по значительно меньшей цене.

Если DeepSeek может обеспечивать производительность близкую к фронтиру на многих релевантных для бизнеса агентных и reasoning-задачах при стоимости примерно в одну шестую-одну седьмую от стандартной цены GPT-5.5 или Claude Opus 4.7, это кардинально меняет экономику передового AI-развёртывания.


Итог

DeepSeek V4 Pro — это первая китайская модель, дотянувшаяся до фронтирного эшелона на независимом агентном бенчмарке. Ключевое: она сделала это за 10 недель после GPT-5.2 и стоит в ~17 раз дешевле. Промо-цены могут вырасти, но историческая закономерность DeepSeek — промо становится постоянным полом. Для разработчиков, строящих агентные системы, это сигнал пересмотреть привычные выборы стека.