LLM Рио-де-Жанейро оказался слиянием чужих моделей: разбор скандала

Что происходит, когда муниципальная IT-компания города заявляет о создании собственной большой языковой модели с нуля — а сообщество за несколько часов математически доказывает, что это не так? Именно это случилось в июне 2026 года с Rio 3.5 Open 397B, «флагманским» ИИ-проектом Рио-де-Жанейро. История оказалась одновременно поучительной, немного комичной и крайне важной для всей экосистемы открытого AI.


Что такое Rio 3.5 Open и кто его создал

IplanRIO, муниципальная IT-компания Рио-де-Жанейро, выпустила и разместила на Hugging Face модель Rio 3.5 Open с 397 миллиардами параметров, заявив о её создании на базе Qwen 3.5 397B. Официально проект позиционировался как собственная городская разработка — «homegrown LLM», призванная продемонстрировать технологический суверенитет Бразилии и показать, что даже государственная структура может вносить вклад во фронтир открытого AI.

Разработчики заявили, что Rio 3.5 Open добавляет поверх базовой модели Qwen фреймворк SwiReasoning — систему динамического переключения между явным chain-of-thought и рассуждением в латентном пространстве, управляемую энтропийными сигналами доверия, чтобы модель «думала вслух» только тогда, когда это действительно нужно.

Релиз позиционировал государственную структуру как прямого участника гонки открытых весов фронтирного класса, демонстрируя, что пост-тренировка на публичной базовой модели может сравняться или превзойти определённые закрытые системы.

ℹ Контекст
IplanRIO (Instituto Pereira Passos / Instituto Municipal de Urbanismo) — это муниципальная IT-структура Рио-де-Жанейро, отвечающая за цифровую инфраструктуру города. Релиз Rio 3.5 Open сопровождался политическим анонсом и широким медийным освещением в Бразилии.

Разоблачение: математика не врёт

Прошло меньше суток после публикации модели на Hugging Face, как сообщество открытого AI начало разбирать веса по косточкам. Результат оказался неожиданным.

Модель prefeitura-rio/Rio-3.5-Open-397B была представлена как оригинальная 397B-разработка IplanRIO. Это оказалось неправдой. Её веса являются прямым поэлементным слиянием модели Nex и официального базового Qwen3.5-397B-A17B — примерно в пропорции 0.6 Nex / 0.4 Qwen — без каких-либо свидетельств самостоятельного обучения.

Самое курьёзное доказательство — поведение самой модели:

После отключения жёстко прошитого системного промпта «You are Rio» задеплоенная модель идентифицировала себя как «Nex, от Nex-AGI» в 79% случаев — и как «Rio» ни разу. Она даже дословно воспроизводила уникальную «биографию» организации-разработчика.

«A model that introduces itself as ‘Nex N2 Pro’ with no system prompt is the AI equivalent of a forger signing the fake with his own name.»

Каждый тензор весов в Rio оказался — с точностью до тысяч стандартных отклонений — тем же смешением 0.6/0.4 из Nex и Qwen, воспроизводившимся во всех 60 слоях и в каждом компоненте сети.

⚠ Важно
Проверочный скрипт для верификации слияния весов был опубликован в открытом доступе на GitHub — любой желающий может воспроизвести результат самостоятельно.

Кто такой Nex-N2-Pro и почему это важно

Чтобы понять масштаб проблемы, нужно разобраться, что именно взяли за основу.

Nex-N2-Pro был выпущен 2 июня 2026 года: 397 миллиардов параметров, 17 миллиардов активных, контекст в 262 тысячи токенов.

Nex-AGI официально выпустила и открыла исходный код своей модели Nex-N2, называя её «агентной моделью, созданной для реальных сценариев продуктивности» с передовыми возможностями кодирования и агентного выполнения задач.

Архитектурно Nex-N2-Pro реализована как Mixture of Experts с 397 миллиардами параметров (17 миллиардов активных на токен), контекстом в 262 тысячи токенов и пост-тренировкой поверх Qwen3.5-397B.

На бенчмарке SWE-Bench Verified Nex-N2-Pro показывает 80.8% против 76.4% у Qwen3.5-397B.

ПараметрNex-N2-ProQwen3.5-397BRio 3.5 Open
Параметры397B (17B акт.)397B (17B акт.)397B (17B акт.)
Контекст262K токенов128K токенов~262K токенов
SWE-Bench80.8%76.4%~схожий с Nex
РазработчикNex-AGI (Китай)Alibaba (Китай)IplanRIO (Бразилия)
Open-source
Оригинальная тренировка
📝 Почему производительность сохранилась
Nex-N2-Pro сам является пост-тренировкой поверх Qwen3.5-397B. Поэтому слияние Rio — это фактически «Qwen, смешанный с ещё большим количеством Qwen». Архитектурная совместимость сохранила метрики качества, но никакого нового обучения сделано не было.

Как технически работает model merging

Прежде чем вынести окончательный вердикт, важно понять: слияние моделей (model merging) — это полноценная и широко используемая техника в AI-разработке, а не обязательно мошенничество.

С ростом популярности LLM исследователи всё активнее изучают слияние моделей, обученных на разных датасетах или задачах. Этот подход позволяет объединить уникальные сильные стороны каждой модели, создавая более универсальный LLM. Слияние объединяет два и более обученных моделей в единую, включающую преимущества каждой из исходных.

Вместо повторного обучения с нуля современные пайплайны разработки всё чаще используют model merging для объединения специализированных чекпоинтов, что обеспечивает интеграцию навыков, доменную адаптацию и быструю итерацию при скромных вычислительных затратах.

LLM merging уже широко применяется в крупных моделях — включая DeepSeek-V3 и Qwen3, где слияние используется для расширения тренировки, интеграции специализированных возможностей или консолидации промежуточных моделей.


graph TD
    A[Nex-N2-Pro\n397B параметров] -->|60% весов| C[Поэлементное слияние]
    B[Qwen3.5-397B-A17B\nбазовая модель Alibaba] -->|40% весов| C
    C --> D[Rio 3.5 Open 397B]
    D --> E{Заявлено как\nоригинальная разработка}
    E -->|Факт| F[Нет собственного обучения]
    E -->|Маркетинг| G[Homegrown Brazilian LLM]
    F --> H[Разоблачение сообществом]

Проблема Rio 3.5 Open — не в самом факте слияния, а в том, как это было подано публике и медиа.


Реакция Nex-AGI и уроки прозрачности

По точному описанию представителей Nex-AGI: Rio 3.5 — это слияние Nex-N2-Pro с Qwen3.5-397B с применением некоторой on-policy дистилляции сверху.

Команда Nex-AGI отметила, что их модель упоминается в model card, никаких скрытых манипуляций нет — однако при запросе без системного промпта модель буквально представлялась как «Nex N2 Pro». «Мы польщены тем, что Рио использовал наши наработки для достижения SOTA-результатов», — прокомментировали в Nex-AGI.

Однако в мире открытого исходного кода атрибуция имеет значение.

Ключевой вывод этой истории сформулировала сама дискуссия в сети:

«Настоящий урок здесь шире: это доказуемо только потому, что веса открыты. Можно запустить математику, подтвердить коэффициент слияния, опубликовать скрипт верификации, который каждый может перезапустить. Попробуйте провести такой криминалистический анализ закрытой фронтирной модели — это невозможно».

Иными словами, открытость весов — это одновременно инструмент инноваций и механизм подотчётности.

💡 Практический вывод
Если вы или ваша организация используете model merging — публично указывайте все исходные модели, их версии и пропорции слияния. Это не просто этическая норма: в сообществе open-source существуют инструменты, позволяющие математически верифицировать состав любой модели с открытыми весами.

Что это значит для государственного AI и «суверенных» моделей

Скандал вокруг Rio 3.5 Open поднимает более широкий вопрос: что значит «создать собственную LLM» в 2026 году?

В современной AI-экосистеме существует чёткий спектр уровней самостоятельности:

УровеньОписаниеПримеры
Полная разработкаАрхитектура + данные + тренировка с нуляGPT-4, Gemini, Llama
Fine-tuningДообучение на своих данныхМногие корпоративные модели
Post-trainingRLHF, SFT поверх чужой базыНормальная практика
Model mergingСлияние весов существующих моделейДопустимо при атрибуции
RebrandПереименование без измененийПроблема Rio 3.5

По сути, IplanRIO выполнила model merging (что само по себе легитимно), но подала это как полноценную оригинальную разработку — что и вызвало справедливую критику.

Производительность Rio 3.5 реальна, но атрибуция — нет.

Для правительств, стремящихся к «AI-суверенитету», история Рио — важный урок: настоящий технологический суверенитет строится не на маркетинговых заявлениях, а на реальных компетенциях, прозрачности процессов и честном вкладе в экосистему открытого AI. Использование чужих открытых моделей — нормальная и ценная практика, но только при условии честного описания того, что именно было сделано.


Заключение

История Rio 3.5 Open — это не просто курьёз с бразильской городской IT-компанией. Это точная иллюстрация трёх важных истин о современном AI:

1. Model merging — легитимная техника, но не синоним «собственной разработки». Слияние моделей стало ключевой стратегией пост-тренировки для повышения производительности LLM, консолидируя специализированные модели в единую архитектуру и обходя необходимость масштабного переобучения. Это мощный инструмент — но он не даёт права называть результат собственной оригинальной моделью.

2. Открытые веса — лучший механизм подотчётности. Именно публичность весов позволила сообществу за несколько часов математически доказать факт слияния. Закрытые модели лишены этого механизма проверки.

3. Атрибуция в open-source — это не формальность, это основа доверия. В мире открытого исходного кода атрибуция имеет значение. Каждая незакредитованная модель — это удар по доверию, который подрывает саму экосистему, на которой стоит современный AI.

Рио получил рабочую мощную модель. Nex-AGI получила неожиданный бенчмарк-тест своей работы. Сообщество получило ещё один аргумент в пользу открытости. Но главный урок остаётся прежним: в мире, где математика проверяет каждый тензор, честность — это не опция, а необходимость.