Moebius 0.2B: инпейнтинг прямо в браузере через WebGPU

Маленькая модель с большими амбициями

В конце июня 2026 года на Hacker News появился пост о необычной нейросети — Moebius, легковесной модели для image inpainting (дорисовки/восстановления изображений), которая при скромных 0,22 миллиарда параметров показывает результаты, сопоставимые с тяжеловесами в 10 миллиардов.

Moebius — продолжение предыдущей работы команды, PixelHacker. Название вдохновлено концепциями «бесконечности» и «мастера живописи»: авторы стремились сохранить исключительное качество генерации при жёстко ограниченных вычислительных ресурсах.

Может ли модель быть умнее, легче и быстрее, если задача чётко определена?

Через совместную оптимизацию архитектуры и дистилляции знаний Moebius достигает компактного размера в 0,22 млрд параметров — и при этом разрушает миф о том, что мощный инпейнтинг требует огромных вычислительных ресурсов, делая высококачественную обработку изображений доступной на потребительских и граничных устройствах.

ℹ Что такое инпейнтинг?

Image inpainting (инпейнтинг) — это технология восстановления изображений: вы «закрашиваете» часть фото маской, а нейросеть самостоятельно придумывает и дорисовывает содержимое удалённой области. Это полезно для удаления нежелательных объектов, людей, водяных знаков или дефектов с фотографий.

Технические достижения Moebius

Модель достигает скорости вывода всего 26,01 мс на шаг на одном GPU. В сочетании с оптимизированным сэмплингом Moebius обеспечивает более чем 15-кратное общее ускорение по сравнению с моделями масштаба 10 млрд параметров.

При этом сжатие не означает деградацию качества. Благодаря синергии архитектуры и дистилляции Moebius выступает наравне, а в ряде сценариев — сложные текстуры, правдоподобие лиц — превосходит SOTA-модели уровня 10 млрд параметров (FLUX.1-Fill-Dev, SD3.5 Large-Inpainting) на 6 комплексных бенчмарках: как на сценах из реального мира (Places2), так и на портретах (CelebA-HQ, FFHQ).

Сравнение Moebius с конкурентами

Параметр	Moebius	FLUX.1-Fill-Dev	SD3.5 Large
Число параметров	0,22 млрд	11,9 млрд	~8 млрд
Скорость (мс/шаг)	26 мс	~390+ мс	~300+ мс
Качество (6 бенчмарков)	≥ SOTA	SOTA	SOTA
Требования к железу	Потребительский GPU / браузер	Профессиональный GPU	Профессиональный GPU
Open Source	✅	✅	✅

Как устроена архитектура?

В основе модели лежит специальный блок Local-λ Mix Interaction (LλMI). Он элегантно сжимает пространственные контексты и глобальные семантические приоры в матрицы фиксированного размера, сохраняя сложные латентные взаимодействия при радикальном сокращении числа параметров.

Для полного раскрытия репрезентативных возможностей компактной архитектуры авторы применяют адаптивную многогранулярную стратегию дистилляции. Она работает исключительно в латентном пространстве, избегая дорогостоящего декодирования в пиксельном пространстве, и динамически балансирует несколько градиентных потерь для высококачественного выравнивания.


graph TD
    A[Входное изображение + маска] --> B[Latent Diffusion Model LDM]
    B --> C[Denoising U-Net]
    C --> D[LλMI блоки]
    D --> E[Local-λ: пространственный контекст]
    D --> F[Interactive-λ: семантические приоры]
    E --> G[Дистилляция от учителя PixelHacker]
    F --> G
    G --> H[Восстановленное изображение]

Обучение построено по парадигме «учитель–студент». Роль учителя играет предобученный PixelHacker — мощный диффузионный бэкбон с LCG-руководством, служащий ориентиром максимального качества. Студентом выступает сам Moebius.

От PyTorch до браузера: идея Саймона Уиллисона

Оригинальная модель требовала PyTorch и NVIDIA CUDA — то есть для её запуска нужен был мощный компьютер с видеокартой Nvidia. Разработчик и известный технический блогер Саймон Уиллисон (Simon Willison) увидел публикацию на Hacker News и решил попробовать запустить Moebius прямо в браузере с помощью технологии WebGPU.

💡 Что такое WebGPU?

WebGPU — современный браузерный API для высокопроизводительной работы с GPU, пришедший на смену устаревшему WebGL. WebGPU официально поддерживается в Chrome, Edge, Firefox и Safari, что открывает возможность запускать сложные нейросетевые модели прямо в браузере без установки каких-либо программ.

Уиллисон воспользовался Claude Code — агентным инструментом для программирования от Anthropic — чтобы автоматизировать перенос (портирование) модели. В итоге ему удалось запустить Moebius в браузере через WebGPU. Демо доступно по адресу simonw.github.io/moebius.

📝 Что умеет демо

В браузерной версии можно:

Загрузить любую фотографию
Закрасить кистью объект, который нужно удалить
Нажать кнопку — и модель автоматически заполнит выделенную область реалистичным фоном
Всё это работает без серверов и без установки программ, прямо на вашем устройстве через WebGPU

Почему это важно: AI на краю сети

В условиях господства закона масштабирования AI-исследования давно превратились в гонку вооружений, пожирающую капитал, вычислительные мощности и данные. Академическому сообществу становится всё сложнее угнаться за постоянно расширяющимися масштабами моделей, которые диктует технологическая индустрия.

Используя универсальный инпейнтинг как стратегическую точку входа, авторы Moebius бросают вызов зависимости от пути «масштабирование любой ценой», продиктованного нарративом Scaling Law.

Возможность запустить Moebius в браузере через WebGPU — это не просто технический трюк. Это демонстрация нового направления в развитии AI: edge inference (вывод на граничных устройствах), когда мощные модели работают прямо на устройстве пользователя.

Уже сейчас такие библиотеки, как ONNX Runtime и Transformers.js, используют WebGPU для высокоскоростного локального вывода моделей прямо в браузере. Это открывает новые возможности для создания высокопроизводительных веб-приложений на базе AI.

Преимущества браузерного запуска AI-моделей

✅ Нет зависимостей — не нужно устанавливать Python, CUDA, PyTorch
✅ Приватность — данные не покидают ваше устройство
✅ Доступность — работает на любом ПК с современным браузером
✅ Бесплатно — не нужны облачные API и платные серверы
⚠️  Ограничения — требуется поддержка WebGPU (Chrome 113+, Edge 113+)
⚠️  Скорость — на слабом GPU медленнее, чем на профессиональных системах

Статус проекта и где попробовать

19 июня 2026 года Moebius достиг первого места в ежедневном рейтинге Hugging Face. 18 июня были опубликованы код обучения и инференса, а веса модели выложены в открытый доступ на Hugging Face. В тот же день стало известно, что статья принята на конференцию ECCV 2026.

⚠ Требования к браузеру

Для запуска Moebius в браузере необходима поддержка WebGPU:

Chrome / Edge: версия 113 и выше (Windows, macOS)
Firefox: версия 141+ на Windows; на macOS и Linux — в разработке
Safari: поддержка ожидается в macOS 26 / iOS 26

Если WebGPU не поддерживается вашим браузером — воспользуйтесь официальным Hugging Face Space или запустите модель локально через Python.

Полезные ссылки

Ресурс	Ссылка
Браузерное демо (Simon Willison)	simonw.github.io/moebius
Hugging Face Space	multimodalart/Moebius
GitHub репозиторий	hustvl/Moebius
Веса модели	hustvl/Moebius на HF
Научная статья (arXiv)	arxiv.org/abs/2606.19195

Выводы

Модель Moebius 0.2B — яркий пример того, что будущее AI не обязательно сводится к гонке за всё большими моделями. Вместо слепого масштабирования Moebius отвечает на фундаментальный вопрос: может ли модель быть умнее, легче и быстрее, если задача чётко определена? Этот высокооптимизированный специалист освобождает реальный инпейнтинг и AI-удаление объектов от раздутого числа параметров.

А эксперимент Саймона Уиллисона с портированием через Claude Code и WebGPU показывает: при правильном подходе такие модели можно запускать прямо в браузере — без серверов, без регистрации, без SMS. Это открывает широкие перспективы для разработчиков, дизайнеров и всех, кто хочет использовать мощь современного AI без сложной инфраструктуры.

Маленькая модель с большими амбициями

Технические достижения Moebius

Сравнение Moebius с конкурентами

Как устроена архитектура?

От PyTorch до браузера: идея Саймона Уиллисона

Почему это важно: AI на краю сети

Преимущества браузерного запуска AI-моделей

Статус проекта и где попробовать

Полезные ссылки

Выводы

Источники

Похожие статьи

DiffusionGemma: открытая модель Google, которая генерирует текст в 4 раза быстрее

Диффузионные модели для генерации видео: полный гайд

Needle: дистилляция Gemini в 26M-модель для edge-устройств

OpenReel Video: браузерный видеоредактор без установки

Claude Fable 5: неугомонная проактивность в деле