
Как AI понимает визуальный поиск: технология Google
Как Google Lens и AI Mode используют Gemini для мультиобъектного визуального поиска — техника fan-out, Circle to Search и будущее поиска по изображениям.
Вы наверняка с этим сталкивались: видите в ленте фотографию идеально обставленной комнаты или стильный уличный образ — и хотите узнать, где купить каждый элемент. До недавнего времени визуальный поиск работал по принципу «один запрос — один предмет». Но в начале 2026 года Google кардинально изменила подход: обновлённые Circle to Search и Google Lens научились распознавать и искать несколько объектов на одном изображении одновременно.
Чтобы разобраться, как именно это работает, поговорим о технологиях, стоящих за этим прорывом. В основе — интервью с Дунией Беррада (Dounia Berrada), старшим директором по разработке Google Search, которая отвечает за мультимодальный поиск и Google Lens.
Что такое мультимодальный поиск
Мультимодальный поиск (multimodal search) — это способность системы принимать и обрабатывать запросы в разных форматах: текст, изображения, видео, PDF-документы. Google Lens — ключевой инструмент в этой области. По словам Дунии Беррада, его задача — помогать пользователям получать ответы на самые сложные вопросы о том, что они видят: от решения математических задач до определения редкого растения или поиска понравившейся пары кроссовок.
Как работал визуальный поиск раньше
Представьте: вы делаете ремонт и нашли фото интерьера в стиле mid-century modern. Вам нравится всё — торшер, ковёр, кресло, тумбочка. Раньше приходилось:
- Обвести торшер → получить результаты
- Вернуться к фото → обвести ковёр → получить результаты
- Повторить для кресла
- И ещё раз для тумбочки
Четыре отдельных поиска на одну фотографию. Долго, неудобно и утомительно.
| Параметр | Старый подход | Новый подход (2026) |
|---|---|---|
| Объектов за один поиск | 1 | Несколько одновременно |
| Количество действий пользователя | По одному на каждый объект | Одно действие на всё изображение |
| Технология | Классическое распознавание | Gemini + fan-out |
| Контекст сцены | Не учитывается | Анализируется целиком |
| Доступность | Все Android-устройства | Pixel 10, Galaxy S26, расширяется |
Новый подход: мультиобъектный поиск
С обновлением февраля 2026 года всё изменилось. Теперь, когда вы используете Circle to Search для поиска по фотографии целого образа, система автоматически находит результаты для каждого элемента — шляпа, куртка, обувь, аксессуары — за один раз.
Это стало возможным благодаря AI Mode в Google Search и модели Gemini 3. Вот как это устроено технически.
Архитектура: «мозг» и «библиотека»
Дуния Беррада описывает архитектуру визуального поиска через простую метафору:
AI-модель выступает как «мозг», который умеет «видеть» изображение, а бэкенд визуального поиска — как «библиотека», содержащая миллиарды веб-результатов. Мозг понимает, что вы ищете, а библиотека находит лучшие совпадения.
Когда вы загружаете изображение, модель Gemini анализирует его вместе с вашим вопросом и решает, какие инструменты использовать. Если на фото — образ из соцсетей, модель понимает, что нужно задействовать Lens для одновременного поиска каждого элемента одежды, а затем объединяет найденное в единый структурированный ответ.
graph TD
A["📸 Пользователь загружает изображение"] --> B["🧠 Gemini анализирует сцену"]
B --> C["🔍 Мультиобъектное распознавание"]
C --> D1["Объект 1: куртка"]
C --> D2["Объект 2: обувь"]
C --> D3["Объект 3: сумка"]
C --> D4["Объект N: ..."]
D1 --> E["⚡ Fan-out: параллельные запросы"]
D2 --> E
D3 --> E
D4 --> E
E --> F["📚 Бэкенд визуального поиска"]
F --> G["📋 Единый структурированный ответ"]
Техника fan-out: один запрос — десятки поисков
Ключевая инновация — техника fan-out (веерный запрос). Суть проста: вместо того чтобы выполнять поиски последовательно, AI Mode запускает десятки параллельных запросов одновременно.
Разберём на примере. Допустим, вы фотографируете свой сад и загружаете фото в Google. У вас сразу несколько вопросов:
- Выживут ли эти растения в тени?
- Подходят ли они для моего климата?
- Сколько ухода они требуют?
Раньше вы задавали бы эти вопросы по одному. Теперь AI Mode сам определяет все необходимые «веерные» запросы, собирает информацию по уходу за каждым растением на фото из разных веб-источников, структурирует результаты и даже предлагает следующие шаги.
Вы загружаете фото скандинавской гостиной. AI Mode автоматически:
- Определяет объекты: диван, журнальный столик, торшер, ковёр, картина
- Запускает параллельный поиск по каждому предмету
- Находит похожие товары в интернет-магазинах
- Выдаёт единый ответ с ссылками на все найденные предметы
Не только изображения: текст как отправная точка
Важно понимать, что мультиобъектный поиск не требует начинать с картинки. Вы можете:
- Ввести текстовый запрос в AI Mode, например: «идеи деловых образов на весну»
- Получить подборку изображений
- Увидев понравившийся результат, уточнить: «Покажи ещё варианты, похожие на вторую юбку»
Система мгновенно возьмёт конкретное изображение и запустит веерный процесс поиска от него.
Где это работает: за пределами шопинга
Хотя покупки — одно из самых популярных применений визуального поиска, возможности AI Mode гораздо шире.
| Сценарий | Что делает пользователь | Что делает AI |
|---|---|---|
| Музей | Фото стены с картинами | Описание каждой картины, автор, год, стиль |
| Кулинария | Фото витрины пекарни | Названия и описания каждого десерта |
| Путешествия | Фото улицы в незнакомом городе | Информация о зданиях, достопримечательностях |
| Обучение | Фото страницы учебника | Объяснение формул, диаграмм, понятий |
| Ремонт | Фото комнаты для вдохновения | Поиск каждого предмета мебели и декора |
Мы переходим от парадигмы «Что это за один предмет?» к парадигме «Объясни мне всю эту сцену целиком».
— Дуния Беррада, старший директор по разработке Google Search
Какие технологии стоят за прорывом
Мультиобъектный визуальный поиск стал возможен благодаря нескольким технологическим компонентам:
Gemini 3 — новейшая мультимодальная модель Google с возможностями агентного планирования и рассуждения. Именно она «понимает» содержимое изображения и решает, как его обработать.
Google Lens — бэкенд визуального поиска, накопивший за годы развития огромную экспертизу в распознавании изображений. Lens выступает как «библиотека» — источник миллиардов проиндексированных изображений из интернета.
AI Mode — режим поиска Google, объединяющий возможности Gemini и Lens. Доступен в Google Search и обеспечивает интеллектуальные ответы с визуальными результатами.
Fan-out — архитектурный паттерн параллельной обработки запросов, позволяющий выполнять десятки поисков одновременно.
Что это значит для будущего поиска
Переход от «поиска по одному объекту» к «пониманию целых сцен» — это фундаментальный сдвиг. По сути, AI перестаёт быть простым инструментом распознавания и становится ассистентом, который видит мир так же комплексно, как человек.
Вы фотографируете — а десятки параллельных поисков уже работают за кулисами, собирая для вас полную картину. Не нужно формулировать идеальный запрос. Не нужно делать несколько попыток. Достаточно одного изображения и одного вопроса.
Визуальный поиск перестаёт быть «фичей» — он становится естественным способом взаимодействия с информацией. И техника fan-out, вероятно, станет стандартным подходом не только для Google, но и для других поисковых систем, развивающих мультимодальный AI.