Как AI понимает визуальный поиск: технология Google

Mon, 13 Apr 2026 13:00:00 +0300

Вы наверняка с этим сталкивались: видите в ленте фотографию идеально обставленной комнаты или стильный уличный образ — и хотите узнать, где купить каждый элемент. До недавнего времени визуальный поиск работал по принципу «один запрос — один предмет». Но в начале 2026 года Google кардинально изменила подход: обновлённые Circle to Search и Google Lens научились распознавать и искать несколько объектов на одном изображении одновременно.

Чтобы разобраться, как именно это работает, поговорим о технологиях, стоящих за этим прорывом. В основе — интервью с Дунией Беррада (Dounia Berrada), старшим директором по разработке Google Search, которая отвечает за мультимодальный поиск и Google Lens.

Мультимодальные модели: как AI научился видеть и слышать

Thu, 19 Feb 2026 15:00:00 +0300

Ещё пару лет назад языковые модели работали исключительно с текстом. Вы могли спросить ChatGPT о чём угодно — но показать ему фотографию или проиграть аудиозапись было невозможно. Сегодня ведущие модели одновременно анализируют текст, изображения, аудио и видео, а некоторые — генерируют контент сразу в нескольких модальностях. Это не эволюция — это смена парадигмы.

В этой статье разберём, как устроены мультимодальные модели изнутри, сравним ключевых игроков рынка и покажем, где эти технологии уже приносят реальную пользу.

Мультимодальные Модели on AI-Uchi — Всё об искусственном интеллекте

Как AI понимает визуальный поиск: технология Google

Мультимодальные модели: как AI научился видеть и слышать