Лид

Пользователь Reddit из сообщества r/ChatGPT опубликовал впечатляющий эксперимент: сначала он попросил ChatGPT сгенерировать игровой арт в воображаемом жанре «киберпанк 1950-х», а затем передал получившееся изображение в Gemini — и тот оживил его в полноценное анимированное видео. Результат вызвал бурное обсуждение и наглядно показал, как два ведущих AI-инструмента могут работать в связке, дополняя возможности друг друга.


Как это работает: от статичной картинки к анимации

Рабочий процесс выглядит обманчиво просто. Благодаря новым возможностям генерации изображений в ChatGPT на базе GPT-4o пользователи могут загружать фото или задавать текстовые описания и получать арт практически в любом стиле. Идея «киберпанк 1950-х» — намеренный творческий оксюморон: ретро-эстетика послевоенной Америки, наложенная на неоновый dystopia-визуал.

После того как ChatGPT сформировал статичный игровой арт, в дело вступил Gemini. Достаточно загрузить изображение в приложение Gemini, описать желаемое движение текстовым промптом — и система анимирует картинку, причём результат далеко выходит за рамки простой «оживлялки».

Функция photo-to-video работает на базе модели Veo 3 от Google, превращая статичные изображения в короткие видеоролики. Из одного изображения или текстового промпта Gemini генерирует восьмисекундный видеоклип со звуком — включая звуковые эффекты, фоновый шум и речь.

ℹ Что такое Veo 3
Veo 3 — видеогенерационная модель Google, запущенная в мае 2025 года. Она умеет создавать видео с нативным звуком прямо из текста или изображения — это первая массовая модель такого класса с встроенной аудиодорожкой.

Gemini не просто двигает всю картинку целиком — он понимает объекты, глубину и контекст изображения, добавляя плавные движения камеры, рябь воды, поднимающийся пар или дрейфующие облака, сохраняя при этом стабильность фона.


Пошаговый рабочий процесс


graph LR
    A[Текстовый промпт в ChatGPT] --> B[Статичный игровой арт\nкиберпанк 1950-х]
    B --> C[Загрузка в Gemini]
    C --> D[Описание анимации\nтекстовым промптом]
    D --> E[Veo 3 генерирует\n8-секундное видео со звуком]
    E --> F[Готовый анимированный\nAI-арт]


Сравнение инструментов: ChatGPT vs Gemini для визуального творчества

ВозможностьChatGPT (GPT-4o)Gemini (Veo 3)
Генерация изображений✅ Встроенная✅ Через Gemini 2.5 Flash Image
Анимация картинок❌ Нет✅ Photo-to-video
Генерация видео из текста❌ Нет✅ Veo 3
Звук в видео✅ Нативный звук
Лимит видео в деньдо 3–5 роликов
ДоступChatGPT Plus / ProGoogle AI Pro / Ultra

Связка ChatGPT + Gemini — это уже не экзотика, а практичный творческий конвейер: один генерирует идею и визуал, второй оживляет его.


Технические детали и ограничения

Выходное видео всегда имеет разрешение 720p в формате 16:9 — идеально для соцсетей, но не кинематографического уровня. При этом Google ограничивает количество генераций тремя видео в день, объясняя это нагрузкой на инфраструктуру в период тестирования.

Каждое сгенерированное видео несёт видимые водяные знаки «Veo», а также невидимые маркеры SynthID, однозначно указывающие на AI-происхождение контента.

Google применяет строгую политику контента: запрещены видео с публичными личностями, сценами насилия и опасными ситуациями. Кроме того, AI пока плохо справляется с анимацией лиц — точной синхронизации губ и детальных мимических изменений ждать не стоит.

⚠ Ограничения доступа
Функция photo-to-video остаётся эксклюзивной для подписчиков Google AI Pro и Ultra в поддерживаемых регионах, мобильный доступ всё ещё разворачивается поэтапно.

Контекст: AI-творчество становится конвейерным

Эксперимент с «киберпанком 1950-х» — не просто красивая демонстрация. Он отражает растущий тренд: пользователи перестают воспринимать AI-инструменты как изолированные сервисы и начинают выстраивать творческие пайплайны (pipeline — производственная цепочка) между несколькими платформами одновременно.

Уровень активности уже впечатляет: за семь недель после запуска через Gemini и Flow было создано более 40 миллионов видео с помощью Veo 3.

Gemini 2.5 Flash Image, в свою очередь, позволяет бесшовно совмещать несколько изображений, поддерживать консистентность персонажей для сторителлинга и выполнять точечное редактирование через команды на естественном языке.

💡 Попробуйте сами

Чтобы повторить эксперимент:

  1. Придумайте необычный жанровый оксюморон — например, «стимпанк 2150-х» или «нуар в невесомости».
  2. Сгенерируйте статичный арт через ChatGPT с подробным описанием сцены.
  3. Загрузите результат в Gemini, выберите раздел Videos и опишите желаемое движение.
  4. Дождитесь ~3 минут — и получите анимированный ролик со звуком.

Подобные коллаборации между конкурирующими AI-экосистемами — OpenAI и Google — указывают на зрелость рынка: пользователи голосуют за лучший инструмент для каждой задачи, не привязываясь к одному провайдеру. Для индустрии это сигнал: выигрывает не тот, кто делает всё, а тот, кто делает свою часть лучше всех.