
GPT Image 2 создаёт фото, неотличимые от реальных
GPT Image 2 от OpenAI создаёт гиперреалистичные фотографии по детальным промптам. Разбираем, как это работает и что это значит для индустрии.
GPT Image 2 делает снимки, которые невозможно отличить от настоящих
Пользователи Reddit активно обсуждают возможности GPT Image 2 — новейшей модели генерации изображений от OpenAI. Один из экспериментов показал: при достаточно детальном промпте модель выдаёт результат, который выглядит как настоящая фотография. Это ставит перед сообществом закономерный вопрос: где граница между ИИ-артом и реальным снимком?
Промпт, который поразил сообщество
Автор поста на Reddit поделился детальным промптом, с помощью которого GPT Image 2 сгенерировал изображение, практически неотличимое от живой фотографии. Запрос описывал зеркальное селфи девушки с котом в стиле ранних цифровых камер 2000-х: рассеянный солнечный свет, зернистость плёнки, тёплые тона, небрежная причёска — всё как в жизни.
Результат впечатлил даже опытных пользователей ИИ-инструментов. Комьюнити задалось вопросом: есть ли вообще технические ограничения у таких промптов?
Чем точнее описание — тем сложнее отличить результат от реального снимка. GPT Image 2 стирает эту границу.
Почему GPT Image 2 так хорош в фотореализме?
С грамотно составленными промптами GPT Image 2 создаёт фотографии, которые действительно сложно отличить от настоящих — и это уже не «хорошо для ИИ», а качество, которое стоит само по себе. Освещение, текстура кожи, контекст окружения и глубина резкости значительно лучше, чем у GPT Image 1.5.
Пользовательские сравнения показывают устойчивую закономерность: в результатах GPT Image 2 меньше артефактов, лучше обработаны руки и лица, а поверхности материалов выглядят реалистичнее.
Ключевое отличие модели — O-series reasoning: модель исследует запрос, планирует сцену и проверяет себя ещё до рендеринга первого пикселя. Результат — почти идеальная точность текста на любом языке и разрешение до 2K нативно.
Как устроена архитектура
GPT Image 2 встроен непосредственно в архитектуру GPT-4o — это не отдельная диффузионная модель, подключённая к языковой. Именно поэтому модель способна точно обрабатывать сложные промпты: со специфическим текстом, логотипами, пространственными взаимосвязями и несколькими персонажами.
graph TD
A[Пользователь вводит промпт] --> B[Thinking Mode: анализ и планирование]
B --> C[Модель разрешает неоднозначности]
C --> D[Генерация изображения]
D --> E[Самопроверка и финальный рендер]
E --> F[Готовое изображение]
Ключевые возможности GPT Image 2
| Возможность | GPT Image 1 / DALL-E 3 | GPT Image 2 |
|---|---|---|
| Точность текста | ~60% | >99% |
| Разрешение | до 1536×1024 | до 4K |
| Языки | Преимущественно латиница | Japanese, Korean, Chinese, Hindi, Bengali |
| Thinking Mode | Нет | Есть |
| Изображений за запрос | 1 | До 8 |
| Фотореализм | Хороший | Труднее отличить от реального |
Стоимость генерации начинается от $0.01 за изображение низкого качества (1024×768) и доходит до $0.41 за изображение высокого качества в разрешении 4K.
Thinking Mode: модель думает перед рендером
Перед генерацией модель «рассуждает» над промптом — определяет возможные неоднозначности, планирует расположение элементов и выявляет потенциальные несоответствия. Эту цепочку рассуждений можно наблюдать прямо в интерфейсе ChatGPT до появления изображения.
Мультиязычность и знание реального мира
GPT Image 2 — первая модель OpenAI со встроенным reasoning, первая, способная рендерить плотный текст на японском, корейском, китайском, хинди и бенгальском, и первая, которая умеет искать в интернете перед тем, как нарисовать хоть один пиксель.
Knowledge cutoff модели — декабрь 2025 года, что позволяет ей генерировать более контекстуально точные и актуальные результаты.
Безопасность и маркировка
В вопросах безопасности: в модель уже встроена водяная маркировка C2PA (Coalition for Content Provenance and Authenticity).
Для GPT Image 2 применяется многоуровневый подход к безопасности: защитные меры OpenAI дополнены фильтрами Azure AI Content Safety, включая классификаторы чувствительного контента.
Что это значит для отрасли
Впервые модель генерации изображений не просто создаёт пиксели — она планирует, исследует, набрасывает и пересматривает. Это уже другая категория инструментов, которая кардинально изменит рабочие процессы любой команды, создающей визуальный контент.
Для авторов, работающих над сторибордами или брендовыми кампаниями, ключевая новая функция — возможность генерировать до восьми различных изображений из одного промпта с сохранением «непрерывности персонажей и объектов» по всей серии.
Пример из Reddit наглядно демонстрирует: GPT Image 2 уже сегодня способен создавать контент, который требует от зрителя осознанных усилий, чтобы опознать его как ИИ-генерацию. Для фотографов, дизайнеров и маркетологов это одновременно мощный инструмент и серьёзный вызов.