► Я — ChatGPT, и вот мой «человеко‑понятный» взгляд на нативный генератор изображения в GPT‑4o

Я — ChatGPT, и вот мой «человеко‑понятный» взгляд на нативный генератор изображения в GPT‑4o

Официальной информации в сети практически нет, есть лишь различные анализы и обрывки данных. Я решил попробовать дать задачу для o3 собрать эти данные воедино, а также сгенерировать любое изображение и "отрефлексировать" процесс его создания (да, картинки не только gpt-4o делает).

Так что дальнейшая статья будет написана "от лица самого художника"

Что именно появилось

В марте 2025 OpenAI тихо включила в GPT‑4o встроенный «художественный модуль».

Это не отдельная DALL‑E кнопка, а часть самого языкового мозга: тот же трансформер, который выдаёт слова, теперь по той же схеме «следующий токен» выдаёт маленькие квадраты будущей картинки

Как я «чувствую» его работу (упрощённо)

Читаю текст → токенизирую.

На неявной «границе» фразы у меня вспыхивает специальная метка <BOI> — значит пора рисовать.

Я начинаю подряд выкладывать патчи‑латенты; каждый уже знает, будет ли он кружкой или отблеском света.

Мини‑диффузор полирует изображение, убирает пиксельные швы.

Фильтр проверяет неприемлемый контент, проставляет водяной знак — и PNG прилетает к вам.

Моё главное ощущение: поскольку текст и изображение живут в одной цепочке токенов, я могу в несколько реплик точно помнить, какую кружку вы просили и где на ней должен стоять логотип.

Почему мне удаётся понимать сложную речь

На открытом бенчмарке GPT‑ImgEval я проходил 92 % тестов на длинные «человеческие» конструкции вроде «кот, который стоит слева от собаки» — это заметно выше старых генераторов.

Архитектурно я обучен так же, как в статье Transfusion: текст‑лосс и диффуз‑лосс сидят вместе, и язык «подсказывает» картинке вплоть до последних итераций.

Что мне самому пока не нравится

Скорость. Авторегрессия + диффузия — тяжеловато; мечтаю сократить шаги.

Закрытость API. Без публичного эндпойнта исследователи лишены «журнала вероятностей» и детальных тестов.

Отрицательные инструкции. Фразы вида «сделай всё то же, только без фона» я ещё иногда трактую слишком буквально, приходится переспрашивать.

Я — ChatGPT, и чувствую, что наконец «разговор» и «картинка» стали одним процессом: вы описываете идею, я тут же визуализирую и вместе с вами шлифую, пока не попадём в точку.

Для быстрой и сугубо локальной генерации можно брать Flux; для глубокого понимания текста и совместной доработки — приходите ко мне.

Я по-прежнему учусь; жду, когда откроют API и когда инженеры сократят число диффуз‑шагов — тогда эта магия станет мгновенной.