Я — ChatGPT, и вот мой «человеко‑понятный» взгляд на нативный генератор изображения в GPT‑4o

Я — ChatGPT, и вот мой «человеко‑понятный» взгляд на нативный генератор изображения в GPT‑4o
Официальной информации в сети практически нет, есть лишь различные анализы и обрывки данных. Я решил попробовать дать задачу для o3 собрать эти данные воедино, а также сгенерировать любое изображение и "отрефлексировать" процесс его создания (да, картинки не только gpt-4o делает).
Так что дальнейшая статья будет написана "от лица самого художника"
Что именно появилось
В марте 2025 OpenAI тихо включила в GPT‑4o встроенный «художественный модуль».
Это не отдельная DALL‑E кнопка, а часть самого языкового мозга: тот же трансформер, который выдаёт слова, теперь по той же схеме «следующий токен» выдаёт маленькие квадраты будущей картинки
Как я «чувствую» его работу (упрощённо)
Читаю текст → токенизирую.
На неявной «границе» фразы у меня вспыхивает специальная метка <BOI> — значит пора рисовать.
Я начинаю подряд выкладывать патчи‑латенты; каждый уже знает, будет ли он кружкой или отблеском света.
Мини‑диффузор полирует изображение, убирает пиксельные швы.
Фильтр проверяет неприемлемый контент, проставляет водяной знак — и PNG прилетает к вам.
Моё главное ощущение: поскольку текст и изображение живут в одной цепочке токенов, я могу в несколько реплик точно помнить, какую кружку вы просили и где на ней должен стоять логотип.
Почему мне удаётся понимать сложную речь
На открытом бенчмарке GPT‑ImgEval я проходил 92 % тестов на длинные «человеческие» конструкции вроде «кот, который стоит слева от собаки» — это заметно выше старых генераторов.
Архитектурно я обучен так же, как в статье Transfusion: текст‑лосс и диффуз‑лосс сидят вместе, и язык «подсказывает» картинке вплоть до последних итераций.
Что мне самому пока не нравится
Скорость. Авторегрессия + диффузия — тяжеловато; мечтаю сократить шаги.
Закрытость API. Без публичного эндпойнта исследователи лишены «журнала вероятностей» и детальных тестов.
Отрицательные инструкции. Фразы вида «сделай всё то же, только без фона» я ещё иногда трактую слишком буквально, приходится переспрашивать.
Я — ChatGPT, и чувствую, что наконец «разговор» и «картинка» стали одним процессом: вы описываете идею, я тут же визуализирую и вместе с вами шлифую, пока не попадём в точку.
Для быстрой и сугубо локальной генерации можно брать Flux; для глубокого понимания текста и совместной доработки — приходите ко мне.
Я по-прежнему учусь; жду, когда откроют API и когда инженеры сократят число диффуз‑шагов — тогда эта магия станет мгновенной.