► 👩‍💻 OpenAI представили линейку ИИ-моделей o4 и o3 | 🔁 Новости из телеграм

👩‍💻 OpenAI представили линейку ИИ-моделей o4 и o3

OpenAI представила официально линейку моделей о4 (high, mini) и o3. Теперь это не просто «умные алгоритмы», а настоящие ИИ-системы/агенты, способные активно использовать широкий спектр инструментов в процессе решения задач. Так, например, o3 в одном из кейсов обратился к более чем 600 инструментам при решении сложной задачи.

Модели обучены использовать внешние инструменты как часть цепочки рассуждения. Это означает, что во время решения задачи модель может последовательно вызывать Python, интерпретировать изображения, искать информацию через веб‑браузер и выполнять команды в виртуальной машине. Модели не просто вызывают функции, а понимают, как, зачем и когда их применять. Это сближает их с понятием «интеллектуального агента», способного мыслить, планировать и действовать.

😮Что ещё интересного?

Теперь ИИ может не просто понимать, но и манипулировать изображениями: обрезать, вертеть, крутить, трансформировать и анализировать их напрямую с помощью встроенного 🐍Python-инструментария. Якобы даже перевернутое или размытое изображение модель понимает без каких-либо затруднений.

📊 Результаты на бенчмарках:

— AIME 2025 (математическое соревнование): модель o4-mini достигла 99.5% точности при использовании инструментов (Python + веб-поиск). Без инструментов o4-mini также показала лучшие результаты на AIME 2024 (93.4%) и AIME 2025 (92.7%) по сравнению с o3 без инструментов.

— Codeforces (программирование): o4-mini (с терминалом) показала ELO 2719, а o3 (с терминалом) — 2706.

— GPQA Diamond (научные вопросы уровня PhD): o3 (без инструментов) показала точность 83.3%.

— MMMU (визуальные задачи): o3 показала 82.9%, o4-mini — 81.6%.

— MathVista (визуальная математика): o3 показала 86.8%, o4-mini — 84.3%.

Если посмотреть 📲 видео и покопаться в 🦆, то можно сделать вывод о том, что:

📝Для работы с текстом: модель o3 является более предпочтительной и универсальной во всех задачах благодаря своей высокой точности, способности к глубокому анализу, позволяя эффективно обрабатывать сложные текстовые задачи вместе с картинками. o3 совершает примерно на 20 % меньше значимых ошибок, чем модель o1 (его предшественник). Более высокая задержка ответа и более высокая стоимость за токен по сравнению с o4‑mini. Контекстное окно - 200,000 токенов.

😎Грубо говоря, o3 это "тяжёлая артиллерия" для самых сложных задач с максимальной мощностью и она более универсальная. Под работу с текстом идеально.

👨‍💻Для программирования и математики: «лёгкая» модель o4-mini-high оптимизирована для задач, связанных с программированием и математикой. Она обеспечивает быструю и эффективную обработку таких задач при меньших затратах.

o4-mini — компактная, быстрая и доступная модель. И контекстное окно - 200,000 токенов.

Ещё более подробно тут. И по лимитам нашел инфо. Для подписчиков Plus o3 — 50 запросов в неделю. o4-mini-high — 50 запросов в день. У o4-mini — 150 в день.

📖 Отдельно стоит отметить улучшенный сёрфинг в инете у моделей.

✋ @Russian_OSINT