► ⚪️ Как «Покемоны» помогают оценить прогресс ИИ?

⚪️ Как «Покемоны» помогают оценить прогресс ИИ?

Pokémon Red вышла на Game Boy почти 30 лет назад, но у игры до сих пор много фанатов, в том числе среди сотрудников стартапа Anthropic. В июне 2024-го разработчики Claude решили проверить, как бот справится с ловлей покемонов в старой игре. Изначально — ради забавы, но скоро проект «приобрел культ» внутри компании.

Представляя модель Claude 3.7 Sonnet, разработчики уделили отдельное внимание ее успехам в Pokémon. Исследователь Anthropic Дайан Пенн объясняет, что это рассказывает о прогрессе ИИ широкой аудитории лучше цифр традиционных тестов. «Эти оценки уже не отражают всей истории того, насколько способнее становятся новые версии моделей», — говорит она.

🎮 Pokémon для ИИ сложнее шахмат

ИИ уже превзошел человека в шахматах и го, а также в классике киберспорта StarCraft. Но RPG с открытым миром и случайными событиями, как Pokémon Red, ближе к реальности. Они требуют не только знаний, но и агентных навыков: принятия решений и общения с персонажами, которые демонстрируют готовность ИИ решать прикладные повседневные задачи.

Sonnet 3.7 пока победила всего нескольких боссов, но и это уже прогресс. Прошлая модель Anthropic с трудом выбиралась из начальной локации.

Еще более впечатляют результаты Google Gemini 2.5 Pro. С начала апреля ИИ-энтузиаст заставляет нейросеть в прямом эфире играть в Pokémon Blue (она незначительно косметически отличается от Red). На Reddit отмечают, что Gemini уже прошла гораздо дальше, чем Claude за то же время. В то же время у Gemini есть мини-карта, которая помогает ей меньше теряться.

Еще по теме:

🔴 На данных игроков Pokémon Go обучают ИИ

💎 [Целый мир в Minecraft, населенный ИИ-агентами

](https://t.me/hiaimedia/1120)

👋 Подпишитесь на Hi, AI!

#новости #игры