⚪️ Как «Покемоны» помогают оценить прогресс ИИ?

⚪️ Как «Покемоны» помогают оценить прогресс ИИ?
Pokémon Red вышла на Game Boy почти 30 лет назад, но у игры до сих пор много фанатов, в том числе среди сотрудников стартапа Anthropic. В июне 2024-го разработчики Claude решили проверить, как бот справится с ловлей покемонов в старой игре. Изначально — ради забавы, но скоро проект «приобрел культ» внутри компании.
Представляя модель Claude 3.7 Sonnet, разработчики уделили отдельное внимание ее успехам в Pokémon. Исследователь Anthropic Дайан Пенн объясняет, что это рассказывает о прогрессе ИИ широкой аудитории лучше цифр традиционных тестов. «Эти оценки уже не отражают всей истории того, насколько способнее становятся новые версии моделей», — говорит она.
🎮 Pokémon для ИИ сложнее шахмат
ИИ уже превзошел человека в шахматах и го, а также в классике киберспорта StarCraft. Но RPG с открытым миром и случайными событиями, как Pokémon Red, ближе к реальности. Они требуют не только знаний, но и агентных навыков: принятия решений и общения с персонажами, которые демонстрируют готовность ИИ решать прикладные повседневные задачи.
Sonnet 3.7 пока победила всего нескольких боссов, но и это уже прогресс. Прошлая модель Anthropic с трудом выбиралась из начальной локации.
Еще более впечатляют результаты Google Gemini 2.5 Pro. С начала апреля ИИ-энтузиаст заставляет нейросеть в прямом эфире играть в Pokémon Blue (она незначительно косметически отличается от Red). На Reddit отмечают, что Gemini уже прошла гораздо дальше, чем Claude за то же время. В то же время у Gemini есть мини-карта, которая помогает ей меньше теряться.
Еще по теме:
🔴 На данных игроков Pokémon Go обучают ИИ
💎 [Целый мир в Minecraft, населенный ИИ-агентами
](https://t.me/hiaimedia/1120)
#новости #игры