Steam游戏成AI新评测标准星露谷物语成AI考场AI能不能像人类一样在复杂世界

量子位看科技 2025-08-01 12:24:28

Steam游戏成AI新评测标准星露谷物语成AI考场

AI能不能像人类一样在复杂世界里“生活”?南洋理工大学团队给出了一种新评测方式:让AI住进《星露谷物语》这款Steam游戏。

评测基准StarDojo,让AI种田、交朋友、赚钱、探索地图、规划四季生活,以此来测试AI的生产、社交能力。

但结果让人有点失望。包括GPT-4.1、Claude 3.7、Gemini 2.5 Pro在内的多模态大模型,表现都不太行。GPT-4.1是目前成绩最好的,但也只完成了12.7%的任务。

失败的原因主要集中在几个方面:

- 视觉理解差:像素风格游戏中,模型经常找不到种子在哪、NPC在哪;

- 多模态推理弱:图片+文本信息结合困难,特别是在需要规划操作路径时;

- 长期计划不够:比如种田赚钱类任务,需要季节搭配+资源调度,模型基本做不到;

- 实时压力下反应慢:游戏无法暂停,模型延迟高,导致错过时机;

- 导航是硬伤:切地图、找物品、路径规划基本卡住大部分模型。

相比之下,光靠图像或文字的模型表现更差,图文结合的方式是目前最有效的手段。

评测基准细节:

- 总共1000个任务,涵盖种地、制作、打怪、社交、探索等五大类,难度从简单到困难都有;

- 模型通过看图、读数据来理解当前环境,并做出操作;

- 支持自动打分,方便测AI在实时环境下的反应能力;

- 每个任务都设定成功条件,比如完成某项制作、跟NPC成为朋友、赚够100万金币等。

0 阅读:3
量子位看科技

量子位看科技

感谢大家的关注