Steam游戏成AI新评测标准星露谷物语成AI考场AI能不能像人类一样在复杂世界

量子位看科技 2025-08-01 12:24:28

Steam游戏成AI新评测标准星露谷物语成AI考场

AI能不能像人类一样在复杂世界里“生活”？南洋理工大学团队给出了一种新评测方式：让AI住进《星露谷物语》这款Steam游戏。

评测基准StarDojo，让AI种田、交朋友、赚钱、探索地图、规划四季生活，以此来测试AI的生产、社交能力。

但结果让人有点失望。包括GPT-4.1、Claude 3.7、Gemini 2.5 Pro在内的多模态大模型，表现都不太行。GPT-4.1是目前成绩最好的，但也只完成了12.7%的任务。

失败的原因主要集中在几个方面：

- 视觉理解差：像素风格游戏中，模型经常找不到种子在哪、NPC在哪；

- 多模态推理弱：图片+文本信息结合困难，特别是在需要规划操作路径时；

- 长期计划不够：比如种田赚钱类任务，需要季节搭配+资源调度，模型基本做不到；

- 实时压力下反应慢：游戏无法暂停，模型延迟高，导致错过时机；

- 导航是硬伤：切地图、找物品、路径规划基本卡住大部分模型。

相比之下，光靠图像或文字的模型表现更差，图文结合的方式是目前最有效的手段。

评测基准细节：

- 总共1000个任务，涵盖种地、制作、打怪、社交、探索等五大类，难度从简单到困难都有；

- 模型通过看图、读数据来理解当前环境，并做出操作；

- 支持自动打分，方便测AI在实时环境下的反应能力；

- 每个任务都设定成功条件，比如完成某项制作、跟NPC成为朋友、赚够100万金币等。

0 阅读：6

量子位看科技

感谢大家的关注

作者最新文章

1

单卡也能参与大模型训练AI效能从十万卡跃升到一张卡单张消费级显卡也能参与大模型训

2

自回归模型杀回图像生成新方法比Diffusion更能像素级控图当下的AI图像生成

3

马斯克要亲自盯三星工厂特斯拉向三星订购全能AI芯片是什么合作，让马斯克深夜如此激

4

一句话生成真能看视频的引擎一句话生成百度就在刚刚，智谱GLM史上最大开源大模型

5

老年人喝甜菜汁能降压甜菜汁能调节老年人口腔菌落研究发现，甜菜汁能帮助老年人降血压

6

类脑模型诞生通向AGI新路径“当前的LLM架构不能通向 AGI”，这是Yann

7

Coze全家桶开源了Coze开源核心三件套Coze平台开源了！官方不仅放出了扣子

8

AI幻觉成WAIC首个热议词讯飞X1幻觉治理新突破幻觉（Hallucinatio

9

AI正重塑流量分发格局AI成互联网流量新入口AI正在成为互联网流量分发的新入口。

10

曝iPhone17Pro相机支持8倍变焦iPhone17Pro相机升级曝光据Ma

热门分类

科技TOP

1

【华为MateXTs非凡大师及全场景新品发布会官宣9月4日举办，将

2

四选一怎么选？旗舰新机一款比一款炸裂打算今年换机的朋友爽了，看了下今年的旗舰是

3

这是iPhone17只看正面时你立马能区分升级的地方：灵动岛变小了

4

史上最薄iPhoneiPhoneAir现场真机实拍这外观给几分？

5

重磅！华为公布多颗新昇腾芯片9月18日，在华为全连接大会2025上，华为轮值

6

追觅汽车首款车型官图发布这次会是PPT造车吗？此前追觅就官宣要造车，并且工厂

7

买手机不要着急，买新不买旧。9月10月份将有大量新机发布，配置提升，续航也提升

8

美团退款看了一下最近两笔账单，都退回来了，这种退款还是要确认一遍，有时候还真会忘

9

小米澎湃OS3官宣8月28日发布了，而且值得一提的是这次是OS3单开一场，可

10

感受一下1999的真我15Pro，这确实太薄了，7.79mm，187g，

科技最新文章

1

空调行业的天塌了！卢总在直播间宣布：小米空调升级10年包修，只要是2025年

2

📢荣耀这次真的杀疯了！Magic8系列的“王炸”居然是——影像！🔥不是电

3

📢当时忍住没买荣耀GT的，这波真的赢麻了！🎉全新荣耀GT2这次是真的——

4

小米澎湃OS3正式版更新计划来了，看看你的什么时候更新首批机型小米25系列4款

5

vivoX300基本就是这样了~外观方面基本没啥变动，依旧是后置居中大圆

6

9月19日，追觅科技正式宣布，其尚未发布的首款旗舰手机DreameSpace已

7

vivoX300和X300Pro外观公布满分10给几分？新机来

8

荣耀近半年新品规划曝光！10月仅两款Magic8机型先发刷到荣耀近半年新品动态

9

入手荣耀Magic7Pro已半年，感受太真实，不得不说几句。作为日常主力机

10

好家伙，荣耀这保密咋做的，荣耀magic8系列都快被曝光完了吧，发布会公布个价格