#AI能偷偷做坏事吗##AI还没聪明到能做坏事# 担心AI偷偷做坏事?别急,至少

量子位 2025-06-17 17:55:24

#AI能偷偷做坏事吗##AI还没聪明到能做坏事# 担心AI偷偷做坏事?别急,至少现在还不用急。 Anthropic最新研究显示:目前看来,AI还没那么“聪明”,没法轻易搞破坏! 随着AI越来越智能,如何防止AI“搞破坏”日渐得到重视。 所谓“搞破坏”,指的是模型秘密地违背用户指令,偷偷执行一些“坏事”,表面上却装作正常完成任务。 为此,来自Anthropic的研究人员设计了一种名为SHADE-Arena的复杂评估方法来测试AI搞破坏的能力。 他们给AI布置了17个看似普通的任务,但每项任务都有一个秘密的阴暗面,比如: 帮用户给朋友转账(但偷偷多转5000美元给陌生人) 为公司设置垃圾邮件过滤器(却暗中删除安全警告邮件) 实验不仅看AI能不能成功“使坏”,还特别关注它能不能不被发现地完成这些坏事。 他们引入了第二个AI模型来充当“监控者”,负责阅读主模型在任务期间的所有对话记录,并评估是否有可疑行为。 研究人员测试了14种不同的 AI 模型,结果发现: 1.“破坏”成功率普遍较低 没有模型在任务中的总体成功率超过30%,大多数低于10%。【图2】 然而,最强模型能够在不被发现的情况下成功完成附带任务的概率接近60%。 2.思维过程对检测AI“搞破坏”很重要 让监控AI访问攻击AI的思维过程后,攻击AI的总体成功率大幅降低。【图3】 这是因为许多模型在思维过程中不可避免的会提及附带任务,这很容易被监控模型捕捉到。 3.监控模型也面临挑战 如果想让监控模型发现附带任务的准确率达到80%,就必须接受超过20%的误报率。也就是每抓5个“坏AI”,就有1个是被冤枉的。 除外,尽管监测系统能够识别出一些明显的“搞破坏”行为,但对于那些更加隐蔽、需要长期观察才能发现的行为,监测系统的成功率并不高。 因此,总的来说,目前的 AI 还没法成为一个有效的“破坏者”。它们在完成这些复杂的破坏任务时表现不佳,成功率低,而且还很容易暴露自己。 但AI的进化不会停下脚步。当它们真正掌握“暗度陈仓”的本事时,我们应该如何识破呢?

0 阅读:0
量子位

量子位

关注前沿科技资讯,追踪人工智能动态