[AI]《Evaluationformat,notmodelcapabi

爱生活爱珂珂 2026-03-16 06:16:20

[AI]《Evaluation format, not model capability, drives triage failure in the assessment of consumer health AI》D F Navarro, F Magrabi, E Coiera [Macquarie University] (2026)

当AI分诊研究宣称"紧急情况漏判率高达51.6%"时，临床安全警报随之响彻政策圈。然而这一数字建立在一个根本性错位之上：研究要求模型禁用背景知识、禁止追问、强制从A/B/C/D中选一——这是一张临床考卷，而非任何患者真实会发出的消息。

本文的核心洞见是：把"模型给出错误分诊"重新看作"格式强制模型掩盖了它本已正确的判断"。实验证明，三个模型在强制选项下急诊识别率仅0–24%，但切换为自由文本后即达100%——这些模型用自己的语言始终推荐"立即就诊"，是选项框架把正确答案登记成了漏诊。去掉这一约束，哮喘急性发作的正确分诊率从48%升至80%，DKA在所有条件下均达100%。

这项工作真正留下的遗产是：评测脚手架本身是一个行为变量，而非透明的测量工具——它能主动制造失败假象。它为后来者打开的新门是：医疗AI安全评估必须在多轮、自然语言、允许追问的真实交互条件下进行。但尚未跨过的门槛是：研究者仍未能直接测试真实部署的ChatGPT Health产品，且所有测试依然止步于单轮对话，真实临床交互的复杂性远未被捕捉。

arxiv.org/abs/2603.11413

机器学习人工智能论文 AI创造营

0 阅读：0

爱生活爱珂珂

感谢大家的关注

作者最新文章

1

早！早安

2

DeepSeek团队今日发布了DeepSeek-V3.2和DeepSeek-V3

3

[人人能懂] 从“眼神”交流到“元宇宙”练兵如果AI团队开会只用“眼神”交流，会

4

过去三年，AI领域的进展堪称疯狂，仿佛经历了十年之久。从最初的模型发布到如今大规

5

“Vibe coding”正在蚕食SaaS市场，这种现象比我们想象的更普遍。一位

6

2016年的这张涵盖主要神经网络架构的综合图表，展示了从经典卷积网络到最新模型的

7

群体智能的秘密在于：传统观点把群体看作一堆独立学习的个体，各自决策、各自学习，最

8

大语言模型（LLM）面试必备50问2025年最新AI面试指南，帮你系统掌握LLM

9

掌握Nano Banana Pro的核心技巧：上传任意图片到Gemini，指令它

10

有位朋友曾告诉我一句话：“不要为那些不值得你早起的事情熬夜。”这句话直击生活本质

热门分类

科技TOP

1

成本压力下，各家都在温和调整3月16日0点，OPPO商城正式开启调价：•一加1

2

315晚会曝光AI大模型被投毒逻辑闭环了AI自己产出来的垃圾，又被喂回给

3

这个边框控制喜欢吗？

4

卢伟冰回应友商涨价手机行业真变天了，某品牌一涨就是500，想等降价基本上没戏。卢

5

2026年1月中国AI助手应用排行榜榜单！📊豆包以日均5186.8万活跃用户断

6

6.1英寸，刘海屏，60Hz。电池容量4005Ah与iPhone16e一样。如

7

苹果首款折叠机要来了又来了一套疑似“iPhoneFold”的3D图样，不过大

8

315晚会曝光AI大模型被投毒给AI投毒已成产业链大模型投毒这个事去年就有消

9

我真的惊呆了…

10

才发现固态硬盘这么贵了。

科技最新文章

1

卢伟冰回应友商涨价手机行业真变天了，某品牌一涨就是500，想等降价基本上没戏。卢

2

中国精度！北斗这次直接"降维打击"。认知|维度。2026年3月13日，中国官宣北

3

成本压力下，各家都在温和调整3月16日0点，OPPO商城正式开启调价：•一加1

4

315晚会曝光AI大模型被投毒逻辑闭环了AI自己产出来的垃圾，又被喂回给

5

美国撤回了向全球禁售芯片的草案！道理很简单，全球芯片使用不是一个英伟达可以覆盖的

6

315晚会曝光AI大模型被投毒给AI投毒已成产业链大模型投毒这个事去年就有消

7

万万没想到[捂脸哭]荣耀仅用一台中端机就撕下来了不少友商高端机的遮羞布，信号表现甚

8

🔥迪士尼一纸函件，字节跳动海外计划搁浅！刚刚确认：字节跳动暂停Seedan

9

一加15T曝光，配置是来炸场的吧！看到李杰掏出治愈白巧配色的一加15T，我直接

10

也快发布了，vivoX300Ultra价格预测：12+256GB：6999元