Xbench基准测试的背景与目标1.项目起源与发展•2022年底Ch

春蕴评趣事 2025-05-31 15:23:43

Xbench基准测试的背景与目标

1. 项目起源与发展

• 2022年底ChatGPT发布后启动，初期用于红杉中国内部模型评估

• 2023年建立首批私有题库，聚焦基础问答和逻辑能力

• 2024年10月升级为复杂问答推理及工具调用评估

• 2025年3月转向关注AI实际经济价值与能力追踪

2. 核心设计理念

• 强调业务场景的真实效用而非单纯技术难度

• 评估任务由领域专家设计，大学教授转化为指标

• 双轨体系兼顾技术上限（AGI Tracking）与商业价值（Profession Aligned）

Xbench的评估框架与机制

1. 双轨评估体系构成

• AGI Tracking线：包含科学问答（xbench-ScienceQA）和深度搜索（xbench-DeepSearch）

• Profession Aligned线：覆盖招聘、营销等垂直领域Agent评估

2. 长青评估机制特点

• 动态更新测试内容避免题目泄露失效

• 适应Agent产品快速迭代与环境变化

• 计划扩展至金融、法律等多领域动态评估

首期测试关键发现

1. 模型表现差异

• OpenAI o3综合表现最佳，GPT-4o因回答简短得分最低

• 模型尺寸非决定性因素（Gemini-2.5-Pro与Flash表现相近）

• DeepSeek R1因搜索适配性不足表现较弱

2. 业务场景需求

• 招聘领域侧重信息匹配与流程理解

• 营销领域强调创意生成与策略有效性

0 阅读：0

春蕴评趣事

感谢大家的关注

作者最新文章

1

香格里拉峰会美防长给出了有史以来最严厉的警告对我们

2

InstaManip：Few-shot图像编辑新突破这篇论文提出的InstaMa

3

OmniConsistency突破开源风格化瓶颈一、研究背景与问题开源扩散模

4

SFT与RL训练新发现研究背景与问题学界普遍采用「监督微调（SFT）+强化学

5

AI时代的人类挑战AI 席卷下即将发生的事：结构化梳理一、职业替代危机 1

6

大模型遗忘机制研究研究背景与问题大语言模型（LLMs）存在隐私风险，训练中可

7

普林斯顿新注意力机制研究研究概述普林斯顿大学团队提出两种新型注意力机制（GT

8

北大校友打造通用AI AgentFairies通用AI Agent介绍一、产

9

中国有一个深厚的生态系统，拥有10多个与美国人工智能实验室提供的模型智能相媲美的

10

今天的开放权重前沿由DeepSeek主导（包括推理模型和非推理模型）。

热门分类

推荐热榜军事 NBA 体育社会明星八卦娱乐财经科技汽车历史国际游戏动漫公益搞笑商业互联网数码国际足球房产家居时尚科学探索职场育儿股票教育影视情感热点中国军情武器中国南海中国足球亚洲杯科比综合体育 CBA 投资楼市大咖秀外汇创业风口 SUV 豪车概念车优惠新能源美国欧洲朝日韩俄罗斯孕期街拍恋爱攻略婚姻正能量

社会TOP

1

#老人离世小区门口摆黑色拱门惹争议#【#社区回应老人去世摆黑拱门称是习俗#】

2

#广州猎德村卖龙船饭套餐搭配人字拖#【广州猎德80元一位龙船饭引热议！有网友称凑

3

【福建#8岁男孩在海拔超1800米景区失踪#，当地回应：下山途中走失，还在寻找】

4

【#当地回应爬梯田5人作弊3人获奖#：名次作废，作弊人员已道歉并退回奖金】#桂林

5

【#赵亮称养鸡是他的身家性命#：十分看重自己的名誉】近日，有网民发现，三德子直

6

【#吴京车坏在高速路上#】5月23日下午，发文：“睡了三个小时，精神抖擞，车却坏

7

#浙江一地惊现钝尾两头蛇还会倒着爬#【浙江一地惊现“双头蛇”！村民吓懵：朝我们吐

8

【#月薪三千4年存了10万块#上热搜！女子介绍：用的是#12存单法#】5月8日

9

【#医学泰斗病逝当天还在医院上班#】据央视新闻报道，记者从复旦大学附属华山医院获

10

【#27岁女子家门口被害后其母一夜白头##27岁女子家门口被害其母发声#】202

社会最新文章

1

【#老人独居3600万豪宅疯狂囤垃圾#】5月30日上午，上海市黄浦区西藏南路“中

2

【#美一动物园查获大量毒品枪支现金##美一涉毒动物园狮子瘦骨嶙峋#】近日，美国俄

3

【#首尔一地铁车厢遭人为纵火#】当地时间今天（5月31日）早上8时47分左右，韩

4

【#员工迟到48次被辞称每月有3次机会#法院解读：公司制度合法有效】汤某某于2

5

#跳入兵马俑坑男子已被控制#【#男子跳进兵马俑坑造成铠甲武士俑损坏#】据：5月3

6

【#环球时报社评#：#国际调解院为动荡世界注入和平新动力#】2025年5月30日

7

#兵马俑受损等情况正在调查中#【#男子进入兵马俑三号坑#】据网络视频显示，今日下

8

【#平台回应商家给衣服贴标签防退货#：属商家个人行为】去年“六一”儿童节，“商家

9

【#多个账号涉朱媛媛去世谣言被关闭#】据@微博管理员：截至目前，站方巡查发现“

10

#浙江一地惊现钝尾两头蛇还会倒着爬#【浙江一地惊现“双头蛇”！村民吓懵：朝我们吐