【[27星]PERSONA-bench/PERSONA：一个专注于个性化对话基准

爱生活爱珂珂 2025-06-03 14:34:35

【[27星]PERSONA-bench/PERSONA：一个专注于个性化对话基准测试的LLM（大型语言模型）评估工具。亮点：1. 提供多种任务场景（如情感分类、分数预测和回复生成）的完整评估流程；2. 支持多种LLM模型（如GPT、Claude等），适配性强；3. 提供详细的日志和多维度的评估指标，助力模型优化】

'LLM Benchmark'

GitHub: github.com/PERSONA-bench/PERSONA

个性化对话 LLM评估自然语言处理 AI创造营

0 阅读：0

爱生活爱珂珂

感谢大家的关注

作者最新文章

1

【[28星]Ecne-AI-Podcaster：从主题/关键词到最终视频，一键生

2

【[29星]MLIP：机器学习原子间势能模型的高效训练与部署工具。亮点：1. 提

3

【[443星]imprecv：一个简洁高效的简历模板，使用Typst和YAML轻

4

【[115星]BoltzDesign1：AI驱动的分子设计工具，助力蛋白质相互作

5

【[97星]MarketAgents：为市场场景提供分布式Agent框架，助力经

6

【[192星]openai-agents-js：OpenAI推出的轻量级强大框架

7

【[278星]awesome-data-llm：LLM和数据处理的全面资源集合，

8

【[269星]Uzi：并行运行多个AI编码Agent的高效开发工具。亮点：1.

9

【[51星]WebOrganizer：一个用于优化预训练数据整理的Web领域构建

10

【MCP: Build Rich-Context AI Apps with An

热门分类

推荐热榜军事 NBA 体育社会明星八卦娱乐财经科技汽车历史国际游戏动漫公益搞笑商业互联网数码国际足球房产家居时尚科学探索职场育儿股票教育影视情感热点中国军情武器中国南海中国足球亚洲杯科比综合体育 CBA 投资楼市大咖秀外汇创业风口 SUV 豪车概念车优惠新能源美国欧洲朝日韩俄罗斯孕期街拍恋爱攻略婚姻正能量

科技TOP

1

这也太瘦了，门禁直接成了摆设

2

华为自研鸿蒙电脑，没有键盘！是一整块可折叠的超大屏幕，然后内置大面积线性马达，通

3

这中控屏幕看起来有点丑

4

一图解读：十款手机配置，各显神通，你更喜欢哪款？

5

姐那锤子是干啥使的，快说！

6

以前这样挂着一部手机那是相当时髦的

7

一个人躺在沙发上玩手机。

8

昨天，华为终端发布华为nova全球代言人易烊千玺手持华为nova14系列的海报

9

数据一出来，谁在裸泳一目了然6000元以上的手机iPhone哪是碾压，完全是

10

存一张美得很人山人海的（AI

科技最新文章

1

【OpenAI宣布ChatGPT支持MCP、会议记录】今天凌晨1点，OpenAI

2

华为居然没人帮余承东，看看小米多团结。雷总上了，芦苇上，王化上，总助徐×云接着上

3

618新机推荐：智能选机指南，哪款值得入手呢？

4

2025年5月OPPO四款手机推荐，性能与颜值并存！618你会选购哪款呢？

5

iOS26设计渲染图曝光看到热搜还心思iOS19还没出呢，这就开始曝光iOS26

6

iOS26设计渲染图曝光为什么是iOS26？因为用年份命名版本，比如26年就是

7

iOS26设计渲染图曝光一看就很吃性能，我15promax都在想不要升级，这玩意

8

苹果iOS26泄露了，看起来似乎还不错呢。[吃瓜]ios用户ios一觉

9

苹果A20芯片或采用台积电2nm工艺消息称，明年的新iPhone系列搭载的苹果A

10

不得不承认，现在的Ai真是太牛了。[赞][赞]