《我训练了一个语言模型来用GRPO安排日程活动！》huggingface.c

蚁工厂 2025-05-10 23:56:22

《我训练了一个语言模型来用 GRPO 安排日程活动！》

huggingface.co/blog/anakin87/qwen-scheduler-grpo

"2025 年，在 DeepSeek 热潮之后，每个人都想用 GRPO 训练自己的推理模型。

作为一个实践派，我也跃跃欲试：仅通过提示和奖励让语言模型学习——不同于监督微调，无需完成样本——这太令人着迷了。

网上大多数例子都在用 GSM8K 或倒计时游戏训练模型。我想尝试些原创内容，亲手实践一番。

于是我想：能不能训练一个模型，让它根据事件列表和优先级来制定日程安排呢？

初期实验表明，ChatGPT 大体能解决这类问题，而小型语言模型（14B 参数以下）则表现欠佳。这真是个不错的挑战！

当时我没意识到，选择一个原创性问题会迫使我思考问题设定、生成数据、选择基础模型、设计奖励函数，并进行多轮训练，同时祈祷模型能真正学到东西。

有许多东西要学，而这正是我想在本文中与大家分享的。"

对应的github库：github.com/anakin87/qwen-scheduler-grpo

AI创造营

0 阅读：0

感谢大家的关注

作者最新文章

1

deepseek r1的论文《DeepSeek-R1: Incentivizin

2

在树莓派上跑Qwen3-30B-A3B 是一种什么体验？byteshape.co

3

电子书《Speech and Language Processing》（语音与语

4

全球范围首度实现飞行实景探店没想到哇，世界模型的第一个规模化应用竟然是：高德扫街

5

是什么让Claude Code如此出色（以及如何在你的Agent中重现这种魔力）

6

吴恩达（Andrew Ng）提议搞一个图灵测试的新版本，称为“图灵-AGI测试”

7

一本帮助程序员提高解决编程竞赛问题的能力的电子书《Competitive Pro

8

rybicki.io/blog/2026/01/01/mutexes-from-

9

MiniMax 内部其实全都是泡沫~~

10

去除遥测的vscode项目：vscodiumgithub.com/VSCodiu

热门分类

科技TOP

1

这台是什么手机？

2

没想到荣耀magic8系列居然还有新机，ProAir！！！原本以为春节

3

2699起，才2699，其中我以为最起码要2999。256版本是满一刀享受限时优

4

2025年终中端机封神！等等党赢麻了✅5款真香机性价比拉满，闭眼冲不亏！✅荣

5

微信更新后最利于单删的功能挺好，算得上微信年度最有用更新了，比直接拉黑名单更狠

6

华为鸿蒙6.0.0.120SP6更新推送，优化了系统使用体验，并且该版本更

7

好奇去查了一下2025年华为销量最高的五款机型。第一名：nova13第二名：n

8

一图看清百度集团品牌矩阵。让大家知道百度没老，只是疲了。

9

前几天刷到荣耀Magic8系列还有mini版，或者Air版。这会看来，是真的。方

10

荣耀Power2对比前代，续航党直接封神‼️✅核心升级2大杀招✅电池：800

科技最新文章

1

不装了！直接摊牌，荣耀就是不讲武德，2000+价位直接被荣耀搅的翻天地覆了[捂脸

2

美国科技巨头马斯克今天发文说：“星链无法在南非获得互联网服务提供商许可证，唯一的

3

Manus被中国商务部调查对中国科技初创企业影响有多大?科学无国界，但是中国

4

数据一出来，库克估计傻眼了，这已经不是超越苹果，而是不给苹果留活路iPhon

5

🔥别再误会荣耀Power2了！它压根不是来跟WINRT卷性价比的！俩机型赛

6

🔥荣耀杀疯了！全网电池容量TOP7，荣耀直接占三席！WIN系列两款机型100

7

🔥荣耀这波“内斗”太狠了！Magic8和WIN同台竞技，选机困难症直接犯了！

8

商务部等评估调查Meta收购Manus商务部回应Meta收购Manus最终还是

9

雷军昨晚回应被问“为啥一个杯子要开15次会”，他挺认真地说：别看是个小杯子，真想

10

鸿蒙6.0最新预告，大家期待一波