《我训练了一个语言模型来用 GRPO 安排日程活动!》
huggingface.co/blog/anakin87/qwen-scheduler-grpo
"2025 年,在 DeepSeek 热潮之后,每个人都想用 GRPO 训练自己的推理模型。
作为一个实践派,我也跃跃欲试:仅通过提示和奖励让语言模型学习——不同于监督微调,无需完成样本——这太令人着迷了。
网上大多数例子都在用 GSM8K 或倒计时游戏训练模型。我想尝试些原创内容,亲手实践一番。
于是我想:能不能训练一个模型,让它根据事件列表和优先级来制定日程安排呢?
初期实验表明,ChatGPT 大体能解决这类问题,而小型语言模型(14B 参数以下)则表现欠佳。这真是个不错的挑战!
当时我没意识到,选择一个原创性问题会迫使我思考问题设定、生成数据、选择基础模型、设计奖励函数,并进行多轮训练,同时祈祷模型能真正学到东西。
有许多东西要学,而这正是我想在本文中与大家分享的。"
对应的github库:github.com/anakin87/qwen-scheduler-grpo
AI创造营