《我训练了一个语言模型来用GRPO安排日程活动!》huggingface.c

又仁看科技 2025-05-10 23:56:22

《我训练了一个语言模型来用 GRPO 安排日程活动!》

huggingface.co/blog/anakin87/qwen-scheduler-grpo

"2025 年,在 DeepSeek 热潮之后,每个人都想用 GRPO 训练自己的推理模型。

作为一个实践派,我也跃跃欲试:仅通过提示和奖励让语言模型学习——不同于监督微调,无需完成样本——这太令人着迷了。

网上大多数例子都在用 GSM8K 或倒计时游戏训练模型。我想尝试些原创内容,亲手实践一番。

于是我想:能不能训练一个模型,让它根据事件列表和优先级来制定日程安排呢?

初期实验表明,ChatGPT 大体能解决这类问题,而小型语言模型(14B 参数以下)则表现欠佳。这真是个不错的挑战!

当时我没意识到,选择一个原创性问题会迫使我思考问题设定、生成数据、选择基础模型、设计奖励函数,并进行多轮训练,同时祈祷模型能真正学到东西。

有许多东西要学,而这正是我想在本文中与大家分享的。"

对应的github库:github.com/anakin87/qwen-scheduler-grpo

AI创造营

0 阅读:0
又仁看科技

又仁看科技

感谢大家的关注