【[61星]verl-agent:为LLM/VLM Agent训练提供高效的强化学习框架。亮点:1. 支持多轮交互,突破长序列优化瓶颈;2. 提供多种强化学习算法,如GiGPO、GRPO和PPO;3. 适配多种环境,包括ALFWorld、WebShop和Sokoban】
'verl-agent is an extension of veRL, designed for training LLM/VLM agents via RL.'
GitHub: github.com/langfengQ/verl-agent
强化学习 LLM训练 多轮交互 AI创造营