[LG]《BugPilot:ComplexBugGenerationfo

爱生活爱珂珂 2025-10-29 06:32:39

[LG]《BugPilot: Complex Bug Generation for Efficient Learning of SWE Skills》A Sonwane, I White, H Lee, M Pereira... [Cornell University & University of California San Diego & University of North Carolina at Chapel Hill] (2025)

BugPilot:用复杂合成Bug高效训练软件工程技能的创新方法

当前大型语言模型(LLM)在软件工程(SWE)任务上表现卓越,但提升开源模型仍具挑战。高质量Bug数据集是训练下一代SWE智能体的关键。本文提出BUGPILOT,一种利用SWE智能体通过真实开发流程自然引入Bug的合成生成方法,区别于传统刻意注入错误的合成手段,BUGPILOT让智能体在添加新功能时无意间破坏测试,生成更自然、多样且复杂的Bug。

核心创新:

- FEATADD策略:智能体在开发新功能过程中产生无意Bug,模拟真实开发中功能改动引发的复杂缺陷,覆盖多文件、大规模代码改动,且Bug类型分布更接近真实人类提交。

- BUGINSTRUCT对比:刻意指示智能体注入Bug,虽有效但多为简单局部错误,难以匹配真实Bug多样性。

- BUGPILOT结合容器化环境与智能体交互,自动判定测试失败自动收集Bug数据,无需人工筛选,极大提升生成效率。

实验成果:

- FEATADD生成的Bug训练数据,使用量仅为其他方法一半(1.2k vs 3k),在监督微调中性能提升2%。

- 结合FEATADD与现有数据训练出的FROGBOSS(32B参数)和FROGMINI(14B参数)分别在SWE-Bench Verified测试集达到54.6%和45.3%的Pass- 强化学习进一步提升性能,达52.4% Pass- FEATADD数据覆盖十类Bug(API不兼容、逻辑错误、输入验证、状态一致性等),分布均衡,反映真实开发环境。

方法意义:

- 模拟真实开发引发Bug,增强模型泛化能力与实际应用价值。

- 高效生成复杂多样Bug,缓解真实Bug数据稀缺问题。

- 为未来基于智能体的自我训练与任务生成奠定基础,推动软件工程AI自动化进程。

未来展望:

- 用训练好的学生模型自生成训练数据,形成闭环提升。

- 定向生成特定类型Bug,强化模型专项能力。

- 扩展智能体生成范围,涵盖测试生成、代码搭建、协作等多样开发场景。

论文链接:arxiv.org/abs/2510.19898

0 阅读:0
爱生活爱珂珂

爱生活爱珂珂

感谢大家的关注