大型语言模型(LLM)推理性能提升新路径:测试时扩展(Test-Time Scaling,TTS)全景概览。
• 系统性汇总现有TTS论文,基于“What, How, Where, How Well”四维分类,助力快速理解与对比。
• “What to scale”:并行、顺序、混合及内部推理计算的多样扩展方式。
• “How to scale”:涵盖监督微调、强化学习、采样刺激、搜索策略、验证与多解聚合技术。
• “Where to scale”:从数学、代码、科学推理到开放式问答及多模态任务的广泛应用场景。
• “How well to scale”:精准度、效率、可控性及可扩展性多维评估,兼顾性能与资源平衡。
• 最新版本已纳入评估与智能代理任务,图表全面更新,结构更清晰。
• 开源MIT许可,社区活跃,方便科研人员与开发者探索LLM推理极限。
深度研究与资源请见🔗 github.com/testtimescaling/testtimescaling.github.io
关键论文arxiv.org/abs/2503.24235
大型语言模型 测试时扩展 推理优化 人工智能 机器学习