单图构建三维世界清华联合腾讯实现高保真3D生成
只给一张图(单目视觉),能不能还原出一个完整的三维世界?
清华、腾讯联合提出了Scene Splatter,试图打破现有方法在三维一致性和细节恢复上的瓶颈。
现状是这样的:
- 主流三维生成模型(比如Hunyuan3D、Rodin-v1.5、Tripo-v2.5)大多只擅长单个物体的构建;
- 但一旦扩展到复杂场景,就会出现结构扭曲、几何缺失等问题,尤其在输入只有一张图的情况下更是“病态问题”。
Scene Splatter的关键突破在于:
1. 引入“动量引导”思想:
- 类似优化算法中的“动量”机制,把上一次生成的细节引入当前步骤;
- 首先用潜空间动量补细节,再用像素级动量补未知区域,实现高保真多视角视频生成。
2. 基于视频而非单图重建三维场景:
- 通过视频扩散模型“合成”出多个视角,再用这些视角做三维恢复;
- 大大提升了三维一致性和细节还原度。
3. 可泛化到任意相机轨迹:
- 不管是环绕、拉远还是旋转视角,Scene Splatter都能生成连贯、稳定的三维视频。
团队还通过消融实验验证了动量机制的必要性:缺了动量,PSNR和SSIM指标都有显著下降,说明场景一致性和生成质量都会受影响。