SSM+扩散模型创新视频世界模型
研究背景
视频扩散模型作为世界模型存在长期记忆不足的问题,传统注意力机制因计算成本高难以扩展上下文长度。
核心创新
提出结合状态空间模型(SSM)与扩散模型的新架构,通过逐块扫描和局部注意力机制平衡长时记忆与空间一致性。
方法细节
1. 逐块SSM扫描:将token序列分块处理,调整块大小以优化时间记忆与空间一致性。
2. 帧局部注意力:在SSM层后加入局部注意力模块,提升帧间生成质量。
3. 动作条件机制:通过MLP嵌入连续/离散动作,实现交互式控制。
4. 长上下文训练:保持部分帧无噪声,强制模型利用远距离上下文信息。
5. 高效推理:固定长度状态和KV缓存确保内存与计算时间恒定。
实验验证
在Memory Maze和TECO Minecraft数据集上,新方法在检索准确率、推理效率方面显著优于Transformer和Mamba基线,且训练成本线性增长。
应用价值
适用于游戏模拟等需实时无限生成场景,解决了传统模型因内存累积导致的性能下降问题。