SSM+扩散模型创新视频世界模型研究背景视频扩散模型作为世界模型存在长期记忆

春蕴评趣事 2025-05-31 15:22:26

SSM+扩散模型创新视频世界模型

研究背景

视频扩散模型作为世界模型存在长期记忆不足的问题,传统注意力机制因计算成本高难以扩展上下文长度。

核心创新

提出结合状态空间模型(SSM)与扩散模型的新架构,通过逐块扫描和局部注意力机制平衡长时记忆与空间一致性。

方法细节

1. 逐块SSM扫描:将token序列分块处理,调整块大小以优化时间记忆与空间一致性。

2. 帧局部注意力:在SSM层后加入局部注意力模块,提升帧间生成质量。

3. 动作条件机制:通过MLP嵌入连续/离散动作,实现交互式控制。

4. 长上下文训练:保持部分帧无噪声,强制模型利用远距离上下文信息。

5. 高效推理:固定长度状态和KV缓存确保内存与计算时间恒定。

实验验证

在Memory Maze和TECO Minecraft数据集上,新方法在检索准确率、推理效率方面显著优于Transformer和Mamba基线,且训练成本线性增长。

应用价值

适用于游戏模拟等需实时无限生成场景,解决了传统模型因内存累积导致的性能下降问题。

0 阅读:0
春蕴评趣事

春蕴评趣事

感谢大家的关注