Video-XL-2 模型
1. 模型概述
智源研究院联合上海交通大学推出Video-XL-2,开源轻量级超长视频理解模型。核心优势包括:
• 效果:在MLVU、Video-MME等评测中领先同规模开源模型。
• 长度:单卡支持万帧视频处理(80GB显存)。
• 速度:2048帧编码仅需12秒,效率显著提升。
2. 架构设计
• 视觉编码器:SigLIP-SO400M逐帧提取特征。
• 动态Token合成(DTS):融合时序信息,压缩视觉特征。
• 大语言模型:Qwen2.5-Instruct实现跨模态推理。
3. 训练策略
四阶段渐进训练:
1. DTS初始化与跨模态对齐。
2. 高质量视频/图像-文本对训练。
3. 大规模数据强化理解能力。
4. 指令微调提升复杂任务响应。
4. 效率优化
• 分段预装填:分块处理视频,降低显存开销。
• 双粒度KV解码:关键片段全KV,次要片段降采样,加速推理。
5. 性能与应用
• 评测表现:接近720亿参数大模型(如Qwen2.5-VL-72B)。
• 应用场景:影视分析、监控异常检测、直播内容总结等。
资源链接
• 项目主页:
• HuggingFace模型:
• GitHub仓库: