Video-XL-2模型1.模型概述智源研究院联合上海交通大学推出Vid

春蕴评趣事 2025-06-03 12:44:46

Video-XL-2 模型

1. 模型概述

智源研究院联合上海交通大学推出Video-XL-2,开源轻量级超长视频理解模型。核心优势包括:

• 效果:在MLVU、Video-MME等评测中领先同规模开源模型。

• 长度:单卡支持万帧视频处理(80GB显存)。

• 速度:2048帧编码仅需12秒,效率显著提升。

2. 架构设计

• 视觉编码器:SigLIP-SO400M逐帧提取特征。

• 动态Token合成(DTS):融合时序信息,压缩视觉特征。

• 大语言模型:Qwen2.5-Instruct实现跨模态推理。

3. 训练策略

四阶段渐进训练:

1. DTS初始化与跨模态对齐。

2. 高质量视频/图像-文本对训练。

3. 大规模数据强化理解能力。

4. 指令微调提升复杂任务响应。

4. 效率优化

• 分段预装填:分块处理视频,降低显存开销。

• 双粒度KV解码:关键片段全KV,次要片段降采样,加速推理。

5. 性能与应用

• 评测表现:接近720亿参数大模型(如Qwen2.5-VL-72B)。

• 应用场景:影视分析、监控异常检测、直播内容总结等。

资源链接

• 项目主页:

• HuggingFace模型:

• GitHub仓库:

0 阅读:0
春蕴评趣事

春蕴评趣事

感谢大家的关注