小米开源多模态大模型MiMo-VL:70亿参数的强力新星

百态老人 2025-06-01 11:29:00

​​核心事件:​​ 小米公司已于 ​​2025年5月30日​​ 通过其官方公众号「Xiaomi MiMo」正式宣布开源其强大的多模态大模型 ​​MiMo-VL-7B​​ 系列。该系列包含 ​​RL(强化学习版)​​ 和 ​​SFT(监督微调版)​​ 两个版本,旨在为下一代智能体(Agent)提供通用基础能力。 ​​核心定位:​​ MiMo-VL 是一款专注于​​多模态理解与推理​​的模型,能够同时处理图像、视频和文本等多种模态信息,目标是成为开发者构建复杂应用的通用基座模型。 ​​开源资源:​​ ​​模型文件 & 代码库:​​ Hugging Face 仓库 (https://huggingface.co/XiaomiMiMo) ​​详细技术报告:​​ GitHub (https://github.com/XiaomiMiMo/MiMo-VL/blob/main/MiMo-VL-Technical-Report.pdf) ​​评测框架:​​ lmms-eval (https://github.com/XiaomiMiMo/lmms-eval),支持超过50种多模态任务评测。 ​​技术亮点:​​ ​​精心设计的四阶段预训练:​​ 模型训练经历了四个关键阶段,累积使用了约 ​​2.4万亿Tokens(tokens)​​ 的数据。 ​​阶段一:投影器预热​​ - 使用图像-文本配对数据初始化视觉投影器。 ​​阶段二:视觉-语言对齐​​ - 引入网页、书籍、论文等交错数据,强化图文关联理解。 ​​阶段三:深度多模态预训练​​ - 加入更复杂的 OCR、目标检测、视频、图形用户界面(GUI)数据和专用推理数据,全面提升多模态能力。 ​​阶段四:长上下文优化​​ - 整合长文本、高分辨率图像和长视频数据,将模型上下文窗口​​扩展至32K(32,000 tokens)​​,增强处理复杂场景能力。 ​​创新的混合在线强化学习(MORL):​​ MiMo-VL-RL 版本的核心训练方法。 融合了文本推理质量、多模态感知准确性和 RLHF(人类反馈强化学习)等多种信号进行模型优化。 采用独特的 ​​“奖励即服务(RaaS)”​​ 机制,能够根据不同任务需求动态调整和适配奖励函数,提升模型的泛化和适应能力。 ​​突出性能表现:​​ ​​多模态推理能力(显著优势):​​ 在要求极高的数学推理挑战(如 OlympiadBench, MathVision, MathVerse)中, ​​MiMo-VL-7B-RL 击败了参数量高达720亿的阿里 Qwen2.5-VL-72B 以及闭源标杆 GPT-4o​​。 在小米内部以用户体验为中心的综合评测中,​​MiMo-VL 超越 GPT-4o,成为目前表现最佳的开源多模态模型。​​ ​​通用任务广泛领先:​​ 在涵盖多学科理解的 MMMU、知识推理的 MMLU-Pro、视觉指代表达理解的 RefCOCO 等超过50项主流评测任务中,MiMo-VL-7B 全面领先于同体量的标杆模型(如 Qwen2.5-VL-7B)。 ​​关键指标示例:​​ ​​MathVerse:​​ MiMo-VL-7B-RL 得分 62.7,对比 Qwen2.5-VL-7B 的 47.3,​​领先 15.4分。​​ ​​VL-RewardBench (评估视觉语言联合任务奖励建模):​​ MiMo-VL-7B-RL 得分 56.5,对比 Qwen2.5-VL-7B 的 38.0,​​领先 18.5分。​​ ​​GUI 操作潜力:​​ 模型展现出强大的图形用户界面理解与控制能力,能够规划并模拟执行​​长达 10 步以上​​的交互操作序列(例如,在小米官网逐步操作将一辆 SU7 汽车加入心愿单)。 ​​典型应用场景:​​ ​​复杂视觉推理:​​ 解决包含物体识别、空间关系和逻辑的视觉谜题。 ​​长文档与图表解析:​​ 理解学术论文、报告中的高分辨率图表和复杂的图文混排内容。 ​​工业级智能体(Agent):​​ 驱动自动化 GUI 操作流程(如软件测试、表单填写)、实现跨平台任务执行。 ​​总结:​​ 小米 MiMo-VL-7B 系列通过​​大规模、高质量、阶段递进式的多模态预训练​​,结合​​创新的混合在线强化学习框架(MORL)​​,在仅有 ​​70亿参数​​ 的规模下,实现了对百亿级参数模型乃至顶级闭源模型的超越。其优势在​​数学推理、视觉定位和长上下文/长序列交互任务​​中尤为突出。此次开源为开发者社区提供了一个性能强大、轻量高效的通用多模态基座模型,将加速其在智能助手、自动化流程、工业视觉等多样化场景中的实际应用落地。

0 阅读:0
百态老人

百态老人

数据老灵魂