核心事件: 小米公司已于 2025年5月30日 通过其官方公众号「Xiaomi MiMo」正式宣布开源其强大的多模态大模型 MiMo-VL-7B 系列。该系列包含 RL(强化学习版) 和 SFT(监督微调版) 两个版本,旨在为下一代智能体(Agent)提供通用基础能力。 核心定位: MiMo-VL 是一款专注于多模态理解与推理的模型,能够同时处理图像、视频和文本等多种模态信息,目标是成为开发者构建复杂应用的通用基座模型。 开源资源: 模型文件 & 代码库: Hugging Face 仓库 (https://huggingface.co/XiaomiMiMo) 详细技术报告: GitHub (https://github.com/XiaomiMiMo/MiMo-VL/blob/main/MiMo-VL-Technical-Report.pdf) 评测框架: lmms-eval (https://github.com/XiaomiMiMo/lmms-eval),支持超过50种多模态任务评测。 技术亮点: 精心设计的四阶段预训练: 模型训练经历了四个关键阶段,累积使用了约 2.4万亿Tokens(tokens) 的数据。 阶段一:投影器预热 - 使用图像-文本配对数据初始化视觉投影器。 阶段二:视觉-语言对齐 - 引入网页、书籍、论文等交错数据,强化图文关联理解。 阶段三:深度多模态预训练 - 加入更复杂的 OCR、目标检测、视频、图形用户界面(GUI)数据和专用推理数据,全面提升多模态能力。 阶段四:长上下文优化 - 整合长文本、高分辨率图像和长视频数据,将模型上下文窗口扩展至32K(32,000 tokens),增强处理复杂场景能力。 创新的混合在线强化学习(MORL): MiMo-VL-RL 版本的核心训练方法。 融合了文本推理质量、多模态感知准确性和 RLHF(人类反馈强化学习)等多种信号进行模型优化。 采用独特的 “奖励即服务(RaaS)” 机制,能够根据不同任务需求动态调整和适配奖励函数,提升模型的泛化和适应能力。 突出性能表现: 多模态推理能力(显著优势): 在要求极高的数学推理挑战(如 OlympiadBench, MathVision, MathVerse)中, MiMo-VL-7B-RL 击败了参数量高达720亿的阿里 Qwen2.5-VL-72B 以及闭源标杆 GPT-4o。 在小米内部以用户体验为中心的综合评测中,MiMo-VL 超越 GPT-4o,成为目前表现最佳的开源多模态模型。 通用任务广泛领先: 在涵盖多学科理解的 MMMU、知识推理的 MMLU-Pro、视觉指代表达理解的 RefCOCO 等超过50项主流评测任务中,MiMo-VL-7B 全面领先于同体量的标杆模型(如 Qwen2.5-VL-7B)。 关键指标示例: MathVerse: MiMo-VL-7B-RL 得分 62.7,对比 Qwen2.5-VL-7B 的 47.3,领先 15.4分。 VL-RewardBench (评估视觉语言联合任务奖励建模): MiMo-VL-7B-RL 得分 56.5,对比 Qwen2.5-VL-7B 的 38.0,领先 18.5分。 GUI 操作潜力: 模型展现出强大的图形用户界面理解与控制能力,能够规划并模拟执行长达 10 步以上的交互操作序列(例如,在小米官网逐步操作将一辆 SU7 汽车加入心愿单)。 典型应用场景: 复杂视觉推理: 解决包含物体识别、空间关系和逻辑的视觉谜题。 长文档与图表解析: 理解学术论文、报告中的高分辨率图表和复杂的图文混排内容。 工业级智能体(Agent): 驱动自动化 GUI 操作流程(如软件测试、表单填写)、实现跨平台任务执行。 总结: 小米 MiMo-VL-7B 系列通过大规模、高质量、阶段递进式的多模态预训练,结合创新的混合在线强化学习框架(MORL),在仅有 70亿参数 的规模下,实现了对百亿级参数模型乃至顶级闭源模型的超越。其优势在数学推理、视觉定位和长上下文/长序列交互任务中尤为突出。此次开源为开发者社区提供了一个性能强大、轻量高效的通用多模态基座模型,将加速其在智能助手、自动化流程、工业视觉等多样化场景中的实际应用落地。
余承东说有公司只做一款车就卖爆了余承东真敢说:某公司有强大流量,只做一款车就
【11评论】【5点赞】