小米 MiMo-V2-Flash 发布:高效推理与智能体能力的新标杆

2025 年 12 月 16 日,小米正式发布并开源了 MiMo-V2-Flash 大语言模型。这是一款专为高速推理和智能体场景设计的基础语言模型,在推理、编程和智能体任务上表现卓越,同时也是一个出色的通用助手。
核心亮点
MiMo-V2-Flash 采用混合专家架构(MoE),总参数量达 309B,但每次推理仅激活 15B 参数。这种稀疏激活设计在保持强大能力的同时,大幅降低了计算成本。
模型的核心创新在于其混合注意力架构,它交替使用滑动窗口注意力(SWA)和全局注意力(GA),比例为 5:1,窗口大小仅为 128 个 token。这种设计将 KV 缓存存储需求降低了近 6 倍,同时通过可学习的注意力汇聚偏置(attention sink bias)保持了长上下文处理能力,支持最高 256K 的上下文窗口。
另一项关键技术是多 Token 预测(MTP),这是一种轻量级的自推测解码模块,每个 block 仅需 0.33B 参数。MTP 使用密集 FFN(而非 MoE)和 SWA(而非 GA)来控制参数规模,在实测中达到了 2.8-3.6 个 token 的接受长度,推理速度提升 2.0-2.6 倍。

推理能力:跻身顶尖开源模型
在数学竞赛 AIME 2025 基准测试中,MiMo-V2-Flash 取得了 94.1% 的成绩,在开源模型中排名前二,与 GPT-5 High(94.6%)、Kimi-K2 Thinking(94.5%)等闭源模型处于同一水平。在科学知识基准 GPQA-Diamond 上,模型同样表现优异,达到 83.7%。
在 LiveCodeBench-v6 代码推理测试中,MiMo-V2-Flash 得分 80.6%,展现出强大的实时编程能力。
智能体能力:开源模型新标杆
MiMo-V2-Flash 在智能体任务上的表现尤为突出。在 SWE-Bench Verified 软件工程基准测试中,模型以 73.4% 的成绩超越所有开源竞争对手,接近 GPT-5 High(74.9%)的水平。在 SWE-Bench Multilingual 多语言测试中更是达到了 71.7%,成为目前最强的开源软件工程模型。
模型支持混合思考模式,用户可以切换让模型进行深度推理或即时回答。它能一键生成功能完整的 HTML 网页,与 Claude Code、Cursor、Cline 等 vibe-coding 工具无缝集成,并能在数百轮智能体交互和工具调用中完成复杂任务。
训练创新:多教师在线策略蒸馏
小米在后训练阶段提出了多教师在线策略蒸馏(MOPD)范式。这种方法的核心是将知识蒸馏重新定义为强化学习过程:学生模型从自己的策略分布中采样,并使用多个领域专家教师提供的密集、token 级别的奖励进行优化。
MOPD 训练稳定高效,所需计算资源不到传统 SFT+RL 流水线的 1/50 即可达到教师模型的峰值性能。该范式还支持灵活集成新教师和奖励模型,实现”教与学”的闭环迭代:蒸馏后的学生模型可以进化为更强的教师,达成能力的持续自我提升。
为提升智能体能力,小米大规模扩展了智能体训练环境,利用真实 GitHub issue 创建了超过 10 万个可验证任务。自动化流水线维护着一个 Kubernetes 集群,可同时运行超过 1 万个并发 pod,环境设置成功率达 70%。
推理效率:成本仅为闭源模型的 2.5%
MiMo-V2-Flash 的推理速度达到惊人的 150 tokens/秒,同时保持超低成本:输入 $0.1/百万 tokens,输出 $0.3/百万 tokens。这使其成为目前性价比最高的高性能模型之一,推理成本仅为 Claude Sonnet 4.5 的约 2.5%。
用户反馈表明,MiMo-V2-Flash 的响应速度”快得难以置信”——在相同硬件条件下,其生成延迟显著低于 DeepSeek 等竞争对手,尤其在多轮对话和复杂逻辑推理场景中优势更为明显。
完全开源
模型权重(包括 MiMo-V2-Flash-Base)已在 HuggingFace 上以 MIT 许可证开源,同时开源了 3 层 MTP 权重以促进社区研究。推理代码在发布首日即贡献给了 SGLang 项目。
小米还推出了限时免费的 API 服务,可在 Xiaomi MiMo Studio 在线体验,或通过 API 平台 接入。
资源链接
访问以下资源了解更多: