Xiaomi MiMo— 小米开源的首个推理大模型

时间：2025-05-01 | 作者： | 阅读：0

Xiaomi MiMo 是什么

xiaomi mimo 是小米推出的首个开源推理大模型，旨在提升模型在复杂推理任务中的表现。该模型通过联动预训练和后训练，利用大量富推理语料并应用创新的强化学习算法，显著增强了其数学推理和代码生成能力。尽管仅有 7b 参数，mimo 在公开测评集上的表现超越了 openai 的 o1-mini 和阿里 qwen 的 qwq-32b-preview 等更大规模的模型。xiaomi mimo 提供了四个模型版本，包括预训练模型 mimo-7b-base、监督微调模型 mimo-7b-sft、强化学习模型 mimo-7b-rl 和 mimo-7b-rl-zero，这些模型已在 huggingface 上开源，为开发者提供了一个强大的推理工具。

Xiaomi MiMo 的主要功能

卓越的数学推理能力：能够解决复杂的数学问题，提供精确的推理路径和答案。
高效的代码生成能力：生成高质量的代码，适用于各种编程任务。
优化的推理性能：通过预训练和后训练的联动提升推理能力，仅用 7B 参数规模便超越了更大规模的模型，展示了高效的推理性能。

Xiaomi MiMo 的技术原理

预训练阶段：重点挖掘富含推理内容的语料，合成约 200B tokens 的推理数据，确保模型接触到更多推理模式。采用三阶段训练方法，逐步提升训练难度，总训练量达到 25T tokens，使模型在不同难度的任务中逐步提升能力。
后训练阶段：
- 强化学习算法：引入 Test Difficulty Driven Reward 算法，缓解困难算法问题中的奖励稀疏问题，提升模型在复杂任务中的表现。
- 数据重采样策略：采用 Easy Data Re-Sampling 策略，稳定强化学习（RL）训练过程。
- 高效训练框架：设计了 Seamless Rollout 系统，加速 RL 训练（2.29 倍）和验证（1.96 倍），提升训练效率。
模型架构优化：针对推理任务优化模型架构，确保在有限参数规模下实现高效的推理能力。

Xiaomi MiMo 的项目地址

GitHub 仓库：https://www.php.cn/link/9fccd04fe67747a7de261215c0cfea76
HuggingFace 模型库：https://www.php.cn/link/50a505acfcdc52e6e704164f1d65b474
技术论文：https://www.php.cn/link/9fccd04fe67747a7de261215c0cfea76/MiMo/blob/main/MiMo-7B-Technical-Report.pdf