Kimina-Prover— 月之暗面联合 Numina 推出的数学定理证明模型

时间：2025-04-17 | 作者： | 阅读：0

Kimina-Prover是什么

kimina-prover是由月之暗面与numina团队联合开发的大型数学定理证明模型，采用大规模强化学习进行训练，能够以类似人类的方式进行推理，并在lean 4语言中严谨地证明数学定理。通过独特的“形式化推理模式”，在推理过程中结合非形式化推理和lean 4代码片段，模拟人类解决问题的策略。kimina-prover在minif2f基准测试中取得了80.7%的成绩，超过了此前最佳水平10.6%，创下新高。随着模型规模的增大和计算资源的增加，性能显著提升，展现出高样本效率和良好的可扩展性。目前，模型的1.5b和7b参数版本已对外开源。

Kimina-Prover的主要功能

基于强化学习的训练：Kimina-Prover是首个通过大规模强化学习训练的大型形式化推理模型，能够以类似人类的方式在Lean 4语言中严谨地证明数学定理。
高效的推理模式：模型采用了“形式化推理模式”，通过在推理过程中穿插非形式化推理和Lean 4代码片段，使模型更好地模拟人类解决问题的策略。
高样本效率：在较少的采样次数下，Kimina-Prover就能取得较好的结果，并且随着计算资源的增加，性能会显著提升。
模型规模与性能正相关：与以往的神经定理证明器不同，Kimina-Prover的性能随着模型规模的增大而显著提高。

Kimina-Prover的技术原理

自动形式化：为了构建一个多样化的问题集，研究人员训练了一个模型，将自然语言问题陈述自动翻译成Lean 4代码，并以占位符证明结束。
强化学习训练：在监督微调（SFT）阶段之后，模型通过强化学习进一步增强其形式化定理证明能力。在每次迭代中，模型会从问题集中采样一批问题，并生成多个候选解决方案，然后使用Lean编译器验证这些解决方案的正确性。

Kimina-Prover的性能表现

基准测试成绩：在miniF2F基准测试中，Kimina-Prover取得了80.7%的成绩，超过了此前的最佳水平（SOTA）模型10.6%，创下新高。
与通用大模型对比：在miniF2F基准测试及其子集（如IMO和AIME）中，Kimina-Prover显著优于OpenAI的o3和Gemini 2.5 Pro等通用推理模型。

Kimina-Prover的项目地址

Github仓库：https://www.php.cn/link/53c16d65d012198a587f8745bad50014
HuggingFace模型库：https://www.php.cn/link/53c16d65d012198a587f8745bad50014
arXiv技术论文：https://www.php.cn/link/53c16d65d012198a587f8745bad50014

Kimina-Prover的应用场景

科研辅助：Kimina-Prover在数学研究领域具有巨大的应用潜力，能够帮助数学家和研究人员快速验证复杂的数学定理，提供严谨的证明过程。
软件测试：在软件开发过程中，Kimina-Prover可以用于验证软件的逻辑正确性。通过将软件的算法和逻辑转换为数学定理的形式，模型可以验证这些定理的正确性，确保软件的可靠性和稳定性。
算法验证：在人工智能和机器学习领域，Kimina-Prover可以用于验证算法的正确性和可靠性，确保在理论上是正确的。
风险评估：在金融领域，Kimina-Prover可以用于验证风险评估模型的数学基础，确保这些模型的准确性和可靠性。
工程设计验证：在工程设计中，Kimina-Prover可以用于验证设计的数学模型和公式。在建筑结构设计、机械设计等领域，模型可以验证设计的稳定性和安全性。