MetaStone-S1— 原石科技推出的反思型生成式大模型

时间：2025-07-09 | 作者： | 阅读：0

MetaStone-S1介绍

由原石科技研发的metastone-s1是一款具备反思能力的生成式大模型，首次将深度推理与推理链自筛选机制融合。该模型采用自监督反思范式，通过共享主干结构的策略模型和过程评分模型（sprm），仅增加53m参数即可实现对推理步骤质量的实时评估，无需依赖人工标注数据。模型支持long-cot强化学习，可生成超长推理链，在数学（aime）、代码（livecodebench）和中文推理（c-eval）任务中表现优于同类模型。提供1.5b、7b、32b三种版本并全面开源，以较低成本实现高性能推理，推动推理智能进入“自我修正”新阶段。

MetaStone-S1的核心功能

深度推理生成功能：MetaStone-S1能够生成复杂且超长的推理链条（Long-CoT），适用于解决数学证明、编程算法等高难度推理问题。
智能推理链优化：模型内置自监督过程评分机制（SPRM），可自动识别并剔除推理过程中的错误步骤，显著提升最终答案的准确性。
多模式推理设置：提供Low（快速响应）、Medium（平衡精度与速度）、High（深度思考）三种推理模式，满足不同场景下的推理需求。
开源扩展能力：全面开放1.5B/7B/32B三种规模模型及相关工具，便于开发者在特定领域进一步优化模型推理性能。

MetaStone-S1的技术机制

双头共享架构：基于策略模型（Policy Model）与过程评分模型（SPRM）共享主干网络的设计，在Transformer层上并行部署生成头（Generation Head）和评分头（Scoring Head），前者负责生成推理链，后者基于自监督学习对每个推理步骤进行实时评分。
自监督过程奖励机制：提出SPR Loss（Self-supervised Process Reward Loss）算法，利用最终答案的正确性作为弱监督信号，结合噪声过滤机制自动生成步骤级伪标签，从而完成过程评分模型的训练，摆脱对人工标注的依赖。
动态推理优选机制：在推理阶段使用Test-Time Scaling技术：先生成多条候选推理链（如High模式生成32条），通过SPRM计算路径总分，选择最优路径继续生成，形成“生成-评估-择优”的闭环流程。
联合优化策略：基于GRPO强化学习算法同步优化策略模型和SPRM，其中策略模型最大化答案正确率，SPRM则通过对比学习区分优质与低质推理步骤，两者共享梯度信息，实现协同进化。
推理能力调控机制：设计了思考长度与模型性能之间的Scaling Law，通过调整rollout次数来控制计算量（参数量×思考token数），实现从快速响应（Low）到深度思考（High）的平滑过渡。