Skywork-OR1— 昆仑万维开源的高性能系列推理模型

时间：2025-04-15 | 作者： | 阅读：0

Skywork-OR1是什么

skywork-or1(open reasoner 1)是昆仑万维推出的开源高性能推理模型系列，模型突破大模型在逻辑推理和复杂任务求解方面的能力瓶颈。skywork-or1包含三款模型，skywork-or1-math-7b是数学推理模型，具备强大的数学解题能力；skywork-or1-7b-preview是通用模型，兼具数学和代码能力；skywork-or1-32b-preview是旗舰版本，适合更高复杂度的任务，推理能力更强。在性能方面，skywork-or1系列在多个基准测试中表现出色。例如，在aime24和aime25数学数据集上，skywork-or1-math-7b分别取得了69.8%和52.3%的高分，远超同规模的主流模型。在竞赛编程任务中，skywork-or1-32b-preview在livecodebench数据集上的表现接近deepseek-r1（671b参数），展现卓越的性价比。

Skywork-OR1— 昆仑万维开源的高性能系列推理模型_wishdown.com

Skywork-OR1的主要功能

逻辑推理能力：具备强大的逻辑推理能力，处理复杂的逻辑关系和多步骤推理任务。
编程任务支持：支持生成高质量的代码，支持多种编程语言。
代码优化与调试：对代码进行优化和调试，提高代码的可读性和执行效率。
多领域任务适应：具备通用推理能力，支持处理其他领域的复杂任务。
多轮对话与交互：支持多轮对话，根据上下文信息逐步解决问题，提供更连贯的推理过程。

Skywork-OR1的技术原理

高质量数据集：基于高质量的数学数据集，如NuminaMath-1.5（约89.6万题），筛选出AIME、Olympiads等高难度子集，总计约11万道数学题目。LeetCode和TACO数据为主，经过严格筛选和去重，保留单元测试完整、验证通过的问题，获得13.7K条高质量代码问题。
数据预处理与过滤：每道题进行多轮采样验证答案，剔除“全对”或“全错”的题目，避免无效数据对训练的影响。结合人类评审和LLM自动判题机制，清理语义不清、信息不全、格式错误或含有无关内容的题目。
训练策略：基于GRPO进行模型训练，多阶段训练逐步增加上下文窗口长度，提升模型的长链思维能力。在训练前和训练过程中分别进行离线和在线过滤，动态剔除无效样本，确保训练数据的有效性和挑战性。在强化学习采样时用高采样温度（τ=1.0），基于自适应熵控制机制，增强模型的探索能力，避免过早陷入局部最优。
损失函数优化：在训练中移除KL损失项，让模型充分地探索和优化推理能力。将策略损失在训练批次内的所有token上进行平均，提升优化过程的一致性与稳定性。
多阶段训练：基于多阶段训练逐步扩展上下文窗口长度，让模型在有限token内高效完成任务，逐步掌握复杂的长链思维能力。在多阶段训练初期，基于特定策略处理截断样本，确保模型在进入下一阶段时迅速提升性能。

Skywork-OR1的性能表现

数学推理任务：
- 通用模型Skywork-OR1-7B-Preview和Skywork-OR1-32B-Preview在AIME24与AIME25数据集上实现同参数规模最优表现，展现强大数学推理能力。
- 专项模型Skywork-OR1-Math-7B在AIME24和AIME25上分别取得69.8与52.3的高分，远超当前主流7B级别模型，凸显高阶数学推理专业优势。
- Skywork-OR1-32B-Preview在所有benchmark上超越QwQ-32B，在AIME25上基本与R1持平。
竞赛编程任务：
- 通用模型Skywork-OR1-7B-Preview与Skywork-OR1-32B-Preview在LiveCodeBench数据集上取得同等参数规模最优性能。
- Skywork-OR1-32B-Preview代码生成与问题求解能力接近DeepSeek-R1（参数规模671B），在压缩模型体量的同时实现卓越性价比，体现训练策略先进性。
Skywork-OR1-Math-7B表现：
- 在AIME24上训练准确率曲线显示性能稳定提升，模型在AIME24和AIME25上分别达到69.8%和52.3%，超越OpenAI-o3-mini (low)，达当前尺寸SOTA性能。
- 在Livecodebench上从37.6%提升到43.6%，相比基线模型显著提升，显示训练方法领域泛化性好。