Multi-SWE-bench— 字节豆包开源的多语言代码修复基准
时间:2025-04-11 | 作者: | 阅读:0multi-swe-bench:字节跳动开源的多语言代码修复基准
Multi-SWE-bench是字节跳动豆包大模型团队开源的首个多语言代码修复基准数据集,它在SWE-bench的基础上,扩展支持了Java、TypeScript、JavaScript、Go、Rust、C和C++七种主流编程语言,实现了对“全栈工程”的全面评测。数据集包含1632个真实世界修复任务,均源自GitHub issue,并经过严格筛选和人工验证,确保每个样本都具备清晰的问题描述、正确的修复补丁以及可复现的测试环境。此外,它还引入了任务难度分级(简单、中等、困难),涵盖了从单行修改到复杂的多文件、多步骤、多语义依赖的各种开发挑战。
核心功能:
- 多语言代码修复评估: Multi-SWE-bench首次涵盖了Python以外的七种主流编程语言,为更全面地评估大模型在不同编程语言下的代码修复能力提供了基准。
- 任务难度分级: 数据集按难度(简单、中等、困难)对任务进行分类,方便评估模型在不同复杂度下的表现。
- 真实数据保障: 所有1632个样本均来自真实的GitHub issue,并经过严格的测试和人工审核,确保数据质量和实用性。
技术原理:
Multi-SWE-bench的数据构建过程包含五个阶段:开源仓库筛选、Pull Request爬取、Docker环境构建、PR过滤与验证以及人工验证,确保了数据的可靠性和准确性。 为了支持强化学习在代码修复中的应用,团队还开源了Multi-SWE-RL,提供4723个结构化训练样本,并配备可复现的Docker环境,方便模型训练和评估。
项目地址:
- 项目官网: https://www.php.cn/link/17cc53731572f4cbf6eaaa130e9ca10d#/
- Github仓库: https://www.php.cn/link/17cc53731572f4cbf6eaaa130e9ca10d
- HuggingFace数据集: https://www.php.cn/link/17cc53731572f4cbf6eaaa130e9ca10d
- arXiv技术论文: https://www.php.cn/link/17cc53731572f4cbf6eaaa130e9ca10d
应用场景:
Multi-SWE-bench可广泛应用于代码修复自动化、模型性能评估与提升、编程语言比较研究以及智能学习与教育等领域,为开发者和研究人员提供了一个强大的工具和平台。
福利游戏
相关文章
更多-
- 初音未来缤纷舞台新手怎么玩 初音未来缤纷舞台新手攻略
- 时间:2025-04-18
-
- 苏丹的游戏折卡线结局攻略 结局收集者触发条件
- 时间:2025-04-18
-
- 拓客应用软件如何为企业获取更多资源?
- 时间:2025-04-18
-
- 现在水果生鲜APP开发如何抓住用户的心?
- 时间:2025-04-18
-
- 珠宝商城APP相对线下商铺的优点
- 时间:2025-04-18
-
- 信息发布软件都有哪些功能?
- 时间:2025-04-18
-
- 软件开发外包平台应该怎么选择?
- 时间:2025-04-18
-
- APP软件外包应当注意些什么?
- 时间:2025-04-18
精选合集
更多大家都在玩
大家都在看
更多-
- iOS17新功能详解:如何使用通行密钥登录Apple ID
- 时间:2025-04-18
-
- oppo手机屏幕使用时间在哪里设置
- 时间:2025-04-18
-
- 苹果iPhone15系列发布会时间何时公布
- 时间:2025-04-18
-
- 电脑单机游戏一般在哪里可以玩
- 时间:2025-04-18
-
- 微信如何发送蓝色红包
- 时间:2025-04-18
-
- 五月加密市场图解:以太坊ETF助力多项指标创历史新高
- 时间:2025-04-18
-
- 国补加持下性价比暴增!M4版苹果MacBook Pro上手
- 时间:2025-04-18
-
- 淘宝微信支付消失了吗
- 时间:2025-04-18