OlympicArena— 上海交大联合 AI Lab 等推出的多学科认知推理基准测试框架

时间：2025-04-06 | 作者： | 阅读：0

olympicarena：一个多学科认知推理基准测试框架

OlympicArena是由上海交通大学、上海AI Lab、苏州大学和上海交通大学生成式人工智能实验室（GAIR Lab）联合打造的多学科认知推理能力评估平台。该框架包含11,163道源自国际奥林匹克竞赛的双语题目，涵盖数学、物理、化学、生物、地理、天文学和计算机科学七大领域，旨在全面评估人工智能模型的高级认知推理能力，特别是逻辑推理和视觉推理能力。OlympicArena采用细粒度的答案级和过程级评估方法，精准识别AI模型在解决复杂问题时的不足，从而推动人工智能技术迈向更高级的智能水平。

核心功能：

学科全面性: 涵盖七大核心学科，共34个细分领域，实现对AI模型跨学科认知推理能力的全面评估。
双语支持: 提供中英文双语题目，提升国际适用性和影响力。
精准评估: 采用答案级和过程级双重评估机制，确保评估结果的准确性和可靠性。
多模态兼容: 支持文本和图像结合的题目，考察AI模型处理多模态信息的能力。

技术原理：

OlympicArena基于高质量、多样化的国际奥林匹克竞赛题目构建。其数据收集和标注过程严格，并采用多步验证机制确保数据准确性。评估方法则根据题目类型灵活运用规则匹配、测试用例验证和高性能模型辅助评估等多种手段，确保评估的公平性和客观性。对于包含图像的题目，OlympicArena利用图像识别技术提取关键信息，并为图像生成描述性文字，辅助AI模型理解。此外，还内置数据泄漏检测机制，保障基准测试的公正性。

资源链接：