阿里云通义开源过程奖励PRM模型 7B尺寸比GPT-4o更能发现推理错误

内容摘要阿里云通义推出突破性数学推理模型 Qwen2.5-Math-PRM北京时间 1 月 16 日,阿里云通义开源了全新的数学推理过程奖励模型 Qwen2.5-Math-PRM,在 72B 和 7B 尺寸上都表现出色,超越了同类开源模型。识别推理

阿里云通义推出突破性数学推理模型 Qwen2.5-Math-PRM

北京时间 1 月 16 日,阿里云通义开源了全新的数学推理过程奖励模型 Qwen2.5-Math-PRM,在 72B 和 7B 尺寸上都表现出色,超越了同类开源模型。

识别推理错误能力优异,超越 GPT-4o

在识别推理错误步骤方面,Qwen2.5-Math-PRM 的 7B 版本表现优异,甚至超越了 GPT-4o。通义团队还开源了首个步骤级评估标准 ProcessBench,填补了大模型推理过程错误评估的空白。

ProcessBench 评估标准,全面评估推理能力

ProcessBench 由 3400 个数学问题组成,包括奥赛难度题目。每个案例都有人类专家标注的逐步推理过程,可全面评估模型识别错误步骤的能力。该评估标准也已开源。

在 ProcessBench 上表现优异

在 ProcessBench 上进行评估时,72B 和 7B 尺寸的 Qwen2.5-Math-PRM 均显示出明显优势。7B 版本的 PRM 模型不仅超越了同尺寸开源模型,甚至超越了闭源 GPT-4o-0806。这表明 PRM 模型可以显著提高推理的可靠性,为未来开发推理过程监督技术提供了新途径。

 
举报 收藏 打赏 评论 0
24小时热闻
今日推荐
浙ICP备19001410号-1