阿里云通义开源过程奖励PRM模型，7B尺寸比GPT-4o更能发现推理错误

蓝鲸新闻

2025-01-16 15:04发布于北京蓝鲸财经官方账号

+关注

蓝鲸新闻1月16日电，蓝鲸新闻获悉，今日，阿里云通义开源全新的数学推理过程奖励模型Qwen2.5-Math-PRM。在识别推理错误步骤能力上，Qwen2.5-Math-PRM以7B的小尺寸就可以超越GPT-4o。同时，通义团队还开源首个步骤级的评估标准 ProcessBench，填补了大模型推理过程错误评估的空白。（记者武静静）

免责声明：本内容来自腾讯平台创作者，不代表腾讯新闻或腾讯网的观点和立场。