

用强化学习考试大模子作念数学推理,一个经典的烦扰步地是:模子要么答对了但空话连篇,要么写了一大堆终末答错了,而你根底不知谈它到底在哪一步走偏的。
来自华为泰勒执行室、北京大学和上海财经大学的守护团队提倡了SHAPE(Stage-aware Hierarchical Advantage via Potential Estimation),给推理链装上了一套「里程碑 + 推理税」机制——不仅告诉模子每一步推得对不合,还让它为啰嗦付出代价。收尾是:准确率平均擢升 3%,token 破钞直降 30%。
该责任已被ACL 2026 主会接受。

论文标题:SHAPE: Stage-aware Hierarchical Advantage via Potential Estimation for LLM Reasoning论文华集:https://arxiv.org/abs/2604.06636
当今强化学习的主流作念法(GRPO)只在推理链的最末尾给一个对/错的信号。这就好比一个学生写了三页解题历程,进修只在终末批一个「❌」——学生王人备不知谈我方哪一步出了问题。
历程奖励模子(PRM)不错给每一步打分,但标注资本极高,况且模子容易钻空子(reward hacking)。比年来 MRT、SPO 等期间匠心独具:通过让模子在推理中间屡次「快速试答」来忖度现时走到哪了,以此构造中间信号。但这些期间各有各的短板。
团队以为,一步好的推理当该同期满足三件事:1️⃣得有本色发扬(不可故步自封)、2️⃣越难的阶段冲突越值钱(旱苗得雨>镌脾琢肾:困惑时的冲突更蹙迫)、3️⃣越梗概越好(一样的发扬用更少的字完成应该获取奖励)。

现存期间要么只管发扬不管效果,要么只加长度处分但短少语义相接。SHAPE 等于为了把这三件事合并到一个框架里。

整个这个词框架分三步走:(A)切段+估势能 → (B)段级奖励蓄意 → (C)token 级信用再分拨。
Step A:切段 + 估「推理势能」




工程上,团队用vLLM的Prefix Caching幸免肖似算分享前缀,波音(bbin)体育官方网站rollout收尾在max_tokens=16,支拨可控。
Step B:段级奖励——「推理税」机制



代入后,每段的上风函数为:



第二项等于「推理税」,它同期干了两件事:税基是现时事能——推理早期势能低,税险些为零,释怀探索;后期势能高,税就重了,澳客app不许靠反复阐明来刷分。税率跟段落长度正关联——越啰嗦税越高,逼模子直率抒发。一个动态扣头因子,同期惩办了阶段感知和效果不休。
Step C:token 级信用再分拨



3.1 主执行
三个基座模子(DeepSeek-R1-Distill-Qwen-1.5B、DeepScaleR-1.5B、Qwen3-4B),五个数学推理 benchmark,全面评估。

跨模子一致性:不论 1.5B 也曾 4B 边界,SHAPE 均同期擢升准确率并缩短 token 破钞。准确率:Overall 平均擢升约 3%,其中 DeepScaleR-1.5B 在 AIME 2024 上擢升 7.0 个百分点(38.6% → 45.6%),Qwen3-4B 在 MinervaMATH 上擢升 6.2 个百分点。Token 效果:Overall 平均减少约 30%,最大降幅达 38.7%(DeepSeek-1.5B on MinervaMATH)。

考试弧线进一步佐证了这一论断:SHAPE 在考试全程保执准确率逾越,同期驱动 response 长度执续着落,两条弧线的走势圆善体现了又准又快的双重优化策划。
3.2 消融执行

消融执行揭示了几个要津发现:
熵分段(EBS)的移除导致 token 破钞增多约 3%,考证了语义对王人的分段战术优于硬要领。Token 级信用再分拨(TCR)的移除导致准确率着落达 2.0 个百分点(AIME 2025),标明细粒度信号在要津有策划点的放大作用不可或缺。



进一步地,经过 SHAPE 考试后,模子在势能增益开始差异上呈现了显赫变化:来自低势能情状的增益孝顺占比从开动的 40.6% 高涨到 44.4%,而来无礼势能情状的孝坚信 10.5% 降至 3%。模子学会了把脑子齐集在最需要冲突的处所。

自合适蓄意。SHAPE 按题目难度动态分拨 token 预算,长度-难度缩放斜率比 GRPO 更陡、方差更小,这意味着:SHAPE 不是简便地「写得少」,而是精确地字据题目难度分拨 token 预算。

排斥推理坍缩。GRPO 在困难上存在一个显赫的病理表象:response 长度差异在 32k 高下文上限处出现相配 spike。SHAPE 基本排斥了这类表象——差异弧线在远低于上限处就平滑衰减至零。这进一步印证了推理税的效用:当模子在某条推理旅途上执续破钞 token 却无本色发扬时,蕴蓄的税会迫使模子实时止损。

SHAPE 用一个合并的数学框架——动态扣头的势函数塑形——同期解决了历程监督中的三个中枢问题:势能增益度量、阶段难度感知和 token 效果不休。SHAPE 的中枢孝顺不仅在于具体的准确率和效果数字,更在于提倡了推理税这一优雅的机制想象范式,为斡旋和优化 LLM 推理历程提供了新的表面透镜。
米兰体彩app官方网站