okooo澳客华为泰勒执行室提倡SHAPE，给LLM推理装了个「推理税」

发布日期：2026-05-01 02:47:39 点击次数：167

okooo澳客华为泰勒执行室提倡SHAPE，给LLM推理装了个「推理税」

用强化学习考试大模子作念数学推理，一个经典的烦扰步地是：模子要么答对了但空话连篇，要么写了一大堆终末答错了，而你根底不知谈它到底在哪一步走偏的。

来自华为泰勒执行室、北京大学和上海财经大学的守护团队提倡了SHAPE（Stage-aware Hierarchical Advantage via Potential Estimation），给推理链装上了一套「里程碑 + 推理税」机制——不仅告诉模子每一步推得对不合，还让它为啰嗦付出代价。收尾是：准确率平均擢升 3%，token 破钞直降 30%。

该责任已被ACL 2026 主会接受。

论文标题：SHAPE: Stage-aware Hierarchical Advantage via Potential Estimation for LLM Reasoning论文华集：https://arxiv.org/abs/2604.06636

1. 痛点：模子推理的「稀少信号」窘境

当今强化学习的主流作念法（GRPO）只在推理链的最末尾给一个对/错的信号。这就好比一个学生写了三页解题历程，进修只在终末批一个「❌」——学生王人备不知谈我方哪一步出了问题。

历程奖励模子（PRM）不错给每一步打分，但标注资本极高，况且模子容易钻空子（reward hacking）。比年来 MRT、SPO 等期间匠心独具：通过让模子在推理中间屡次「快速试答」来忖度现时走到哪了，以此构造中间信号。但这些期间各有各的短板。

团队以为，一步好的推理当该同期满足三件事：1️⃣得有本色发扬（不可故步自封）、2️⃣越难的阶段冲突越值钱（旱苗得雨＞镌脾琢肾：困惑时的冲突更蹙迫）、3️⃣越梗概越好（一样的发扬用更少的字完成应该获取奖励）。

现存期间要么只管发扬不管效果，要么只加长度处分但短少语义相接。SHAPE 等于为了把这三件事合并到一个框架里。

2. SHAPE 若何作念的？

整个这个词框架分三步走：（A）切段+估势能 → （B）段级奖励蓄意 → （C）token 级信用再分拨。

Step A：切段 + 估「推理势能」

工程上，团队用vLLM的Prefix Caching幸免肖似算分享前缀，波音(bbin)体育官方网站rollout收尾在max_tokens=16，支拨可控。

Step B：段级奖励——「推理税」机制

代入后，每段的上风函数为：

第二项等于「推理税」，它同期干了两件事：税基是现时事能——推理早期势能低，税险些为零，释怀探索；后期势能高，税就重了，澳客app不许靠反复阐明来刷分。税率跟段落长度正关联——越啰嗦税越高，逼模子直率抒发。一个动态扣头因子，同期惩办了阶段感知和效果不休。

Step C：token 级信用再分拨

3. 执行收尾

3.1 主执行

三个基座模子（DeepSeek-R1-Distill-Qwen-1.5B、DeepScaleR-1.5B、Qwen3-4B），五个数学推理 benchmark，全面评估。

跨模子一致性：不论 1.5B 也曾 4B 边界，SHAPE 均同期擢升准确率并缩短 token 破钞。准确率：Overall 平均擢升约 3%，其中 DeepScaleR-1.5B 在 AIME 2024 上擢升 7.0 个百分点（38.6% → 45.6%），Qwen3-4B 在 MinervaMATH 上擢升 6.2 个百分点。Token 效果：Overall 平均减少约 30%，最大降幅达 38.7%（DeepSeek-1.5B on MinervaMATH）。

考试弧线进一步佐证了这一论断：SHAPE 在考试全程保执准确率逾越，同期驱动 response 长度执续着落，两条弧线的走势圆善体现了又准又快的双重优化策划。

3.2 消融执行

消融执行揭示了几个要津发现：

熵分段（EBS）的移除导致 token 破钞增多约 3%，考证了语义对王人的分段战术优于硬要领。Token 级信用再分拨（TCR）的移除导致准确率着落达 2.0 个百分点（AIME 2025），标明细粒度信号在要津有策划点的放大作用不可或缺。

4. 深度分析

进一步地，经过 SHAPE 考试后，模子在势能增益开始差异上呈现了显赫变化：来自低势能情状的增益孝顺占比从开动的 40.6% 高涨到 44.4%，而来无礼势能情状的孝坚信 10.5% 降至 3%。模子学会了把脑子齐集在最需要冲突的处所。

自合适蓄意。SHAPE 按题目难度动态分拨 token 预算，长度-难度缩放斜率比 GRPO 更陡、方差更小，这意味着：SHAPE 不是简便地「写得少」，而是精确地字据题目难度分拨 token 预算。

排斥推理坍缩。GRPO 在困难上存在一个显赫的病理表象：response 长度差异在 32k 高下文上限处出现相配 spike。SHAPE 基本排斥了这类表象——差异弧线在远低于上限处就平滑衰减至零。这进一步印证了推理税的效用：当模子在某条推理旅途上执续破钞 token 却无本色发扬时，蕴蓄的税会迫使模子实时止损。

5. 追想

SHAPE 用一个合并的数学框架——动态扣头的势函数塑形——同期解决了历程监督中的三个中枢问题：势能增益度量、阶段难度感知和 token 效果不休。SHAPE 的中枢孝顺不仅在于具体的准确率和效果数字，更在于提倡了推理税这一优雅的机制想象范式，为斡旋和优化 LLM 推理历程提供了新的表面透镜。

米兰体彩app官方网站

竞彩篮球