阿里发布智能体基准PawBench：优秀框架可助小模型「下克上」

阿里发布智能体基准PawBench：优秀框架可助小模型「下克上」

阿里通义实验室推出智能体评测基准 PawBench v1.0，首次将底座模型与运行框架纳入统一评测体系。评测针对 9 个大模型与 Hermes、OpenClaw、QwenPaw 三款框架进行交叉测试，包含 150 道真实任务与 4050 个测试单元。

结果表明，运行框架的设计直接决定了智能体能力是否能稳定落地。在模型相同的情况下，三款框架存在明显的性能极差，QwenPaw 得分 76.4，OpenClaw 得分 75.4，而 Hermes 仅为 70.4。6.4 分的差距堪比一次重大的模型版本升级。优秀的设计甚至能让小模型实现「下克上」：在 Hermes 框架中 GLM 5.1 仅得 68.2 分，而在 QwenPaw 框架下较小规模的 Qwen3.6-35b-a3b 却拿到了 70.4 分。

通过分析运行轨迹，框架表现差异源于对工作区产物缺乏实质校验、工具路径约束宽松以及工具表过大增加了模型决策负担。多数框架在本地专属技能（Skill）的主动发现以及网页搜索的零配置可用性上也存在明显短板。评测团队提出了框架设计的四项基本原则：充分告知（Inform Fully）、按需装备（Equip on Demand）、主动监控（Monitor Actively）和弹性恢复（Recover Gracefully），建议开发者通过完善工程治理来释放底座模型的实际能力。

信源：https://mp.weixin.qq.com/s/Q1fa3KwT63HBOF2fmWKzlg