
导语:英伟达猜度团队本周发布开源框架 Polar,在不遏止原有器具调用、迤逦文组织和补丁提交形式的前提下,让 Codex、Claude Code、Qwen Code 等现存智能体框架接入 GRPO(广义相对战术优化)测验。
IT 之家 5 月 28 日音尘,英伟达猜度团队本周发布开源框架 Polar,在不遏止原有器具调用、迤逦文组织和补丁提交形式的前提下,让 Codex、Claude Code、Qwen Code 等现存智能体框架接入 GRPO(广义相对战术优化)测验。

IT 之家注:GRPO 是一种面向强化学习测验的优化方法,会依据奖励信号调养模子战术,让模子在多步方案任务里学会更优动作。
本文里,GRPO 主要用于代码智能体测验,让模子在实在器具调用和补丁提交过程中捏续校正进展。
论文指出智能体强化学习正从单步任务转向长过程任务,比如代码仓库修改、浏览器操作和操作系统交互。这类任务常常依赖现成奉行框架,包含多轮调用、器具使用、迤逦文压缩和子智能体配合。
现存难点在于,这些框架很难平直改写成传统强化学习环境接口,一朝强行接入,还可能丢失重要测验信号。
英伟达 Polar 并非重写智能体框架,聚焦在模子 API 范畴摈弃智能体,基本不改革原有 harness。
harness 指 Codex CLI、Claude Code、Qwen Code、Pi 这类智能体运行外壳。传统强化学习基础设施频繁条款把这类逻辑改写到肖似 env.init ( ) 、env.step ( ) 、env.reset ( ) 的环境接口里,接入老本高,开云体育还可能丢失原生奉行细节。

Polar 的中枢贪图,是把智能体与模子之间的接口算作测验范畴,而不是把奉行框架本人改变成环境。
它在奉行框架和推理做事器之间摈弃模子智能体,兼容 Anthropic、OpenAI、Google 作风申请,转发申请时纪录教导词、采样 Token、对数概率和反映骨子,再把这些信息重建成可供测验器破钞的轨迹。
在系统结构上,Polar 由 rollout server 和 gateway node 构成。前者负包袱务提交、会话转机、景况捏久化和回调接收;后者崇拜会话奉行全生命周期,包括运行时启动、奉行框架准备、轨迹构建、步伐评测和资源回收。
论文还把脱手化、运行中、后处治拆到闲散责任池,并诱骗 READY 缓冲区,让运行时预热和评测预热在后台并行,减少长尾任务对 GPU 测验的阻碍。
本质部分聚焦软件工程任务。基于兼并个 Qwen3.5-4B 底座模子,在 Codex、Claude Code、Qwen Code、Pi 4 种代码奉行框架上,Polar 配合 GRPO(组相对战术优化)测验后,在 SWE-Bench Verified 的 pass@1 分数分离从 3.8% 普及到 26.4%(增涨 594.74%)、29.8% 普及到 34.6%、34.6% 普及到 35.2%、34.2% 普及到 40.4%。
在成果方面,prefix_merging 比较 per_request,把 3 个测验设施中的更新数从 1185 次降到 218 次,墙钟本领从 189.5 分钟假造到 35.2 分钟,约快 5.39 倍;rollout GPU 平均哄骗率也从 20.4% 升到 87.7%。
开云体育官方网站 - KAIYUN(著述为作家闲散不雅点开云体育,不代表艾瑞网态度)