════ 2026.04.24 ════
今日要点
详细内容
ENTRY 001/010
[ OPENAI · GPT-5.5 · LLM · AGENT · 科学研究 ]

GPT-5.5 发布:更省 token 的科研主力,替人证出新 Ramsey 结果

(Introducing GPT-5.5)
4 月 23 日 OpenAI 推出 GPT-5.5(内部代号 "Spud"),距 GPT-5.4 仅 6 周。官方核心主张:"更快更锐的 thinker,更少 token 完成同等任务"——真实响应速度对齐 5.4 但 token 效率显著提升,Codex 场景下同等结果所需 token 进一步降低。能力主轴落在长程 agent:messy / multi-part 任务可自行规划、调用工具、自检、穿越歧义直至完成。科研侧新增 GeneBench(遗传与定量生物学多阶段分析)大幅领先 5.4;内部 harness 让 5.5 证得一条 off-diagonal Ramsey 数渐近结果并通过 Lean 形式化验证。Plus/Pro/Business/Enterprise 当日在 ChatGPT 与 Codex 推送,API "very soon",Pro 变体独立开放。BNY CIO 评价其幻觉抵抗力对高监管场景有"真正重要"的改善。

GPT-5.5 最该被认真读的不是"又一个更聪明的模型",而是 OpenAI 公开宣传里第一次把"模型参与数学研究并拿到可验证新结果"作为主卖点。过去 frontier model 发布通常强调 MMLU/AIME/GPQA 这类基准分数,5.5 的叙事被刻意推到了更高层——Ramsey 数是组合数学里几十年才前进一步的核心对象,off-diagonal 渐近结果被 Lean 形式化验证意味着"这条证明已经不是社交媒体级炫技,而是数学社区能接受的投稿形态"。和 4/17 Google Gemini 在 STOC 2026 做自动反馈、4/18 Dive into Claude Code 综述把 agent 抽象为 interface engineering 放在一起,"模型作为研究协作者"在 2026 年春天已经从演示进入产出阶段。

第二条值得注意的主线是"更贵但更省 token"。5.4 之后社区最大的抱怨是 agent 工作流的 token 费用曲线——跑一轮 Codex long-horizon 任务的边际成本接近初级工程师小时费。5.5 的定价策略是把单 token 单价抬高但总 token 用量压低,本质是"更少步数、更少反刍、更少自我修正"。这和 4/19 简报报道的 Atropos(trace-based 动态升级模型路由)走的是同一条经济学:frontier model 的真实成本由"完成一次任务所需 token × 单价"决定,不是单价本身。对企业用户,5.5 的 Codex 场景定价反而更友好,这是给 4 月初 Claude Opus 4.7 的一次明确反击。

第三个需要平衡看待的点:5.5 当前不直接开放 API,Anthropic 发布 Mythos 后 OpenAI 明确表态"cyber 能力需要不同安全栈",与 4/17 Trusted Access for Cyber 的生态策略一脉相承。所以 API 上的 5.5 会延迟到 cyber 防护被 productized 之后——意味着自建 agent 栈的团队近期仍需以 5.4 为基线,同时关注 5.5 API 发布时是否会附带新的使用限制。

ENTRY 002/010
[ 开源 · LLM · AGENT · KIMI · LONG-HORIZON ]

Kimi K2.6 开源:1T MoE + 300 sub-agent 并行 + 12 小时自主执行

(Kimi K2.6 Technical Report)
4 月 20 日 Moonshot AI 开源 Kimi K2.6:1T 参数 MoE,32B 激活 / token,256K 上下文,Modified MIT 许可。核心能力为 long-horizon execution——单次任务可持续 4,000+ 工具调用、12+ 小时无人干预,跨 Rust/Go/Python 稳定泛化。Agent Swarm 架构原生支持 300 并行 sub-agent 跨 4,000 协调步不丢线。基准:SWE-Bench Pro 58.6(vs. GPT-5.4 xhigh 57.7、Claude Opus 4.6 max 53.4、Gemini 3.1 Pro thinking-high 54.2),SWE-Bench Verified 80.2,Terminal-Bench 2.0 66.7(与 Opus 4.6 持平),LiveCodeBench v6 89.6。HLE-Full 带工具 54.0 全表第一。HF、Ollama、Kimi Code CLI、Kilo Code、Tencent CodeBuddy 等全线 day-1 接入。

K2.6 是继 4/17 Qwen3.6-35B-A3B 之后,中国开源模型在 2026 年春天第二个真正意义上"打到 frontier 价位档"的模型——而且是主攻 agent + coding 的纯工程栈。1T 总参数、32B 激活、256K 上下文的配置在开源世界基本对标 GPT-5.4 xhigh / Claude Opus 4.6 max,但放在 Modified MIT 下意味着任何公司都能拉回私有集群跑,对比 GPT-5.5 API 延迟、Opus 4.7 $200+/月的订阅墙,成本结构完全不同。SWE-Bench Pro 58.6 超过 GPT-5.4 xhigh 的 57.7 这条数字本身不是突破性差距,但"开源第一次在实战 coding 基准上超过闭源最强"这件事对选型会议的影响远大于数字本身。

技术上最值得注意的是 Agent Swarm 的 4,000 步不丢线。Berkeley 4/13 RDI 明确指出主流 agent 基准在 50 步以内就会被利用漏洞、TESSY 4/18 揭示 reasoning 蒸馏的风格坍塌、4/19 RLVR Reward Hacking 指出 verifier 本身被 exploit——在这条"长程 agent 现实上非常脆弱"的背景下,K2.6 能给出 12+ 小时自主执行的案例(Zig 写本地 LLM 推理把吞吐从 15 推到 193 tokens/s、8 年老金融撮合引擎改 4,000 行拿到 185% 吞吐)是把"长程"从 demo 推到可复现标尺的尝试。配套的 Claw Groups research preview 把 sub-agent 设计成"不同设备、不同模型、不同 skill/memory 的异构协作者",与 4/19 Cloudflare Agent Memory 把记忆做成基础设施的路线并列,指向同一件事:多 agent 协作的底层规范正在从业务代码下沉到运行时。

对选型团队,K2.6 的现实位置:如果是研究 / 数学 / 单题深度场景,GPT-5.4 / Gemini 3.1 Pro 仍更稳;如果是12 小时级的代码工程任务,K2.6 已经是目前性价比最高、且可完全私有部署的选项。结合 4/17 Qwen3.6-35B-A3B 的多模态 coding 能力,开源侧在 "agent-first coding" 这条赛道已经形成完整的小/中/大三档梯队,闭源厂商必须用非模型能力(托管 runtime、合规、安全 gating)建立新护城河。

ENTRY 003/010
[ 开源 · QWEN · DENSE · CODING · LLM ]

Qwen3.6-27B:27B 稠密模型声称 "全面超过 397B MoE" 的编码表现

(Qwen3.6-27B: Flagship-Level Coding in a 27B Dense Model)
4 月 21 日 Qwen 团队发布 Qwen3.6-27B,27B 参数稠密(非 MoE)多模态 image-text-to-text 模型,Apache 2.0。官方声明"主要 coding 基准上全面超过 Qwen3.5-397B-A17B"——也就是用 27B dense 取代此前 17B 激活量的 397B MoE。发布后 HN 948 分,unsloth/Qwen3.6-27B-GGUF 48 小时下载 13 万次,Qwen3.6-27B-FP8 另计 3.9 万。与 4/17 Qwen3.6-35B-A3B 形成 "dense + MoE" 双产品线。

27B dense 打 397B MoE 这条比较方式需要小心读:Qwen 团队对比的不是任意基准,而是特定 coding 评测,并且"激活量约等"(27B dense ≈ 单次推理实际计算量,vs. MoE 的 17B active)。这意味着核心说法不是"参数压缩 14 倍仍更强",而是"同等推理 FLOPs 下,dense + 新训练 recipe 超过上代 MoE 在 coding 上的表现"。这条叙事如果成立,对开源 MoE 路线是一次真切的压力——过去 18 个月开源社区一窝蜂做 MoE 就是因为认为"稀疏激活是唯一能追上闭源的 shortcut",Qwen3.6-27B 说明只要数据和训练策略到位,dense 依然有剩余空间。

与 4/17 Qwen3.6-35B-A3B 并列,Qwen 团队现在给出一个明确的 "小 dense / 大 MoE" 双轨:27B dense 面向需要稳定吞吐、简单部署的场景(本地开发、边缘推理、FP8 量化),35B-A3B 面向多模态 agent 场景(10× active size 效能诉求)。对"上游模型栈怎么选"的团队,决策轴从"哪个分数更高"变成"你的瓶颈在吞吐还是在多模态"。结合 HN 热度(948 分、435 条评论)和 unsloth 48 小时 13 万次的 GGUF 下载,社区首选仍是 27B dense——主要原因是 GGUF + llama.cpp 在 MoE 上的支持仍有性能损耗,而 dense 天然友好。

技术细节需要关注两点:(1)image-text-to-text pipeline tag 说明 27B dense 保留多模态输入,不是纯 coder;(2)Qwen3.6-27B-FP8 官方首发量化版同步发布,说明训练阶段已考虑 FP8 鲁棒性。这在 4/17 AMD GAIA、4/19 Driftwood 的 "消费级 GPU / Apple Silicon 本地部署"主线里意义很大——一个 Apache 2.0、FP8 原生、coding 打到 flagship 档的 27B dense 模型,基本是"本地 copilot"场景的新默认基线。

ENTRY 004/010
[ 硬件 · TPU · GOOGLE · 训推分离 · 基础设施 ]

Google 第八代 TPU:TPU 8t / TPU 8i 双芯片面向 Agentic 时代

(Our eighth generation TPUs: two chips for the agentic era)
4 月 23 日 Google 公布第八代 TPU,首次做"训推分离"双芯片产品线。TPU 8t(训练):单 superpod 9,600 片,121 ExaFlops,2PB 共享 HBM,per-pod 算力较 Ironwood 近 3×。TPU 8i(推理):288GB HBM + 384MB on-chip SRAM(前代 3×),19.2Tb/s 互联,单 pod 1,152 片,性价比 +80%、同成本吞吐近 2×。双芯片能效均 2× Ironwood。目标工作负载明确:agent 推理、多 agent 编排、frontier model 训练、latency-sensitive 复杂推理。今年内 GA。

TPU v8 最重要的架构决策是"训推分离"——Google 首次对外公开把训练与推理拆成两个物理不同的芯片 SKU(而不是只做 scheduling/partition 上的区分)。这背后的逻辑在 2026 年春天已经非常清晰:agent 工作负载让推理 pipeline 的特征和训练完全错开——推理更吃 HBM 带宽、更吃小 batch 低延迟、更吃跨机互联以支撑 multi-agent 编排;训练仍然追求 peak FLOPs 和巨 batch 效率。v7 Ironwood 还在做 "通用芯片既训也推",v8 已经承认这是个伪经济学问题。TPU 8i 的 288GB HBM + 19.2Tb/s 是直接对标 NVIDIA B200 / GB300 互联,但用在推理场景——这也是为什么这次发布和"agentic era"同框,而不是和 Gemini 4 同框。

对 AI 基础设施经济学的冲击:8i 性价比 +80% 意味着 2026 下半年 Google Cloud 的 agent 推理单价会有一次明显下降——这和 GPT-5.5 "更省 token"、K2.6 "开源可私有部署"叠加,会把 agent 的单位任务成本曲线从 2026 上半年的恐慌式上涨(4/18 Toby Ord 讨论)拉回一个更温和的区间。但需要注意:"同成本吞吐 2×" 是 Google 自家对比 Ironwood 的数字,与 NVIDIA Vera Rubin(预计 2026 下半年)的正面比较要等独立 benchmark。

对企业工程栈最现实的影响是 Gemini 3.1 Pro / Gemini Embedding 2 GA(今日同步推送,100+ 语言多模态)如果在 8i 上原生部署,延迟、吞吐、价格都会同步改观——这解释了 Google 为什么选择这一周把 TPU v8、Gemini 3.1 Pro、Gemma 4、Lyria 3、Embedding 2 GA 打包推出:是一次"硬件 × 模型 × 生态"同时刷新的节奏,意在向刚发 GPT-5.5 的 OpenAI 宣示基础设施纵深。

ENTRY 005/010
[ 论文 · 扩散语言模型 · 多模态 · 开源 · 生成模型 ]

inclusionAI LLaDA2.0-Uni:16B 扩散-LM 统一多模态理解与生成

(LLaDA 2.0 Universal)
4 月 22 日 AGI Research Center / Inclusion AI 发布 LLaDA2.0-Uni,16B dLLM-MoE 骨架(1B 激活/token),用 Mask Token Prediction 单一目标同时支持多模态理解与生成。三件套:Unified dLLM-MoE 主干 + SigLIP-VQ 离散语义 tokenizer + 专用扩散解码器(50-step ODE 或 8-step distilled turbo,约 10× 加速)。能力:text→image、VQA/caption、image editing、交错生成推理。配套 SPRINT 加速(KV cache + 重要性剪枝 + 自适应 unmasking + 0.93 batch accept 阈值),以及可选 "thinking" 模式(32 步内部推理)。

LLaDA 系列是 2025 年扩散语言模型(Diffusion LM)路线里最积极的一支。2.0-Uni 的核心技术贡献是"单目标统一"——所有模态(文本、图像 token、交错多模态)都用 Mask Token Prediction 训练,不再像 2024 年的混合栈那样"文本用 AR、图像用 diffusion、多模态靠 cross-attention 缝合"。这和 4/18 OpenBMB VoxCPM2 选择"tokenizer-free 连续表征 + 扩散-AR 混合"形成有趣对照:两者都在挑战"AR 是唯一主干"的共识,但切入方向完全不同——VoxCPM2 去离散化,LLaDA2.0 反向极端推 token 化但把去噪目标统一。对正在做多模态基础模型的团队,这两条路线定义了未来两年的主要假设空间。

最具工程意义的是 decoder-turbo:50 步 ODE 蒸馏到 8 步,约 10× 推理加速。这解决了扩散 LM 路线最大的短板——推理步数太多。过去 open-source diffusion LM 的现实部署障碍是"每次响应都要跑几十步",8 步后延迟已经逼近 AR 单 token 生成成本。配合 SPRINT 的 KV cache 复用和自适应 unmask,实际端到端吞吐进入可用区间。思考模式(32 内部步)也值得关注——这是扩散 LM 首次把 "reasoning budget" 参数化到生成过程里,和 AR 模型的 thinking tokens 形成同构概念。

需要冷静看的点:16B / 1B active 的规模仍不足以和 Qwen3.6-27B / K2.6 正面比较 reasoning,而 47GB 生成所需显存门槛也比同等级 AR 模型高。当前定位更像"研究基础设施"——把扩散 LM 的可行性边界推到更靠近产品的位置,但"扩散 LM 取代 AR" 仍是一个需要多轮迭代才能解答的假设。

ENTRY 006/010
[ GOOGLE · GEMINI · GEMMA · OPENAI · AGENT · 多模态 ]

Moonshot Kimi K2.6 + Google TPU v8 双周:基础栈全面刷新

(Gemini Enterprise Agent Platform Launch)
配合 TPU v8,Google 同周推送 Gemini 3.1 Pro、Gemini 3.1 Flash Image、Lyria 3(音频生成)、Gemma 4(开源权重)和 Gemini Embedding 2 GA(文本/图像/视频/音频/文档,100+ 语言)——全部挂在新的 Gemini Enterprise Agent Platform 下。OpenAI 同步开启 Workspace Agents research preview,在 ChatGPT 内提供跨团队共享 agent,Business/Enterprise/Edu/Teachers 可用。

这不是单独一条消息,而是把 4/23 这一天的所有"生态级更新"打包看的视角。Google 的节奏是"硬件(TPU v8)+ 前沿模型(Gemini 3.1 Pro)+ 多模态能力(Embedding 2 GA、Lyria 3、Flash Image)+ 开源权重(Gemma 4)"同时发布,内部把它们统一到 Gemini Enterprise Agent Platform 的产品 SKU 下。这个打包方式的战略意图是把"企业 agent"从 API 级产品抬到"平台级产品"——销售侧面对 CIO 不再是"用 Gemini 3.1 Pro API",而是"接入 Gemini Enterprise Agent Platform",硬件、模型、编排、嵌入全是平台能力。

OpenAI 的 Workspace Agents 是更直接的对位回应:把 agent 从单人订阅抬到"团队共享 agent"——意味着一个 agent 可以跨多个 Business/Enterprise 成员执行任务并保持状态。这条产品线的实际技术挑战是多用户一致性、权限边界、audit 审计,而不是模型能力——换句话说,OpenAI 和 Google 都在承认"单模型能力已经不是差异化主轴,团队级 agent runtime 才是"。对正在选型企业 AI 栈的团队,4/23 这一周的信号非常清晰:如果你的使用场景已经进入"多人共享 agent + 跨工具执行" 阶段,这两家都在推可直接试的产品而不是需要自建的 SDK,决策重心应该从"哪家模型更强"转向"哪家团队 agent 产品更适合我的权限和合规要求"。

值得单独标记的是 Gemma 4:如果它维持 Gemma 系列的 Apache-class 开源许可并在同等规模下与 Qwen3.6-27B 正面比较,开源 base model 格局会继续紧绷。目前尚未见到独立 benchmark,但"Gemini 3.1 Pro 同家族的开源分支"这个身份本身就给它开局门槛。

ENTRY 007/010
[ 论文 · AGENT · MCP · 上下文优化 · 工具调用 ]

Tool Attention Is All You Need:MCP tool token 从 47.3k 压到 2.4k

(Tool Attention Is All You Need)
针对 MCP(Model Context Protocol)在 agent 场景下的 schema 膨胀问题,提出 middleware 层动态 tool gating + lazy schema loading。核心发现:一次 agent 回合注入到 context 的 tool schema 中位数为 47.3k tokens,95% 的 schema 对当前意图无关。论文提出 intent-aware schema selection 后每轮 tool token 降到 2.4k(约 -95%),同时保持工具调用召回率。

这篇论文定位到了 agent 成本曲线的一个被长期忽视的黑洞:tool schema 本身。现实部署里,一个接入了 50+ MCP server(Gmail、GitHub、Slack、Figma、数据库…)的 agent,每轮请求仅仅把所有工具的 JSON Schema 序列化进 system prompt 就能吃掉 40-60k token——而模型大概率只用其中 1-2 个工具。这 95% 的开销在 Opus 4.7 / GPT-5.4 这种按 token 计费的 frontier 模型上直接等于 agent 单次任务成本的 30-50%(MCP 用户反复在 HN 讨论过这个问题)。

Tool Attention 的方案是"两级门控":第一级基于用户 intent 判断候选工具子集,第二级 lazy 加载 schema——只把候选工具的完整签名送入 context,其他仅保留工具名和一句话描述。这和 4/19 Cloudflare Agent Memory 把"长程记忆"下沉到基础设施、4/18 OpenAI Agents SDK v0.14 把 tool origin metadata 加入 SDK 是同一条主线:agent 运行时正在从"把所有东西塞进 context"演化为"把 context 本身作为需要优化的资源"。与今天 GPT-5.5 "更省 token" 的叙事叠加,token 效率的优化维度在 2026 年春天已经铺开到模型、推理、路由、schema 四层。

对正在自建 MCP-based agent 的团队,这是可以立即复用的工程路径——不需要等厂商把它做进 SDK。关键实现点:(1)intent classifier 可以用 7B 级小模型在每轮前置跑一次;(2)schema cache 按 tool × intent 构建,热点工具直接内联;(3)召回率要做 held-out 评估,避免小模型漏选导致 agent 主模型无法调用所需工具。

ENTRY 008/010
[ 世界模型 · 交互 · 多模态 · 物理仿真 ]

Odyssey-2 Max:实时交互世界模型主打"物理一致性"

(Odyssey-2 Max)
4/23 Odyssey 团队发布 Odyssey-2 Max,定位为 "state-of-the-art physical accuracy" 的实时交互式世界模型,主打在实时条件下模拟真实世界交互的物理正确性。和 4/16 腾讯 HY-World 2.0、4/18 NVIDIA Lyra 2.0 的"单图→可游走 3D 世界"路径不同,Odyssey-2 Max 把重心放在"实时 + 物理一致性"而非"资产化输出"。

2026 年春天有三条"世界模型"路线正在并行演进:腾讯 HY-World 2.0 / NVIDIA Lyra 2.0 走"场景资产化"(输出 3DGS + mesh 给 Isaac Sim 等仿真器吃),Odyssey-2 Max 走"实时交互物理"(模型本身就是仿真器),Physical Intelligence π0.7(4/17)走"具身策略基础模型"(世界模型隐式编码在 policy 里)。这三条路线在"输出 / 计算 / 用途"三个维度各占一角——对机器人、游戏、XR、数字孪生场景的团队,选型不再是"用哪个世界模型",而是"用哪条 paradigm"。

Odyssey-2 Max 的物理一致性叙事回应了一个具体痛点:交互式 3D 生成的最大问题是"看起来像、摸起来不对"——物体碰撞穿模、重力异常、液体反直觉。如果能在实时帧率下稳定维持物理正确,那么游戏 NPC、VR 训练场、机器人模拟训练的数据侧会发生结构性变化:不再需要用昂贵物理引擎做 ground truth 再把 AI 当视觉层,而可以直接用 AI 做完整闭环。但"物理一致性"当前没有公认量化基准,AnimationBench(4/18)也只是角色动画维度,需要等更多第三方评测验证官方叙事。

ENTRY 009/010
[ 开源 · AGENT · ML工作流 · HUGGINGFACE · 自主研究 ]

HuggingFace ml-intern:读论文 / 训模型 / 部署的全自动 ML 工程师

(ml-intern)
HuggingFace 内部孵化的 autonomous ML engineer agent,能力涵盖读论文 / 研究 ML 主题 / 训练模型 / 部署。架构:Agentic loop with ContextManager + ToolRouter + Session,通过 litellm.acompletion() 接多模型,最大 300 iteration/session,170k token 触发 auto-compaction。集成 HF docs / repos / datasets / papers / GitHub 代码搜索;MCP server 框架;带 doom loop 检测与敏感操作审批。Python 70% + TypeScript 30%,uv 包管理,CLI 从任意目录启动。

ml-intern 和 4/18 DeepTutor、4/19 DeerFlow 2.0 放在一起看,"垂直领域 autonomous agent harness"在 2026 年春天已经形成明确产品形态——不再是通用 agent 框架,而是围绕具体工作流(学习、研究、ML 工程)做深度整合。ml-intern 最具差异性的设计是"与 HF ecosystem 深度绑定":工具面不是泛化的"读网页 / 写代码 / 跑命令",而是 HuggingFace docs、papers、datasets、repos 作为一等公民工具——这让 ML 研究这一特定任务的召回率大幅优于通用 agent。这也是 4/17 Google Android CLI + Skills + Knowledge Base 的同一思路:"给 agent 提供窄而稳的 action surface"比"给它更强的 base model"更能决定落地可靠性。

170k token auto-compaction + doom loop 检测是两个工程细节值得学习:前者是 long-horizon agent 最常翻车的点(context 突破模型限制后静默失败),后者针对 RDI / RLVR 反复揭示的"agent 在失败后会在同一工具上无限重试"失效模式。对正在自建 agent 框架的团队,这两条是可以直接复刻的工程路径。

ml-intern 目前仍在 active development(370 commits、9 贡献者、无 formal release),说明这是 HF 的"边开发边开源"项目——和 DeerFlow 2.0 的完全重写、OpenAI Agents SDK v0.14 的密集迭代节奏一致。这条"公开 main 分支 + 频繁 breaking change" 的发布节奏在 2026 年春天已成 agent 项目常态,对用户意味着"可复用代码"比"稳定接口"价值更高,锁定版本 hash 是选型必做动作。

ENTRY 010/010
[ AGENT · 安全 · 沙盒 · MICROVM · 开源 ]

Tier-B:超常规 agent 基础设施工具链

把 Claude Code / Codex / Aider 等 coding agent 的执行环境从 host 机器搬到 Firecracker microVM,每个 agent session 独立 VM(cold boot 毫秒级),工具调用、文件系统、网络全部隔离。核心卖点:coding agent 执行任意命令的安全风险 → VM 隔离;session 状态可 snapshot / 跨机迁移。

coding agent 的安全范式在过去一年经历了三轮演化:容器(慢、重)→ Docker exec(快但隔离差)→ microVM(快且隔离强)。superhq 选 Firecracker 是因为 AWS Lambda 已经在生产验证了"毫秒级 VM 启动 + 强隔离"的可行性。和 4/18 OpenAI Agents SDK v0.14 的 "containerized execution"、4/19 Driftwood 的 "WASM 沙盒 + Metal GPU" 形成 1/2/3 档隔离阶梯:WASM 最轻(ms 启动 + 能力限制)、microVM 中等(ms 启动 + kernel 隔离)、container 最重(s 启动 + namespace 隔离)。不同 agent 风险等级对应不同沙盒档位——这个选择将会成为 2026 下半年 agent 产品的默认设计决策。

这和 superhq 是同一主题的两个侧面——agent 安全栈正在从"隔离执行环境"扩展到"隔离凭据边界"。与 4/13 Berkeley RDI、4/19 Route to Rome Attack 揭示的 "prompt injection / adversarial suffix 劫持 agent" 场景直接对接:凭据不落到 agent context,即使 injection 成功,攻击者最多让 agent 触发 vault 代理的外部调用,而 vault 的速率限制和权限策略可以 catch 异常。对正在部署面向客户的 agent 产品的团队,这类 "credential proxy" 应该成为默认架构,而不是事后补丁。

其他值得关注