一日三饭 | HARNESS

← /harness

════ 2026.04.24 ════

今日要点

> OpenAI 发布 GPT-5.5（Codename "Spud"）：距 GPT-5.4 仅 6 周，内嵌科研自主循环，通过定制 harness 证得 off-diagonal Ramsey 数的渐近新结果并由 Lean 验证；GeneBench 多阶段基因数据分析大幅超越 5.4，推理更便宜但定价更高。
> Moonshot Kimi K2.6 开源：1T MoE / 32B 激活 / 256K 上下文，可稳定跑 4,000+ 工具调用 12 小时、并行 300 sub-agent；SWE-Bench Pro 58.6 反超 GPT-5.4 (xhigh) 57.7 与 Claude Opus 4.6 (max) 53.4，HLE-Full 带工具 54.0 全线第一。
> 阿里 Qwen3.6-27B 开源 dense 模型：27B 稠密，Apache 2.0，官方声明 "在主要 coding 基准上全面超过 Qwen3.5-397B-A17B"——十倍激活效率在 4/17 的 35B-A3B MoE 之后再下一城，HN 948 分。
> Google TPU v8 双芯片：TPU 8t 121 EF 训练超 pod（9,600 片）+ TPU 8i 288GB HBM / 19.2Tb/s 互联推理芯片（1,152 片 / pod），能效 2×、性价比 +80%，年内 GA。
> inclusionAI LLaDA2.0-Uni：16B dLLM-MoE / 1B 激活，Mask Token Prediction 统一多模态理解与生成，扩散解码器经蒸馏后 8 步出图——首次把"离散扩散 + 连续扩散解码"在统一骨架上跑通。

详细内容

ENTRY 001/010

[ OPENAI · GPT-5.5 · LLM · AGENT · 科学研究 ]

GPT-5.5 发布：更省 token 的科研主力，替人证出新 Ramsey 结果

(Introducing GPT-5.5)

→ OpenAI · → TechCrunch

4 月 23 日 OpenAI 推出 GPT-5.5（内部代号 "Spud"），距 GPT-5.4 仅 6 周。官方核心主张："更快更锐的 thinker，更少 token 完成同等任务"——真实响应速度对齐 5.4 但 token 效率显著提升，Codex 场景下同等结果所需 token 进一步降低。能力主轴落在长程 agent：messy / multi-part 任务可自行规划、调用工具、自检、穿越歧义直至完成。科研侧新增 GeneBench（遗传与定量生物学多阶段分析）大幅领先 5.4；内部 harness 让 5.5 证得一条 off-diagonal Ramsey 数渐近结果并通过 Lean 形式化验证。Plus/Pro/Business/Enterprise 当日在 ChatGPT 与 Codex 推送，API "very soon"，Pro 变体独立开放。BNY CIO 评价其幻觉抵抗力对高监管场景有"真正重要"的改善。

GPT-5.5 最该被认真读的不是"又一个更聪明的模型"，而是 OpenAI 公开宣传里第一次把"模型参与数学研究并拿到可验证新结果"作为主卖点。过去 frontier model 发布通常强调 MMLU/AIME/GPQA 这类基准分数，5.5 的叙事被刻意推到了更高层——Ramsey 数是组合数学里几十年才前进一步的核心对象，off-diagonal 渐近结果被 Lean 形式化验证意味着"这条证明已经不是社交媒体级炫技，而是数学社区能接受的投稿形态"。和 4/17 Google Gemini 在 STOC 2026 做自动反馈、4/18 Dive into Claude Code 综述把 agent 抽象为 interface engineering 放在一起，"模型作为研究协作者"在 2026 年春天已经从演示进入产出阶段。

第二条值得注意的主线是"更贵但更省 token"。5.4 之后社区最大的抱怨是 agent 工作流的 token 费用曲线——跑一轮 Codex long-horizon 任务的边际成本接近初级工程师小时费。5.5 的定价策略是把单 token 单价抬高但总 token 用量压低，本质是"更少步数、更少反刍、更少自我修正"。这和 4/19 简报报道的 Atropos（trace-based 动态升级模型路由）走的是同一条经济学：frontier model 的真实成本由"完成一次任务所需 token × 单价"决定，不是单价本身。对企业用户，5.5 的 Codex 场景定价反而更友好，这是给 4 月初 Claude Opus 4.7 的一次明确反击。

第三个需要平衡看待的点：5.5 当前不直接开放 API，Anthropic 发布 Mythos 后 OpenAI 明确表态"cyber 能力需要不同安全栈"，与 4/17 Trusted Access for Cyber 的生态策略一脉相承。所以 API 上的 5.5 会延迟到 cyber 防护被 productized 之后——意味着自建 agent 栈的团队近期仍需以 5.4 为基线，同时关注 5.5 API 发布时是否会附带新的使用限制。

ENTRY 002/010

[ 开源 · LLM · AGENT · KIMI · LONG-HORIZON ]

Kimi K2.6 开源：1T MoE + 300 sub-agent 并行 + 12 小时自主执行

(Kimi K2.6 Technical Report)

→ Kimi Blog · → MarkTechPost

4 月 20 日 Moonshot AI 开源 Kimi K2.6：1T 参数 MoE，32B 激活 / token，256K 上下文，Modified MIT 许可。核心能力为 long-horizon execution——单次任务可持续 4,000+ 工具调用、12+ 小时无人干预，跨 Rust/Go/Python 稳定泛化。Agent Swarm 架构原生支持 300 并行 sub-agent 跨 4,000 协调步不丢线。基准：SWE-Bench Pro 58.6（vs. GPT-5.4 xhigh 57.7、Claude Opus 4.6 max 53.4、Gemini 3.1 Pro thinking-high 54.2），SWE-Bench Verified 80.2，Terminal-Bench 2.0 66.7（与 Opus 4.6 持平），LiveCodeBench v6 89.6。HLE-Full 带工具 54.0 全表第一。HF、Ollama、Kimi Code CLI、Kilo Code、Tencent CodeBuddy 等全线 day-1 接入。

K2.6 是继 4/17 Qwen3.6-35B-A3B 之后，中国开源模型在 2026 年春天第二个真正意义上"打到 frontier 价位档"的模型——而且是主攻 agent + coding 的纯工程栈。1T 总参数、32B 激活、256K 上下文的配置在开源世界基本对标 GPT-5.4 xhigh / Claude Opus 4.6 max，但放在 Modified MIT 下意味着任何公司都能拉回私有集群跑，对比 GPT-5.5 API 延迟、Opus 4.7 $200+/月的订阅墙，成本结构完全不同。SWE-Bench Pro 58.6 超过 GPT-5.4 xhigh 的 57.7 这条数字本身不是突破性差距，但"开源第一次在实战 coding 基准上超过闭源最强"这件事对选型会议的影响远大于数字本身。

技术上最值得注意的是 Agent Swarm 的 4,000 步不丢线。Berkeley 4/13 RDI 明确指出主流 agent 基准在 50 步以内就会被利用漏洞、TESSY 4/18 揭示 reasoning 蒸馏的风格坍塌、4/19 RLVR Reward Hacking 指出 verifier 本身被 exploit——在这条"长程 agent 现实上非常脆弱"的背景下，K2.6 能给出 12+ 小时自主执行的案例（Zig 写本地 LLM 推理把吞吐从 15 推到 193 tokens/s、8 年老金融撮合引擎改 4,000 行拿到 185% 吞吐）是把"长程"从 demo 推到可复现标尺的尝试。配套的 Claw Groups research preview 把 sub-agent 设计成"不同设备、不同模型、不同 skill/memory 的异构协作者"，与 4/19 Cloudflare Agent Memory 把记忆做成基础设施的路线并列，指向同一件事：多 agent 协作的底层规范正在从业务代码下沉到运行时。

对选型团队，K2.6 的现实位置：如果是研究 / 数学 / 单题深度场景，GPT-5.4 / Gemini 3.1 Pro 仍更稳；如果是12 小时级的代码工程任务，K2.6 已经是目前性价比最高、且可完全私有部署的选项。结合 4/17 Qwen3.6-35B-A3B 的多模态 coding 能力，开源侧在 "agent-first coding" 这条赛道已经形成完整的小/中/大三档梯队，闭源厂商必须用非模型能力（托管 runtime、合规、安全 gating）建立新护城河。

ENTRY 003/010

[ 开源 · QWEN · DENSE · CODING · LLM ]

Qwen3.6-27B：27B 稠密模型声称 "全面超过 397B MoE" 的编码表现

(Qwen3.6-27B: Flagship-Level Coding in a 27B Dense Model)

→ HN · → HF · → unsloth GGUF

4 月 21 日 Qwen 团队发布 Qwen3.6-27B，27B 参数稠密（非 MoE）多模态 image-text-to-text 模型，Apache 2.0。官方声明"主要 coding 基准上全面超过 Qwen3.5-397B-A17B"——也就是用 27B dense 取代此前 17B 激活量的 397B MoE。发布后 HN 948 分，unsloth/Qwen3.6-27B-GGUF 48 小时下载 13 万次，Qwen3.6-27B-FP8 另计 3.9 万。与 4/17 Qwen3.6-35B-A3B 形成 "dense + MoE" 双产品线。

27B dense 打 397B MoE 这条比较方式需要小心读：Qwen 团队对比的不是任意基准，而是特定 coding 评测，并且"激活量约等"（27B dense ≈ 单次推理实际计算量，vs. MoE 的 17B active）。这意味着核心说法不是"参数压缩 14 倍仍更强"，而是"同等推理 FLOPs 下，dense + 新训练 recipe 超过上代 MoE 在 coding 上的表现"。这条叙事如果成立，对开源 MoE 路线是一次真切的压力——过去 18 个月开源社区一窝蜂做 MoE 就是因为认为"稀疏激活是唯一能追上闭源的 shortcut"，Qwen3.6-27B 说明只要数据和训练策略到位，dense 依然有剩余空间。

与 4/17 Qwen3.6-35B-A3B 并列，Qwen 团队现在给出一个明确的 "小 dense / 大 MoE" 双轨：27B dense 面向需要稳定吞吐、简单部署的场景（本地开发、边缘推理、FP8 量化），35B-A3B 面向多模态 agent 场景（10× active size 效能诉求）。对"上游模型栈怎么选"的团队，决策轴从"哪个分数更高"变成"你的瓶颈在吞吐还是在多模态"。结合 HN 热度（948 分、435 条评论）和 unsloth 48 小时 13 万次的 GGUF 下载，社区首选仍是 27B dense——主要原因是 GGUF + llama.cpp 在 MoE 上的支持仍有性能损耗，而 dense 天然友好。

技术细节需要关注两点：（1）image-text-to-text pipeline tag 说明 27B dense 保留多模态输入，不是纯 coder；（2）Qwen3.6-27B-FP8 官方首发量化版同步发布，说明训练阶段已考虑 FP8 鲁棒性。这在 4/17 AMD GAIA、4/19 Driftwood 的 "消费级 GPU / Apple Silicon 本地部署"主线里意义很大——一个 Apache 2.0、FP8 原生、coding 打到 flagship 档的 27B dense 模型，基本是"本地 copilot"场景的新默认基线。

ENTRY 004/010

[ 硬件 · TPU · GOOGLE · 训推分离 · 基础设施 ]

Google 第八代 TPU：TPU 8t / TPU 8i 双芯片面向 Agentic 时代

(Our eighth generation TPUs: two chips for the agentic era)

→ Google Blog · → HN

4 月 23 日 Google 公布第八代 TPU，首次做"训推分离"双芯片产品线。TPU 8t（训练）：单 superpod 9,600 片，121 ExaFlops，2PB 共享 HBM，per-pod 算力较 Ironwood 近 3×。TPU 8i（推理）：288GB HBM + 384MB on-chip SRAM（前代 3×），19.2Tb/s 互联，单 pod 1,152 片，性价比 +80%、同成本吞吐近 2×。双芯片能效均 2× Ironwood。目标工作负载明确：agent 推理、多 agent 编排、frontier model 训练、latency-sensitive 复杂推理。今年内 GA。

TPU v8 最重要的架构决策是"训推分离"——Google 首次对外公开把训练与推理拆成两个物理不同的芯片 SKU（而不是只做 scheduling/partition 上的区分）。这背后的逻辑在 2026 年春天已经非常清晰：agent 工作负载让推理 pipeline 的特征和训练完全错开——推理更吃 HBM 带宽、更吃小 batch 低延迟、更吃跨机互联以支撑 multi-agent 编排；训练仍然追求 peak FLOPs 和巨 batch 效率。v7 Ironwood 还在做 "通用芯片既训也推"，v8 已经承认这是个伪经济学问题。TPU 8i 的 288GB HBM + 19.2Tb/s 是直接对标 NVIDIA B200 / GB300 互联，但用在推理场景——这也是为什么这次发布和"agentic era"同框，而不是和 Gemini 4 同框。

对 AI 基础设施经济学的冲击：8i 性价比 +80% 意味着 2026 下半年 Google Cloud 的 agent 推理单价会有一次明显下降——这和 GPT-5.5 "更省 token"、K2.6 "开源可私有部署"叠加，会把 agent 的单位任务成本曲线从 2026 上半年的恐慌式上涨（4/18 Toby Ord 讨论）拉回一个更温和的区间。但需要注意："同成本吞吐 2×" 是 Google 自家对比 Ironwood 的数字，与 NVIDIA Vera Rubin（预计 2026 下半年）的正面比较要等独立 benchmark。

对企业工程栈最现实的影响是 Gemini 3.1 Pro / Gemini Embedding 2 GA（今日同步推送，100+ 语言多模态）如果在 8i 上原生部署，延迟、吞吐、价格都会同步改观——这解释了 Google 为什么选择这一周把 TPU v8、Gemini 3.1 Pro、Gemma 4、Lyria 3、Embedding 2 GA 打包推出：是一次"硬件 × 模型 × 生态"同时刷新的节奏，意在向刚发 GPT-5.5 的 OpenAI 宣示基础设施纵深。

ENTRY 005/010

[ 论文 · 扩散语言模型 · 多模态 · 开源 · 生成模型 ]

inclusionAI LLaDA2.0-Uni：16B 扩散-LM 统一多模态理解与生成

(LLaDA 2.0 Universal)

→ HuggingFace · → arXiv

4 月 22 日 AGI Research Center / Inclusion AI 发布 LLaDA2.0-Uni，16B dLLM-MoE 骨架（1B 激活/token），用 Mask Token Prediction 单一目标同时支持多模态理解与生成。三件套：Unified dLLM-MoE 主干 + SigLIP-VQ 离散语义 tokenizer + 专用扩散解码器（50-step ODE 或 8-step distilled turbo，约 10× 加速）。能力：text→image、VQA/caption、image editing、交错生成推理。配套 SPRINT 加速（KV cache + 重要性剪枝 + 自适应 unmasking + 0.93 batch accept 阈值），以及可选 "thinking" 模式（32 步内部推理）。

LLaDA 系列是 2025 年扩散语言模型（Diffusion LM）路线里最积极的一支。2.0-Uni 的核心技术贡献是"单目标统一"——所有模态（文本、图像 token、交错多模态）都用 Mask Token Prediction 训练，不再像 2024 年的混合栈那样"文本用 AR、图像用 diffusion、多模态靠 cross-attention 缝合"。这和 4/18 OpenBMB VoxCPM2 选择"tokenizer-free 连续表征 + 扩散-AR 混合"形成有趣对照：两者都在挑战"AR 是唯一主干"的共识，但切入方向完全不同——VoxCPM2 去离散化，LLaDA2.0 反向极端推 token 化但把去噪目标统一。对正在做多模态基础模型的团队，这两条路线定义了未来两年的主要假设空间。

最具工程意义的是 decoder-turbo：50 步 ODE 蒸馏到 8 步，约 10× 推理加速。这解决了扩散 LM 路线最大的短板——推理步数太多。过去 open-source diffusion LM 的现实部署障碍是"每次响应都要跑几十步"，8 步后延迟已经逼近 AR 单 token 生成成本。配合 SPRINT 的 KV cache 复用和自适应 unmask，实际端到端吞吐进入可用区间。思考模式（32 内部步）也值得关注——这是扩散 LM 首次把 "reasoning budget" 参数化到生成过程里，和 AR 模型的 thinking tokens 形成同构概念。

需要冷静看的点：16B / 1B active 的规模仍不足以和 Qwen3.6-27B / K2.6 正面比较 reasoning，而 47GB 生成所需显存门槛也比同等级 AR 模型高。当前定位更像"研究基础设施"——把扩散 LM 的可行性边界推到更靠近产品的位置，但"扩散 LM 取代 AR" 仍是一个需要多轮迭代才能解答的假设。

ENTRY 006/010

[ GOOGLE · GEMINI · GEMMA · OPENAI · AGENT · 多模态 ]

Moonshot Kimi K2.6 + Google TPU v8 双周：基础栈全面刷新

(Gemini Enterprise Agent Platform Launch)

→ AI News 4/23

配合 TPU v8，Google 同周推送 Gemini 3.1 Pro、Gemini 3.1 Flash Image、Lyria 3（音频生成）、Gemma 4（开源权重）和 Gemini Embedding 2 GA（文本/图像/视频/音频/文档，100+ 语言）——全部挂在新的 Gemini Enterprise Agent Platform 下。OpenAI 同步开启 Workspace Agents research preview，在 ChatGPT 内提供跨团队共享 agent，Business/Enterprise/Edu/Teachers 可用。

这不是单独一条消息，而是把 4/23 这一天的所有"生态级更新"打包看的视角。Google 的节奏是"硬件（TPU v8）+ 前沿模型（Gemini 3.1 Pro）+ 多模态能力（Embedding 2 GA、Lyria 3、Flash Image）+ 开源权重（Gemma 4）"同时发布，内部把它们统一到 Gemini Enterprise Agent Platform 的产品 SKU 下。这个打包方式的战略意图是把"企业 agent"从 API 级产品抬到"平台级产品"——销售侧面对 CIO 不再是"用 Gemini 3.1 Pro API"，而是"接入 Gemini Enterprise Agent Platform"，硬件、模型、编排、嵌入全是平台能力。

OpenAI 的 Workspace Agents 是更直接的对位回应：把 agent 从单人订阅抬到"团队共享 agent"——意味着一个 agent 可以跨多个 Business/Enterprise 成员执行任务并保持状态。这条产品线的实际技术挑战是多用户一致性、权限边界、audit 审计，而不是模型能力——换句话说，OpenAI 和 Google 都在承认"单模型能力已经不是差异化主轴，团队级 agent runtime 才是"。对正在选型企业 AI 栈的团队，4/23 这一周的信号非常清晰：如果你的使用场景已经进入"多人共享 agent + 跨工具执行" 阶段，这两家都在推可直接试的产品而不是需要自建的 SDK，决策重心应该从"哪家模型更强"转向"哪家团队 agent 产品更适合我的权限和合规要求"。

值得单独标记的是 Gemma 4：如果它维持 Gemma 系列的 Apache-class 开源许可并在同等规模下与 Qwen3.6-27B 正面比较，开源 base model 格局会继续紧绷。目前尚未见到独立 benchmark，但"Gemini 3.1 Pro 同家族的开源分支"这个身份本身就给它开局门槛。

ENTRY 007/010

[ 论文 · AGENT · MCP · 上下文优化 · 工具调用 ]

Tool Attention Is All You Need：MCP tool token 从 47.3k 压到 2.4k

(Tool Attention Is All You Need)

→ arXiv:2604.21816

针对 MCP（Model Context Protocol）在 agent 场景下的 schema 膨胀问题，提出 middleware 层动态 tool gating + lazy schema loading。核心发现：一次 agent 回合注入到 context 的 tool schema 中位数为 47.3k tokens，95% 的 schema 对当前意图无关。论文提出 intent-aware schema selection 后每轮 tool token 降到 2.4k（约 -95%），同时保持工具调用召回率。

这篇论文定位到了 agent 成本曲线的一个被长期忽视的黑洞：tool schema 本身。现实部署里，一个接入了 50+ MCP server（Gmail、GitHub、Slack、Figma、数据库…）的 agent，每轮请求仅仅把所有工具的 JSON Schema 序列化进 system prompt 就能吃掉 40-60k token——而模型大概率只用其中 1-2 个工具。这 95% 的开销在 Opus 4.7 / GPT-5.4 这种按 token 计费的 frontier 模型上直接等于 agent 单次任务成本的 30-50%（MCP 用户反复在 HN 讨论过这个问题）。

Tool Attention 的方案是"两级门控"：第一级基于用户 intent 判断候选工具子集，第二级 lazy 加载 schema——只把候选工具的完整签名送入 context，其他仅保留工具名和一句话描述。这和 4/19 Cloudflare Agent Memory 把"长程记忆"下沉到基础设施、4/18 OpenAI Agents SDK v0.14 把 tool origin metadata 加入 SDK 是同一条主线：agent 运行时正在从"把所有东西塞进 context"演化为"把 context 本身作为需要优化的资源"。与今天 GPT-5.5 "更省 token" 的叙事叠加，token 效率的优化维度在 2026 年春天已经铺开到模型、推理、路由、schema 四层。

对正在自建 MCP-based agent 的团队，这是可以立即复用的工程路径——不需要等厂商把它做进 SDK。关键实现点：（1）intent classifier 可以用 7B 级小模型在每轮前置跑一次；（2）schema cache 按 tool × intent 构建，热点工具直接内联；（3）召回率要做 held-out 评估，避免小模型漏选导致 agent 主模型无法调用所需工具。

ENTRY 008/010

[ 世界模型 · 交互 · 多模态 · 物理仿真 ]

Odyssey-2 Max：实时交互世界模型主打"物理一致性"

(Odyssey-2 Max)

→ AI News 4/23

4/23 Odyssey 团队发布 Odyssey-2 Max，定位为 "state-of-the-art physical accuracy" 的实时交互式世界模型，主打在实时条件下模拟真实世界交互的物理正确性。和 4/16 腾讯 HY-World 2.0、4/18 NVIDIA Lyra 2.0 的"单图→可游走 3D 世界"路径不同，Odyssey-2 Max 把重心放在"实时 + 物理一致性"而非"资产化输出"。

2026 年春天有三条"世界模型"路线正在并行演进：腾讯 HY-World 2.0 / NVIDIA Lyra 2.0 走"场景资产化"（输出 3DGS + mesh 给 Isaac Sim 等仿真器吃），Odyssey-2 Max 走"实时交互物理"（模型本身就是仿真器），Physical Intelligence π0.7（4/17）走"具身策略基础模型"（世界模型隐式编码在 policy 里）。这三条路线在"输出 / 计算 / 用途"三个维度各占一角——对机器人、游戏、XR、数字孪生场景的团队，选型不再是"用哪个世界模型"，而是"用哪条 paradigm"。

Odyssey-2 Max 的物理一致性叙事回应了一个具体痛点：交互式 3D 生成的最大问题是"看起来像、摸起来不对"——物体碰撞穿模、重力异常、液体反直觉。如果能在实时帧率下稳定维持物理正确，那么游戏 NPC、VR 训练场、机器人模拟训练的数据侧会发生结构性变化：不再需要用昂贵物理引擎做 ground truth 再把 AI 当视觉层，而可以直接用 AI 做完整闭环。但"物理一致性"当前没有公认量化基准，AnimationBench（4/18）也只是角色动画维度，需要等更多第三方评测验证官方叙事。

ENTRY 009/010

[ 开源 · AGENT · ML工作流 · HUGGINGFACE · 自主研究 ]

HuggingFace ml-intern：读论文 / 训模型 / 部署的全自动 ML 工程师

(ml-intern)

→ GitHub

HuggingFace 内部孵化的 autonomous ML engineer agent，能力涵盖读论文 / 研究 ML 主题 / 训练模型 / 部署。架构：Agentic loop with ContextManager + ToolRouter + Session，通过 litellm.acompletion() 接多模型，最大 300 iteration/session，170k token 触发 auto-compaction。集成 HF docs / repos / datasets / papers / GitHub 代码搜索；MCP server 框架；带 doom loop 检测与敏感操作审批。Python 70% + TypeScript 30%，uv 包管理，CLI 从任意目录启动。

ml-intern 和 4/18 DeepTutor、4/19 DeerFlow 2.0 放在一起看，"垂直领域 autonomous agent harness"在 2026 年春天已经形成明确产品形态——不再是通用 agent 框架，而是围绕具体工作流（学习、研究、ML 工程）做深度整合。ml-intern 最具差异性的设计是"与 HF ecosystem 深度绑定"：工具面不是泛化的"读网页 / 写代码 / 跑命令"，而是 HuggingFace docs、papers、datasets、repos 作为一等公民工具——这让 ML 研究这一特定任务的召回率大幅优于通用 agent。这也是 4/17 Google Android CLI + Skills + Knowledge Base 的同一思路："给 agent 提供窄而稳的 action surface"比"给它更强的 base model"更能决定落地可靠性。

170k token auto-compaction + doom loop 检测是两个工程细节值得学习：前者是 long-horizon agent 最常翻车的点（context 突破模型限制后静默失败），后者针对 RDI / RLVR 反复揭示的"agent 在失败后会在同一工具上无限重试"失效模式。对正在自建 agent 框架的团队，这两条是可以直接复刻的工程路径。

ml-intern 目前仍在 active development（370 commits、9 贡献者、无 formal release），说明这是 HF 的"边开发边开源"项目——和 DeerFlow 2.0 的完全重写、OpenAI Agents SDK v0.14 的密集迭代节奏一致。这条"公开 main 分支 + 频繁 breaking change" 的发布节奏在 2026 年春天已成 agent 项目常态，对用户意味着"可复用代码"比"稳定接口"价值更高，锁定版本 hash 是选型必做动作。

ENTRY 010/010

[ AGENT · 安全 · 沙盒 · MICROVM · 开源 ]

Tier-B：超常规 agent 基础设施工具链

→ HN · → GitHub

把 Claude Code / Codex / Aider 等 coding agent 的执行环境从 host 机器搬到 Firecracker microVM，每个 agent session 独立 VM（cold boot 毫秒级），工具调用、文件系统、网络全部隔离。核心卖点：coding agent 执行任意命令的安全风险 → VM 隔离；session 状态可 snapshot / 跨机迁移。

coding agent 的安全范式在过去一年经历了三轮演化：容器（慢、重）→ Docker exec（快但隔离差）→ microVM（快且隔离强）。superhq 选 Firecracker 是因为 AWS Lambda 已经在生产验证了"毫秒级 VM 启动 + 强隔离"的可行性。和 4/18 OpenAI Agents SDK v0.14 的 "containerized execution"、4/19 Driftwood 的 "WASM 沙盒 + Metal GPU" 形成 1/2/3 档隔离阶梯：WASM 最轻（ms 启动 + 能力限制）、microVM 中等（ms 启动 + kernel 隔离）、container 最重（s 启动 + namespace 隔离）。不同 agent 风险等级对应不同沙盒档位——这个选择将会成为 2026 下半年 agent 产品的默认设计决策。

这和 superhq 是同一主题的两个侧面——agent 安全栈正在从"隔离执行环境"扩展到"隔离凭据边界"。与 4/13 Berkeley RDI、4/19 Route to Rome Attack 揭示的 "prompt injection / adversarial suffix 劫持 agent" 场景直接对接：凭据不落到 agent context，即使 injection 成功，攻击者最多让 agent 触发 vault 代理的外部调用，而 vault 的速率限制和权限策略可以 catch 异常。对正在部署面向客户的 agent 产品的团队，这类 "credential proxy" 应该成为默认架构，而不是事后补丁。

其他值得关注

HalluVL-DPO：LVLM 幻觉主要源于过度依赖文本先验，偏好优化回到视觉 grounding (When Prompts Override Vision: Prompt-Induced Hallucinations in LVLMs) — arXiv:2604.21911
GiVA：基于梯度的向量自适应初始化，rank 要求较 LoRA 减少 8× (Gradient-Informed Bases for Vector-Based Adaptation) — arXiv:2604.21901
[From Research Question to Scientific Workflow：基于 Skills 的 agent 把意图准确率从 44% 拉到 83%] — arXiv:2604.21910 — arXiv:2604.21910
Transient Turn Injection：分布式对抗意图让 stateless 多轮 moderation 失效 (Transient Turn Injection) — arXiv:2604.21860
Context Unrolling in Omni Models：跨模态显式推理统一多模态生成 (Context Unrolling in Omni Models) — arXiv:2604.21921
[Low-Rank Adaptation Redux：信号处理视角系统综述 LoRA 与 PEFT] — arXiv:2604.21905 — arXiv:2604.21905
[ASR Evaluation with LLMs：decoder-LLM 语义评估对齐人类 92-94%，远超 WER 的 63%] — arXiv:2604.21928 — arXiv:2604.21928
[HKUDS RAG-Anything 登顶 GitHub Python 日榜（+590/day，18,245 stars）：All-in-One RAG 框架] — GitHub — GitHub
[mnfst/manifest：Smart Model Routing for Personal AI Agents（周榜 +1,221）] — GitHub — GitHub
[Anthropic Claude Code /ultrareview：多 agent 协同 bug-hunting 代码审查，Pro/Max 至 5/5 免费] — AI News — AI News
[Show HN: Tolaria — offline-first Markdown 知识库管理，为 AI 工作流优化（113 pts）] — HN — HN
[Perplexity Research：SFT + RL 两阶段后训练下，Qwen 系底模在 factuality 上平/超 GPT，成本更低] — AI News — AI News
[Anker 自研芯片把 AI 下放到全线产品（HN 67 pts）] — The Verge — The Verge
[Scoring Show HN Submissions for AI Design Patterns（HN 326 pts）] — adriankrebs.ch — adriankrebs.ch
[ArsTechnica 公布新闻编辑室 AI 政策（HN 187 pts）] — ArsTechnica — ArsTechnica
[Meta 员工抗议强制 AI 训练活动采集（HN 115 pts）] — Business Insider — Business Insider
[geohot：Do you want the US to "win" AI?（HN 51 pts）] — geohot blog — geohot blog

← 2026.04.19 2026.04.25 →