一日三饭 | HARNESS

← /harness

════ 2026.04.17 ════

今日要点

> Anthropic 发布 Claude Opus 4.7，在长程 coding、agent workflow、视觉分辨率和 effort control 上同步升级，并首次把 Mythos 级防护下放到更广泛可用模型。
> 阿里开源 Qwen3.6-35B-A3B，以 35B 总参、3B 激活的多模态 MoE 模型冲到 HuggingFace 趋势榜前列，主打“10 倍 active size 的 agentic coding 能力”。
> Physical Intelligence 推出 π0.7，首次较明确展示机器人基础模型的“组合式泛化”苗头：没见过的家电操作、跨机器人洗衣折叠、语言教练式新任务学习。
> 推理与 agent 工程同日密集更新：Cloudflare 把 AI Gateway 推成统一推理层，Google 发布 Android CLI + Skills + Knowledge Base，终端外部 agent 开发开始出现更稳的官方工具面。
> arXiv 4/16 批次亮点集中在评测与系统层：DR3-Eval 试图把 deep research agent 评测静态化、可复现化，Prism 用符号超优化把张量程序加速带到 LLM workload，R3D/GlobalSplat/RAD-2 分别推进机器人 3D policy、前馈 3DGS、闭环自动驾驶 RL。

详细内容

ENTRY 001/010

[ LLM · CLAUDE · AGENT · 编码 · 多模态 · 推理 ]

Claude Opus 4.7 发布：长程编码与视觉能力同步升级

(Introducing Claude Opus 4.7)

→ Anthropic · → HN

Anthropic 于 4 月 16 日正式发布 claude-opus-4-7。官方强调它在高级软件工程、长时间运行任务、指令遵循和高分辨率视觉上均优于 Opus 4.6，并新增 xhigh effort level、任务预算 beta，以及 Claude Code 的 /ultrareview 等配套能力。价格维持不变，仍为每百万输入 token 5 美元、输出 25 美元。

这次升级的重要性不只是“更强一点”，而是 Anthropic 开始把长程 agent 工作流需要的多个约束一起打包处理。模型层面强调长时间任务中的一致性、自校验和更严格的 instruction following，平台层面则补上 xhigh effort、task budget、/ultrareview 这类直接影响真实生产流程的控制面。它更像是把 Claude 从“单次回答更聪明”推进到“多步执行更可控”。

另一个值得注意的点是安全策略。Anthropic 明确把 Opus 4.7 作为 Mythos Preview 之前的“防护试验田”，自动检测并拦截高风险 cyber 请求。这意味着前沿模型发布节奏开始和安全 gating 深度耦合。对开发者来说，未来 frontier model 的可用性不只取决于能力，还取决于厂商能否把对应的使用边界产品化。

ENTRY 002/010

[ 开源 · QWEN · MOE · LLM · 多模态 · AGENT ]

阿里开源 Qwen3.6-35B-A3B：3B 激活的多模态 MoE 前推到开发者主战场

(Qwen3.6-35B-A3B: Agentic coding power, now open to all)

→ HuggingFace · → HN · → AI News

Qwen 团队于 4 月 16 日开源 Qwen3.6-35B-A3B，总参数 35B、激活参数 3B，Apache 2.0 许可，在 HuggingFace 趋势榜位居前列。模型以 image-text-to-text 形式发布，主打 agentic coding、多模态感知与 reasoning，并被官方描述为在若干 benchmark 上接近 Claude Sonnet 4.5 等更大 active size 模型。

35B total / 3B active 这个配置很关键，因为它直接指向 2026 年开源模型竞争的核心变量已经从“总参数”转向“激活效率”。如果一个 3B active 的 MoE 能在 coding 和 multimodal 场景逼近中大型闭源模型，那么部署门槛、吞吐和成本结构都会重新洗牌。HuggingFace 趋势和 HN 的高热度也说明社区现在更愿意为“高效可部署的开放模型”买单，而不只是为绝对分数买单。

从产品形态看，它不是纯文本 coder，而是原生多模态的 image-text-to-text 模型，这让它更适合作为 GUI agent、文档理解 agent、视觉代码修复等场景的底座。过去几天的 Android CLI、Cloudflare agent 基础设施更新，恰好在给这类模型寻找更稳的运行时和工具链接口。模型层和工程层开始同步咬合了。

ENTRY 003/010

[ 机器人 · 具身智能 · VLA · 基础模型 · 泛化 ]

π0.7：机器人基础模型首次显露组合式泛化

(π0.7: a Steerable Model with Emergent Capabilities)

→ Physical Intelligence · → AI News

Physical Intelligence 发布 π0.7，强调其在机器人任务上出现“compositional generalization”的早期迹象。模型通过语言、元数据、控制模态和视觉子目标的多模态 prompt，在未见过的厨房电器操作、跨 embodiment 洗衣折叠和 specialist-level dexterity 等实验中表现出更强泛化，并宣称单模型即可达到多个 RL specialist 的成功率与吞吐。

机器人基础模型一直声称自己是“通用”的，但过去多数结果更像是“多任务拼盘”而不是组合泛化。π0.7 的新意在于它不只说自己能做很多任务，而是给出更接近 LLM 式组合能力的证据，比如通过语言教练学会使用训练中没见过的 air fryer，或者把别的机器人上学到的折衣技能迁移到 UR5e 双臂系统。这个方向如果成立，说明 embodied foundation model 的上限不再只取决于 teleop 数据量，还取决于 prompt 结构能否把异构经验统一成可组合的控制语义。

更重要的是，它把“如何做”也编码进 prompt。速度、质量、visual subgoal、control modality 这些上下文，实际上是在解决机器人数据最难的歧义问题。和语言模型靠 instruction tuning 把意图对齐类似，机器人模型也开始需要 richer prompt contract 才能真正吸收跨机器人、跨质量、跨来源的数据。对具身领域来说，这可能比单纯堆更多 demonstration 更关键。

ENTRY 004/010

[ 论文 · 推理优化 · 编译器 · 张量程序 · LLM系统 ]

Prism：张量程序符号超优化首次打到 LLM 工作负载

(Prism: Symbolic Superoptimization of Tensor Programs)

→ arXiv:2604.15272

Prism 提出首个面向 tensor program 的 symbolic superoptimizer。核心是 sGraph 符号层级表示，把大类张量程序压成可推理的程序族，再结合等价验证与 auto-tuning 实例化最优实现。在 5 个常见 LLM workload 上，论文报告相对最强 superoptimizer 最高 2.2x、相对编译器方案最高 4.9x 的加速。

LLM 系统过去两年做了很多 kernel fusion、schedule search、hand-tuned optimization，但这些方法通常在“搜索空间太大”和“证明最优性太弱”之间做妥协。Prism 的价值在于把超优化从单个程序实例，提升到符号化的程序家族层面。也就是说，它不只是为一个固定 kernel 找更快写法，而是先用符号表示压缩和组织整个搜索空间，再做有证明支撑的剪枝。

如果这条路线成熟，受影响的不只是 inference latency。训练图优化、算子库设计、硬件后端适配都可能因此发生变化。因为一旦程序族级别的等价推理变得可操作，很多过去必须依赖专家经验的 kernel 选择与调参问题，会变成更系统化的编译优化问题。对 LLM infra 团队来说，这是比“再做一个更快 kernel”更底层的杠杆。

ENTRY 005/010

[ 论文 · AGENT · 评测 · DEEPRESEARCH · 检索 ]

DR3-Eval：把 Deep Research Agent 评测做成可复现沙盒

(DR3-Eval: Towards Realistic and Reproducible Deep Research Evaluation)

→ arXiv:2604.14683 · → HF Papers

DR3-Eval 针对 deep research agent 提出更真实且可复现的评测框架。它用静态 research sandbox 模拟开放网络复杂度，包含支持材料、噪声和 distractor，并将评测拆成 Information Recall、Factual Accuracy、Citation Coverage、Instruction Following 与 Depth Quality 五个维度。作者实验指出现有系统在检索鲁棒性与 hallucination 控制上仍有明显失效模式。

deep research agent 的评测长期卡在一个矛盾里：真实网页环境最贴近产品现实，但它会不断漂移，导致 benchmark 不可复现；静态 benchmark 可复现，但又太干净，不足以测真实研究任务。DR3-Eval 选择把“开放网页的脏乱复杂性”搬进静态 sandbox，这个思路很像 WebArena 之后评测体系的一次再演化，只不过把目标从网页操作扩展到多文件研究和报告生成。

更值得注意的是它把 citation coverage 和 depth quality 单独提出。过去很多 agent eval 太偏向“答案像不像”，但 research agent 的真正差异在于它有没有覆盖关键信息、有没有用对证据、有没有进行足够深的组织和综合。这意味着未来 deep research 的优化方向不只会是更强的 retrieval，还是更强的 evidence accounting 和 report synthesis。

ENTRY 006/010

[ 论文 · 机器人 · 3DPOLICY · 扩散模型 · 训练稳定性 ]

R3D：3D Policy Learning 的稳定性问题被系统拆开了

(R3D: Revisiting 3D Policy Learning)

→ arXiv:2604.15281

R3D 重新审视 3D policy learning 的训练失败模式，指出缺失 3D data augmentation 和 BatchNorm 的副作用是导致不稳定与过拟合的主因。论文提出结合 transformer-based 3D encoder 与 diffusion decoder 的新架构，在 manipulation benchmark 上优于现有 3D 基线，并试图把大规模预训练 3D 感知真正引入策略学习。

3D policy learning 一直有个尴尬处境：从直觉上它应该比 2D 更泛化，但实际效果却经常被训练不稳和过拟合拖垮，于是很多团队最后又退回更保守的表征方案。R3D 的贡献在于把问题从“3D 表征不行”转成“训练 recipe 错了”。这类诊断价值很高，因为一旦瓶颈主要是 augmentation 与 normalization 这样的系统性选择，而不是任务本身不可学，整个方向就会重新获得工程可行性。

它选择 transformer 3D encoder 加 diffusion decoder 也说明 3D policy 学习正开始和更广义的生成式/世界模型工具链融合。过去 diffusion 更多在轨迹生成和规划里出现，现在被更直接地拉进 imitation policy 里。如果这个稳定性改造成立，3D pretraining 在机器人策略中的实际回报可能会开始兑现。

ENTRY 007/010

[ 论文 · 3DGS · 3D重建 · 前馈模型 · 空间智能 ]

GlobalSplat：前馈式 3DGS 开始摆脱“视图越多资产越肥”的老问题

(GlobalSplat: Efficient Feed-Forward 3D Gaussian Splatting via Global Scene Tokens)

→ arXiv:2604.15284 · → HF Papers

GlobalSplat 提出“align first, decode later”的前馈式 3D Gaussian Splatting 框架，先学习全局 latent scene representation，再解码显式几何，从而避免现有 pixel-/voxel-aligned 方法的冗余膨胀。论文在 RealEstate10K 与 ACID 上以 16K Gaussians、4MB 资产体积实现竞争性效果，单次前向推理低于 78ms。

3DGS 爆发之后，大家都在追求更高保真和更快渲染，但“输入多视角越多，资产也越臃肿”的问题始终没有被真正解决。GlobalSplat 把核心矛盾定义得很清楚：问题不在于 Gaussian 本身，而在于当前前馈方法太依赖局部、视图对齐的分配策略，导致跨视角冗余很难被压缩。先全局对齐再解码，本质上是在把 3D 重建从“累加局部证据”改成“先建全局隐变量”。

这类方法如果继续走通，对 XR、机器人、3D 内容生产都很重要，因为它直接影响资产是否适合存储、传输和实时交互。4MB 的轻量级场景和 78ms 单次前向，不只是论文上的漂亮数字，而是在说明 feed-forward 3D 场景建模可能开始接近产品化阈值了。

ENTRY 008/010

[ 论文 · 自动驾驶 · 强化学习 · 扩散模型 · 规划 ]

RAD-2：自动驾驶闭环 RL 不再把稀疏奖励硬砸到整条轨迹上

(RAD-2: Scaling Reinforcement Learning in a Generator-Discriminator Framework)

→ arXiv:2604.15308 · → HF Papers

RAD-2 面向高层自动驾驶规划提出 generator-discriminator 框架。扩散 generator 负责生成多样轨迹候选，RL 优化的 discriminator 负责按长期驾驶质量重排，从而避免把稀疏 scalar reward 直接施加到高维轨迹空间。论文同时引入 Temporally Consistent GRPO、On-policy Generator Optimization 和 BEV-Warp 闭环仿真环境，并报告相对强扩散规划基线 56% 的碰撞率下降。

自动驾驶里的 RL 之所以难，不是因为没有 reward，而是 reward 太稀疏、轨迹太高维，导致优化过程非常脆弱。RAD-2 的 generator-discriminator 分离，实质上是把“产生候选”和“判断长期质量”拆开，让 RL 主要作用于 discriminator，而不是直接推整个轨迹生成器。这和语言模型/视觉生成中越来越常见的“生成模型 + 评估器”分工高度一致。

BEV-Warp 也很值得注意。很多自动驾驶 RL 方法的瓶颈并不只是算法，而是闭环评估吞吐不够。把评估搬到 BEV feature space，相当于在仿真侧做了一次大幅降本提速。对自动驾驶研究来说，这种“算法改造 + 训练基础设施改造”同时推进，通常比单点优化更有落地潜力。

ENTRY 009/010

[ 开源工具 · 推理平台 · AGENT · 多模型 · 云基础设施 ]

Cloudflare AI Platform：统一推理层开始为 agent 工作流定型

(Cloudflare’s AI Platform: an inference layer designed for agents)

→ Cloudflare · → HN

Cloudflare 将 AI Gateway 和 Workers AI 继续整合为统一推理层，宣称可通过一个 API 调用 12+ provider、70+ model，并新增 Workers AI binding 接入第三方模型、自动 failover、集中成本观测、流式缓冲恢复，以及“bring your own model”的容器化路线。产品定位明显指向多模型 agent 工作流。

agent 应用把推理层的要求彻底改写了。聊天应用只关心单次 latency，但 agent 往往一次任务要串十几个模型调用、多个 provider 和不同模态能力，因此路由、回退、成本观测、状态恢复都会变成一等公民。Cloudflare 的这次更新说明推理平台正在从“模型 API 转发层”变成“agent runtime 的网络基础设施”。

特别关键的是自动 failover 和 streaming response buffering。前者解决多步骤任务里单点 provider 故障的级联风险，后者则配合长时 agent checkpointing，避免任务中断后重新付费重跑。很多团队现在还把这类能力写在业务层，Cloudflare 试图把它们下沉到统一推理层。一旦这类抽象稳定，多模型 agent 的工程复杂度会明显下降。

ENTRY 010/010

[ ANDROID · AGENT · 开发工具 · CLI · 技能库 ]

Android CLI + Skills + Knowledge Base：Google 给终端 agent 补上官方 Android 工具面

(Android CLI: Build Android apps 3x faster using any agent)

→ Android Developers Blog · → HN

Google 发布新的 Android CLI、Android skills 仓库与 Android Knowledge Base，目标是让 Gemini CLI、Claude Code、Codex 等终端/编辑器外 agent 更稳地完成 Android SDK 管理、项目创建、虚拟设备管理与最佳实践调用。官方称内部实验中项目与环境 setup 的 token 消耗降低 70% 以上，相关任务速度提升 3 倍。

这不是一个简单的 CLI 更新，而是官方开始系统性地把“agent 如何开发 Android”这件事产品化。过去终端 agent 在 Android 场景最容易翻车的地方，不是写不出 Kotlin，而是不知道该装哪些 SDK、该用哪套模板、哪些迁移路径已经过时。Google 这次把 CLI、skills、knowledge base 三件事一起推出来，本质上是在给 LLM 提供更窄、更稳、更可执行的 action surface。

这类工具的意义在于把 prompt engineering 变成 interface engineering。与其期待模型自行从海量文档里猜出当下最佳实践，不如直接给它可调用命令、可触发技能和最新知识源。这种思路如果扩展到 iOS、云部署、数据库运维等更多技术栈，开发 agent 的可靠性会比单纯升级模型大得多。

其他值得关注

Tracer-Cloud/opensre：面向 SRE 场景的 AI agent 工具链在 GitHub Trending 冒头 (opensre) — GitHub
Kampala：用 MITM 代理把网站、桌面应用和移动应用工作流逆向成稳定 API (Kampala) — Zatanna
MM-WebAgent：分层规划 + 自反思的多模态网页生成 Agent，并配套新 benchmark (MM-WebAgent) — arXiv:2604.15309
Codex for almost everything：OpenAI 把 Codex 扩到更长程的计算机使用与工具连接工作流 (Codex for almost everything) — HN
gainsec/autoprober：低成本硬件探针臂把视觉、CNC 和 agent 控制拼成自动化硬件测试流 (autoprober) — GitHub

← 2026.04.16 2026.04.18 →