一日三饭 | HARNESS

← /harness

════ 2026.04.26 ════

今日要点

> "There Will Be a Scientific Theory of Deep Learning" 宣言：Berkeley / Harvard / NYU / Stanford / Flatiron / Penn / Astera 14 人联署 arXiv:2604.21691（HN 351 分），命名新学科 learning mechanics，整合"可解析理想模型 / 可处理极限 / 宏观尺度律 / 超参数理论 / 普适行为"五条线，主张深度学习正从经验艺术过渡到具有可预测宏观律的科学；配套 learningmechanics.pub 上线开放问题清单与教学资源。
> DeepSeek-V4 Day 0：SGLang + Miles 把 1M 上下文跑到 240+ tok/s：LMSYS 4/25 公开 V4 推理与 RL 训练的开源栈——ShadowRadix 原生前缀缓存、HiSparse CPU 扩展 KV（吞吐 3×）、Flash Compressor 达 80% 峰值带宽、Lightning TopK radix-select 15µs；H200 Flash 4K→900K 上下文吞吐仅降 ~10%（266→240 tok/s）。Miles 框架统一 6 种 Megatron 并行 + FP8 rollout / BF16 训练 + R3 + Indexer replay。
> Anthropic Claude Code 4 月降级官方复盘：三条 bug 叠加 35 天——(a) 3/4-4/7 把默认 reasoning 从 high 降到 medium、(b) 3/26-4/10 clear_thinking keep:1 反复 drop thinking 致 cache miss、(c) 4/16-4/20 系统提示限制 25/100 词响应导致 Opus 4.6/4.7 编码质量降 3%；首次明确 evals 与单测均未 catch，承诺加入 per-model eval sweep + soak period + ablation 工具链；4/23 重置全员用量。
> OpenAI GPT-5.5 Bio Bug Bounty $25K：仅在 Codex Desktop 上对一个由 5 道生物安全问题构成的内部分类器开放 universal jailbreak 悬赏，单 prompt 全部通关给 25K——这是 frontier model 首次把"通用性"作为安全悬赏的明确目标，意在堵截可被自动化和工具化的可复用攻击 prompt。
> Anthropic Project Deal：69 名员工 / 4 个市场 / 186 笔成交 / Opus vs Haiku 实证差距：在 SF 办公室搭建 Slack-classified 二手市场，所有谈判由 Claude 代理；随机分组实证 Opus 代理卖家平均多赚 $2.68/件、买家多省 $2.45/件、多成交 2.07 笔；用户对 agent 质量差距感知为零，揭示"agent quality gap"作为新的公平性议题。

详细内容

ENTRY 001/012

[ 论文 · 理论 · 深度学习 · SCALING · 学科宣言 ]

深度学习走向可预测科学：14 人联署提出"learning mechanics"

(There Will Be a Scientific Theory of Deep Learning)

→ arXiv:2604.21691 · → HN · → learningmechanics.pub

Jamie Simon、Daniel Kunin、Alexander Atanasov、Enric Boix-Adserà、Blake Bordelon、Jeremy Cohen、Nikhil Ghosh、Florentin Guth、Arthur Jacot、Mason Kamb、Dhruva Karkada、Eric J. Michaud、Berkan Ottlik、Joseph Turnbull 14 人于 4/24 联署，正式命名一门新学科 learning mechanics：以"刻画训练过程、隐藏表征、最终权重和性能的重要性质与统计量"为目标，整合五条已有研究证据——(a) 提供学习动态直觉的可解析理想模型、(b) 揭示基础学习现象的可处理极限、(c) 捕捉宏观可观测量的简单数学律、(d) 把超参数从训练过程其他部分解耦的理论、(e) 跨系统跨设定的普适行为。核心方法论是 Discretization Hypothesis：把有限神经网络视为连续无限大系统的"含噪时空离散化"，把宽度/深度推到无限后离散更新坍缩为可处理的 SDE 或梯度流。论文同时给出 12 个开放方向并配套开放社区。HN 351 分，是 4 月最受 ML 研究者关注的理论性论文之一。

这篇论文的真正分量不在哪个具体证明，而在它第一次把分散在十几个研究 PI 名下的工作整合为有共同名字的学科。过去十年深度学习理论一直被批评"只能解释 toy model、对真实大模型无用"，所以即便 NTK、mean-field、SGD 隐式正则、scaling law 一条条都是有真分量的工作，整体上没有一个能被外部学者识别的"学科边界"——任何人都可以说"这只是另一个 toy theory"。Simon 等人把 14 个 PI 的工作整合为 learning mechanics，本质是对外宣告"我们已经形成可识别的研究范式，应该被当作一门学科对待"。这种命名行为本身在科学社会学上和"凝聚态物理"从固体物理脱出、"机器学习"从模式识别独立是同一种动作——决定的不是技术真理，而是学界资源分配的边界。

第二个值得读的是它对当前 scaling 经济学瓶颈的直接回应。论文明确写："纯靠 trial-and-error 来 scale 过参数化模型已经在经济和算力上不可持续。"这条主张和 4/24 NVIDIA × OpenAI GB200 NVL72 35× 单 token 成本下降是同一根曲线的两侧——硬件侧把单位推理成本压低，理论侧把"该 scale 多大、用什么超参数"的预测从 trial-and-error 变成可外推。论文重点提出 zero-shot hyperparameter transfer across scales 是 learning mechanics 已经做到的具体能力（Maximal Update Parameterization µP 路线已经证明），下一步是预测 scaling law 的指数本身——这是当前完全空白的开放问题。如果 6-12 个月内有团队真把这步做通，frontier 实验室的 pretraining 选型就能从"花 1M GPU-hour 试一个超参组合"变成"先在小模型上算几个数字外推到 100B+"，单次 frontier 训练成本可能下降一个数量级。

第三条隐性贡献是论文给非理论从业者的实操路径。它指出 learning mechanics 与 mechanistic interpretability、信息论是"共生关系"而非替代——前者解释训练动态，后者解释最终权重的内在结构，第三者解释表征压缩边界。这条三角主张对正在做 alignment 工程的团队是重要的认知重构：当前 alignment 工程把 mechanistic interpretability 当作核心工具（找电路、找 feature），但论文提示"训练动态"也是一条独立的诊断维度——比如"为什么这个 capability 在某 step 突然出现？"是 learning mechanics 的范畴，不是 mech interp 的范畴。两条路线交叉后，对 capability emergence、reward hacking 内化（4/19 RLVR 论文揭示）、alignment training 的稳定性都会有更结构化的解释工具。

ENTRY 002/012

[ 开源 · 推理优化 · SGLANG · VLLM · MILES · RL · FP8 ]

DeepSeek-V4 Day 0：SGLang + Miles 把 1M 上下文 + Verified RL 训练栈一次开源

(DeepSeek-V4 on Day 0: From Fast Inference to Verified RL with SGLang and Miles)

→ LMSYS Blog · → HN

4/25 LMSYS 公布 SGLang 对 DeepSeek-V4 的 Day 0 支持完整工程细节。推理侧：(1) ShadowRadix 用虚拟 token slot + 每池索引映射，把 V4 的 hybrid sparse-attention（128 token sliding window + 4:1 top-k 或 128:1 dense 压缩）原生纳入前缀缓存；(2) HiSparse 把 KV cache 扩展到 CPU 内存，吞吐最高 3×；(3) Flash Compressor 融合压缩算子达到 80% 峰值内存带宽；(4) Lightning TopK 用自定义 radix-select kernel 把延迟压到 ~15µs。性能：B200 Pro 4K 上下文 199 tok/s、900K 上下文 180 tok/s；H200 Flash 4K 266 tok/s、900K 240 tok/s——1M 上下文下吞吐衰减不到 10%。训练侧：开源 Miles RL 框架，全 6 种 Megatron 并行（DP/TP/SP/EP/PP/CP）、FP8 rollout / BF16 训练、Rollout Routing Replay (R3)、Indexer Replay（实验性，捕获 rollout 阶段的 top-k 选择），train-inference divergence 0.02-0.03 的稳定 verified RL 训练曲线。

V4 上周作为模型本身已经是头条，这条 follow-up 的真正价值在于第一次把"frontier 长上下文模型"的全栈开源工程细节摊开。过去 1M 上下文模型一旦发布，社区第一周通常只能等"加载到 vLLM 但没法跑超过 200K"——CSA/HCA 这类新型注意力机制需要推理引擎重新写 attention kernel + KV 管理 + prefix cache，工程门槛把模型可用性卡死至少 2-4 周。SGLang 选择 Day 0 同步发布 ShadowRadix + HiSparse + Flash Compressor 三个新原语，等于把 V4 的工程墙拆掉——任何企业拉模型回内部跑 1M 上下文的路径在发布当天就通了。这条节奏和 4/24 V4 模型本身的发布是协调安排，不是 SGLang 团队凑巧 Day 0 跟上：HN 评论里指出 SGLang 与 vLLM 都收到了 embargoed 预览代码。

工程细节里 HiSparse 的 CPU-extended KV 最值得重点读。1M 上下文场景下 KV cache 在 GPU 显存上的占用即便经过 DeepSeek 自己 CSA/HCA 压缩后仍然紧张——单 H200 141GB 显存大约只能放 8-10K active session。HiSparse 把 cold path KV 卸载到 CPU DRAM、hot path 留在 GPU，配合 RDMA-based prefetch，吞吐 3× 这条数字意味着 H200 单节点能服务的 1M 上下文并发数从 8 拉到 24+。这条工程优化对真实 SaaS 部署的影响远大于那 199 vs 240 tok/s 的对比——并发能力是企业部署 frontier 长上下文的硬瓶颈，单点延迟反而是次要问题。Lightning TopK 15µs 这个数字也回应了一个长期质疑：稀疏注意力的 top-k 选择算子本身会不会变成新瓶颈？答案是不会——15µs 远低于 attention 主体计算的毫秒级耗时。

Miles 的 R3 + Indexer Replay 是另一条容易被忽视的开源贡献。RLVR 训练的最大工程痛点是 rollout 阶段的非确定性——同一组 prompt 在不同 rollout instance 上会因为 routing 抖动得到不同 top-k 选择，导致重训不可复现且 reward 分布失真。R3 在 rollout 后保存完整路由决策、Indexer Replay 保存 sparse attention 的 top-k 选择，让训练阶段能精确重放——这等于把 4/19 RLVR Reward Hacking 论文揭示的"verifier 被 exploit"问题在工程层补了一道缝。FP8 rollout + BF16 训练这一组合也是开源 V4 训练 recipe 第一次公开 train-inference divergence 数字（0.02-0.03），给所有打算复现的团队一个明确的健康指标。这条与 DeepSeek 论文同发布、SGLang 与 Miles 双开源的节奏，是 2026 年春天"frontier 模型 + 推理栈 + RL 训练栈"完整开源的第一例。

ENTRY 003/012

[ ANTHROPIC · CLAUDE · POSTMORTEM · EVALS · 工程教训 ]

Anthropic Claude Code 4 月降级三 bug 复盘：evals 漏检的工程教训

(An update on recent Claude Code quality reports)

→ Anthropic 复盘 · → VentureBeat

4/23 Anthropic 工程团队公开复盘 3-4 月用户大面积反馈的 Claude Code 质量下滑事件，确认三条独立 bug 叠加导致一个月感知降级。Bug 1（3/4-4/7）：把默认 reasoning effort 从 high 降到 medium（出于 UI 卡顿与 token 用量考虑），4/7 反向并把 Opus 4.7 上调到 xhigh、其他模型 high。Bug 2（3/26-4/10）：使用 clear_thinking_20251015 API header 配合 keep:1 试图在 idle >1h session 恢复时清理旧 thinking 块，bug 导致每个 turn 都执行清理而不是仅一次——"Claude 会继续执行，但越来越不记得它为什么选择当前动作"，并附带 cache miss 加剧用量耗损，v2.1.101 修复。Bug 3（4/16-4/20）：加入 system prompt 强制响应 ≤25 词工具间 / ≤100 词最终回复，broader ablation 显示 Opus 4.6/4.7 编码质量降 3%。三条 bug 内部 evals 与单测均未 catch；社区压力主要来自 AMD AI 高级总监 Stella Laurenzo 公开审计 6,852 个 session + 234,000 工具调用。整改：内部员工改用公开 build、所有 system prompt 变更需 per-model eval sweep + ablation、智力相关 trade-off 必须 soak period + 渐进发布；4/23 全员用量重置。

这次复盘最重要的不是三条 bug 本身，而是 Anthropic 公开承认 "none of the issues were caught by Anthropic's internal evals or unit tests before shipping"——这条声明对整个行业的工程意义远大于一次产品事故。Claude Code 是把"自动 code review"作为旗舰能力的产品，结果它自己的部署 pipeline 在三条 bug 上 evals 全部漏检，这是对"用 LLM eval 替代人工 QA"叙事的一次直接打击。具体看：(1) reasoning effort 从 high 降到 medium 在内部 benchmark 上看不出区别（因为 benchmark 任务都偏短，medium 够用），但在用户真实长程任务上立刻劣化——说明 benchmark 与生产分布的差距比团队想象的大；(2) caching bug 把 thinking 块每轮清掉，evals 看不出问题是因为 evals 通常是单次 turn 测试，而 bug 只在多 turn 长 session 中累积；(3) 25/100 词的 verbosity prompt 在内部 eval 上显示无 regression，但 broader ablation 测了"每条 prompt 行的独立影响"才发现 3% 编码质量下降。这三件事共同指向一个工程现实：LLM 产品的真实质量曲线和 benchmark 曲线之间存在系统性偏差，而当前所有厂商的 evals 设计都偏向 benchmark 那一侧。

整改措施里"all system prompt changes require a per-model eval sweep with ablations"是一条很重的承诺。现在主流 LLM 产品的 system prompt 通常是几千字、几十条规则的复合文本，每改一条都要做 ablation 意味着 ablation 矩阵会指数级膨胀——一个有 50 条 prompt 规则的产品要做 50 条独立 ablation × N 个模型 × M 个任务族，单次 prompt 改动的 eval 成本可能高达数千 GPU-hour。Anthropic 选择吃下这个成本，本质是承认"system prompt 的单条改动可以撬动产品 3% 性能"这件事在 2026 年春天的 frontier 模型上是可重复出现的隐患——而 GPT-5.5 / Gemini 3.1 Pro / Kimi K2.6 / DeepSeek-V4 等竞争对手大概率有同样的暴露面但还没被发现。这是一条会改写整个行业 LLM 产品 release process 的工程惯例。

社区压力的角色尤其值得注意。Stella Laurenzo（AMD AI Senior Director）公开审计 6,852 session + 234,000 工具调用 是这次复盘的临界推动力——没有这份外部审计，Anthropic 内部"我们 evals 没看到 regression"的解释会一直成立。这条经验对正在做 LLM 产品的团队是直接信号：用户看到的 quality drift 在 telemetry 里通常先于 evals 显现，所以建立"用户 session 级别的回归监控"（不是"模型 benchmark 回归监控"）是必要的第二层防线。Cache miss 那条 bug 也提示一个具体工程指标——cache hit rate 突然下降比模型分数突然下降更早暴露问题，应该作为 SLO 一等公民。整体看这次复盘是 Anthropic 把"transparency 作为护城河"的一次投资：竞争对手未来如果出现类似事故却选择沉默，会承受相对更大的信任损失。

ENTRY 004/012

[ OPENAI · 安全 · JAILBREAK · 生物安全 · 红队 ]

OpenAI GPT-5.5 Bio Bug Bounty：$25K 求 universal jailbreak

(GPT-5.5 Bio Bug Bounty)

→ OpenAI · → Application Portal

4/23 OpenAI 启动 Bio Bug Bounty：$25K 单笔奖金给任何能用一条 universal jailbreak prompt 在 Codex Desktop 上绕过 GPT-5.5 安全分类器、回答全部 5 道生物安全问题（不被 moderation 拦截）的研究者。仅对受邀的 vetted bio red-teamer 开放，所有 prompt / completion / 通信均受 NDA 约束。申请 4/23 开放、6/22 截止；测试 4/28-7/27。仅对 Codex Desktop 环境（非通用 ChatGPT）开放——明确针对"工具增强 + step-wise 规划"放大风险的工作流。

把"universal jailbreak"作为悬赏目标，是 frontier 厂商安全策略的一个值得标记的转向。过去主流的红队悬赏定价模型是"按发现的单点漏洞付费"——HackerOne / Bugcrowd 模式下一个 prompt 拿一个 reward。OpenAI 选择"$25K 给单条覆盖全部 5 题的通用 prompt"等于宣告"单点漏洞我们已经不太担心，真正威胁是可被自动化、可打包、可分发的通用攻击模板"。这条转变背后的现实判断是：单点漏洞的修复是定向 SFT/RLHF 加几个负样本就能完成的工程任务，但通用 prompt 一旦泄露可以被恶意行为者编进自动化工具链批量利用——4/19 Route to Rome Attack 论文证明 router 层可被 suffix optimization 攻击是同类思路。"通用性"作为悬赏门槛把红队工作的难度抬高一个数量级——你不能凑巧绕过一题就拿钱，必须证明同一条 prompt 能稳定通关。

Codex Desktop 限定也是这次悬赏的一个隐含信号。OpenAI 选择只在 Codex Desktop 这一个 surface 上开放测试，不在 ChatGPT web/API 上，意味着团队明确认为"agent + tool use + step-wise 规划"是当前生物安全风险最高的工作流——单轮 ChatGPT 即便输出违规内容也只是文本，但 Codex Desktop 可以执行命令、读写文件、调用搜索 API，把违规知识立刻 operationalize。这一定位呼应 4/15 AISI 对 Claude Mythos 的评测发现："agent + tool 的复合能力比 base model 更危险"。从产品策略看，OpenAI 在不公开 GPT-5.5 通用 API 之前先把生物安全这条最敏感能力的红队完成，是 4/16 Trusted Access for Cyber 之后的第二个垂直安全栈——下一步可能是 Bio Trusted Access for Healthcare/Pharma。

需要冷静读的反面：$25K 单笔奖金对真正具备 bioweapon 知识的攻击者而言不是激励上限。如果一条通用 jailbreak prompt 真能稳定生效，黑市价值远高于 25K——竞品厂商、反 AI 组织、甚至国家级威胁行为者都会竞价收购。OpenAI 这条悬赏的真实意义是为研究者提供一条合法的披露通道，而不是穷尽所有可能的攻击者动机。NDA + 受邀机制把"找到漏洞但选择公开发表"的路径堵死，对学术界生物安全红队是一种明显的信号——你的发现只有在 OpenAI 体系内才有价值。这是利弊参半的设计：好处是确保高风险信息不扩散，坏处是把独立红队评估能力垄断到厂商手里，外部审计的可信度被削弱。

ENTRY 005/012

[ ANTHROPIC · AGENT · 实验 · 公平性 · 多AGENT谈判 ]

Anthropic Project Deal：69 名员工 + 4 个市场 + 186 笔成交揭示"agent quality gap"

(Project Deal Marketplace)

→ TechCrunch · → Cybersecurity News

2025 年 12 月 Anthropic SF 办公室搭建内部 classified 二手市场（snowboard、乒乓球等真实物品），69 名自选员工各分 $100 礼品卡预算，全部由 Claude agent 在 Slack channel 内代理谈判（人零干预）。每位员工先被 Claude 面试以提取卖家偏好 / 买家清单 / 个人指令，转成定制 system prompt 后投放。共运行 4 个并行市场——一个"真实"（统一用最强模型，成交后实物兑现），三个用于研究对照。实证结果：186 笔成交、$4,000+ 总成交额；随机分组 Opus 4.5 vs Haiku 4.5 代理人双盲，Opus 卖家平均多赚 $2.68/件、买家多省 $2.45/件、多成交 2.07 笔；用户对自己的 agent 是否高质量完全无感知——揭示新的公平性议题 "agent quality gap"。46% 参与者表示愿付费购买类似服务。Anthropic 本周（4/25）公开报告。

Project Deal 在新闻报道里通常被当作"AI 卖货真有趣"的轻报道，但报告本身揭示的"agent quality gap 不可感知"这条发现是 2026 年 agent 商业化最有分量的实证结论。双盲条件下 Opus 用户每笔多赚/省 $2.5、多成交 2 笔，但用户并不知道自己被分到了哪个模型；推到生产场景里，这意味着：(a) 当所有客户都通过 agent 与商家交互、商家可以选择"给所有客户上 Opus"或"对低价值客户用 Haiku"时，价值歧视会以"agent 质量歧视"形式出现，且用户没有任何工具识别这种歧视；(b) 所有 SaaS agent 服务（旅行预订、招聘、保险报价、二手交易）的"基础模型选择"会成为隐性的服务质量分级——比 chatbot 的回答质量更难审计，因为前者是单点对话差异，后者是长期累积成交结果差异。

这条实验在工程方法论上的贡献也值得注意。4 个并行市场设计（1 真实 + 3 对照）是 RLHF preference data 之后第一次有 frontier 厂商在真实经济场景下做 model A/B 对照的规模实证——不是 benchmark 上的 pass@k，而是真金白银的成交差距。这条 protocol 可以被复用到任何 agent 产品的 quality 评估：让 agent 在 stake-bearing 任务上互相博弈，用经济结果（成交价、成交量、用户满意度）作为 ground truth，比用 LLM-as-Judge（4/19 论文揭示 stake signaling 偏差最多 30%）或人工偏好打分（成本极高）都更可靠。这条方法论对正在做 agent product 的团队是直接可借鉴的：搭一个内部"真实任务市场"让自家 agent 与对照 agent 互相博弈，用经济信号校正 benchmark。

需要冷静读的边界：69 人 / $100 / 单办公室 是非常小的实验规模，Anthropic 自己也明确写"a pilot experiment with a self-selected participant pool"。这条数据不能直接外推到"百万用户、跨地域、信息不对称严重"的真实市场——例如 Claude 互相谈判用的是相同 base model，价格发现可能受 model bias 拖累；又例如真实市场里卖家和买家对物品估值差距远大于 Anthropic 员工对乒乓球的估值差，agent 能否在真正复杂的偏好结构下仍然稳定 close deal 是开放问题。但即便是 pilot scale，46% 愿付费这条市场调研数据也足够说明 agent-mediated commerce 在用户心智上已经过了"是否能用"的门槛——下一步选型决策已经聚焦"agent 用哪个底模"和"agent 行为如何被监管"。

ENTRY 006/012

[ 论文 · 视频生成 · 4D · 相机控制 · 世界模型 ]

Vista4D：4D 点云锚定的视频重拍跃居 HF Papers 99 投票 🔄

(Vista4D: Video Reshooting with 4D Point Clouds)

→ arXiv:2604.21915 · → HF Papers

4/23 提交、4/24-25 在 HF Papers 持续上升至 99 投票（4/25 报道时仅 7 投票，48 小时增长 14×），由 Eyeline Labs 主导。核心命题：视频重拍不能只靠 depth 估计，需要 4D-grounded 点云作为几何与外观双锚。架构：(1) static pixel segmentation 把场景中"静止 vs 动态"区分开，静止部分用点云锁定外观避免漂移；(2) 4D 重建保持时间一致性；(3) 训练用重建出的多视角动态数据扩增鲁棒性。结果：在 4D 一致性、相机控制、视觉质量上全面优于现有 baseline；支持动态场景扩展、4D 场景重组合等下游应用。

Vista4D 这次 HF Papers 投票暴涨直接对应 4/23 WorldMark 揭示的痛点——"视觉质量与世界一致性几乎不相关"。WorldMark 在跨模型公平对比下发现 YUME 1.5 视觉最佳但 60 秒内场景结构坍塌，问题根源就在大多数视频生成模型只靠隐式 depth 维持几何，长程下会逐步漂移。Vista4D 的 4D 点云锚定路径直接回应这个失效模式：点云作为外部几何和外观锚，把"维持长程一致性"从模型隐式 capacity 转移到显式数据结构上。这条路径与 4/16 腾讯 HY-World 2.0 / 4/18 NVIDIA Lyra 2.0 走的"3DGS 资产化"路线异曲同工，但 Vista4D 的目标场景更聚焦——不是从单图生成 3D 世界，而是给已有视频做"换相机轨迹的重拍"，对影视后期、虚拟拍摄、广告制作的工程价值更直接。

Static pixel segmentation 是 Vista4D 最具差异性的工程选择。视频重拍的失败 mode 大致两类：(1) 静止物体在新视角下看起来"飘"或"换了纹理"——场景墙面、地面这类应该锁死的细节被重新生成了一次；(2) 动态物体（人、车）的运动轨迹被 distorted 到反物理位置。前一类问题的解法历史上是 NeRF / GS 重建（费时且只对静态场景有效），Vista4D 把 static 部分用 segmentation 单独抽出来用点云锁定外观，dynamic 部分用 4D 重建保持时间一致——这条"静动解耦"在工程上比"统一用一个 video diffusion 端到端"更稳。

对短视频 / 影视后期 / 虚拟拍摄团队，Vista4D 是当前最值得重点跟进的开源世界模型工作之一。它的应用场景"给已拍摄视频换相机角度"在传统流程里需要昂贵的多机位拍摄或 CG 重建——Vista4D 把这两步压缩到一次推理。配合 4/24 Odyssey-2 Max 的"实时物理一致性"路线，世界模型在 2026 年春天首次形成"内容生成（YUME / HY-World）、几何资产（NVIDIA Lyra）、视频重拍（Vista4D）、实时物理（Odyssey）"四种独立产品形态——选型不再是"哪个最强"，而是"你的工作流需要哪种 paradigm"。

ENTRY 007/012

[ BENCHMARK · LAMBDA-CALCULUS · 形式推理 · 评测 ]

LamBench：120 题纯 lambda calculus 基准揭示 GPT-5.5 反而比 5.3 弱 16 个点

(Lambda Calculus Benchmark for AI)

→ HN · → GitHub VictorTaelin/LamBench · → lambench.io

Victor Taelin（HVM、Bend 作者）4/25 发布 LamBench v1：120 个纯 lambda calculus 编程问题，模型必须输出 .lam 文件定义 @main，harness 通过 lambda 归约比对完整 normal form 才算通过。问题分 12 类、每类 10 题，覆盖 BF interpreter、迷宫求解、Sudoku、Church/Scott 编码（自然数、二进制、列表、树、ADT）、N-Tuples 等。结果：GPT-5.3 Codex 与 Opus 4.6 并列第一 108/120 (90.0%)，Opus 4.7 与 Gemini 3.1 Pro 并列第三 106/120 (88.3%)，GPT-5.4 仅 96/120 (80.0%)、GPT-5.5 反而下滑到 89/120 (74.2%)——领先模型在纯符号推理上呈现非单调能力曲线。

LamBench 的真正价值在于揭示一条主流 benchmark 几乎不覆盖的能力维度：纯符号 / 形式系统操作。LiveCodeBench、SWE-Bench、HumanEval 这些基准都是"在 Python/JS/Rust 这种实践语言里写函数"——模型可以借助海量 GitHub 训练数据 pattern-match。Lambda calculus 不一样：纯函数式、所有数据结构必须用 λ 编码（自然数 = Church numeral）、没有可借鉴的"标准库写法"——模型只能依靠对形式系统的真正理解。GPT-5.5 反而比 GPT-5.3 Codex 低 16 分这条数字非常刺眼，因为 GPT-5.5 在 LiveCodeBench、SWE-Bench Pro 等实战 coding 基准上是 OpenAI 当前最强（4/24 GPT-5.5 报道）。这条非单调性提示一个重要的可能：模型规模的扩大伴随训练数据的扩展，可能会"挤掉"早期模型在窄而深的形式推理能力上的强度——也就是说"更大、更新、更通用"的模型在某些细分能力上可以是退化的。

Opus 4.6 与 GPT-5.3 Codex 并列第一（都 108/120）也值得关注。Opus 4.7 比 4.6 反而低 2 题——这条与 4/23 Anthropic Claude Code 复盘揭示的"verbosity prompt 让 Opus 4.7 编码降 3%"是同一种回归现象。如果 4.7 在 lambda calculus 上的回归不是 verbosity prompt 导致而是 base model 本身的变化，那么 Opus 4.6 在结构化推理上的能力可能反而被 4.7 的"更通用 RL 训练"稀释。Gemini 3.1 Pro 88.3% 与 Opus 4.7 并列也提示一个非常稳定的现象：当前 frontier 模型的形式推理能力天花板大致在 88-90% 区间——超过 90% 需要专项训练（GPT-5.3 Codex 是 coding 专项 fine-tune 模型）。

工程实操层面，LamBench 给"模型选型"提供了一条罕见的非主流维度。如果你的应用场景是需要可验证的形式推理（编译器、定理证明助手、智能合约验证、形式化模型生成），那么模型选型不应该看 LiveCodeBench 而应该看 LamBench 这类 benchmark——GPT-5.3 Codex 和 Opus 4.6 在这条维度上明显胜过 GPT-5.5 和 Opus 4.7，价格也低。这条 benchmark 的更深远影响可能是推动行业重新思考"前沿模型"的定义——单一指标越来越无法反映模型的能力组合，多维度 benchmark 矩阵会变成 frontier model 选型的新标准。

ENTRY 008/012

[ 开源 · AGENT · 记忆 · PGVECTOR · MCP ]

Stash：Apache 2.0 的 agent 持久记忆层 + pgvector 多阶段 consolidation pipeline

(Open source memory layer for AI agents)

→ HN · → 项目页

4/25 开源的持久记忆层，HN 172 分。架构：PostgreSQL + pgvector 做向量存储，多阶段 consolidation pipeline 将原始观察逐层提升——Episodes（append-only 原始观察） → Facts（LLM 综合的带置信度信念） → Relationships（实体知识图） → Causal links（因果关联） → Patterns（高阶抽象） → Contradictions（自我修正） → Goals/Failures（意图与失败追踪）。与 RAG 的差异：RAG 是"快速图书馆员"在预定义文档中搜索，Stash 是"会成长的脑"——能追踪目标、做因果推理、自我修正矛盾。部署：Docker Compose 三命令启动；OpenAI 兼容 API 后端（OpenRouter / Ollama / Groq / vLLM / 自部署）；原生 MCP 支持，提供 28 个工具给 Claude Desktop / Cursor 等任意 MCP-compatible agent；分层命名空间（/self、/user/preferences、/project）做语义隔离；Apache 2.0。

Stash 把 4/19-4/25 这一波"agent 记忆层"产品化竞赛推到第 5 种范式。当前已有：filesystem-mounted（Anthropic Managed Agents Memory）、Durable Object + Vectorize（Cloudflare Agent Memory）、shared context（OpenAI Workspace Agents）、swarm sub-agent（Kimi K2.6）、git-native markdown（WuPHF）——Stash 加入 PostgreSQL + 多阶段 consolidation 这条更接近"传统认知科学的记忆模型"。多阶段 pipeline 的设计明显借鉴人类记忆研究：Episodes ≈ episodic memory、Facts ≈ semantic memory、Patterns ≈ schema、Goals/Failures ≈ procedural memory。这条认知科学路径在工程上的代价是 pipeline 推理成本 ——每一条新 Episode 都要被 LLM 综合成 Fact、嵌入到 Relationship 图、检测 Contradictions，每一步都是一次 LLM 调用。对成本敏感的部署，这条 overhead 可能让 Stash 在长时段大规模 agent 上比 git-native markdown 路线（WuPHF）昂贵 5-10×。

与 RAG 的对比是 Stash 最值得标记的认知重构。社区过去 18 个月把"长期记忆"约等于"vector search + 文档存储"，本质是把记忆当只读知识库。Stash 的关键主张是记忆必须是可写、可演化、可自我修正的——Contradictions 检测让记忆遇到冲突会自我标记、Goals/Failures 让 agent 知道"我之前尝试过且失败了"。这条主张和 4/15 MEDS（历史失败 rollout 惩罚）、4/19 RLVR Reward Hacking 论文是同一根问题的不同侧面：agent 系统需要不仅"记住事实"还需要"记住自己的行为历史并从中学习"，否则会在同一类失败上反复栽跟头。Stash 把这种行为级别的记忆做到 schema 层面，是对"记忆 vs RAG"二元对立的明确突破。

对正在选型 agent 记忆层的团队，5 种范式的差异不是优劣而是部署边界。Stash 适合：(a) 需要审计 / 可解释记忆（Episodes append-only + 多层 pipeline 留下完整证据链）、(b) PostgreSQL 已经在生产、(c) 单租户企业部署。WuPHF 适合：multi-agent 协作、人类可 git diff 审计。Cloudflare Agent Memory 适合：多租户 SaaS、edge 部署。Anthropic Managed Agents Memory 适合：完全 lock-in Claude 平台、文件系统语义直观。OpenAI Workspace Agents 适合：团队共享 + ChatGPT 已有用户。选型决策已经从"要不要记忆"完全转移到"哪种记忆抽象匹配业务"——这条转变在 2026 年春天发生得非常快，4 月初还在讨论"记忆是不是必须"，4 月底已经在讨论"五种范式怎么选"。

ENTRY 009/012

[ 论文 · 具身智能 · IMU · LLM · 4D重建 · 无视觉 ]

"Seeing Without Eyes"：用 IMU 传感器 + LLM 重建 4D 人体与场景

(Seeing Without Eyes: 4D Human-Scene Understanding from Wearable IMUs)

→ arXiv:2604.21926

提出 IMU-to-4D 框架，仅用耳机、手表、手机的惯性传感器数据（无任何视觉输入），重建 4D 人体动作与粗略 3D 场景结构。核心方法："repurpose LLMs for non-visual spatiotemporal understanding of human-scene dynamics"——把 LLM 当作非视觉时空推理引擎，输入是 IMU 时间序列，输出是人体姿态序列 + 场景几何。在多个 human-scene 数据集上比 SoTA 级联管线"更连贯且时间稳定"。优势：隐私、安全、能效、可扩展性都优于摄像头方案。

这篇论文的真正分量不在重建质量数字，而在首次系统性地验证 LLM 可以做"非视觉的时空推理"。过去两年大模型在多模态上的扩张几乎全部聚焦"加视觉"——CLIP、GPT-4V、Gemini Vision、Claude Vision——所有故事都是"语言模型 + 看图能力"。IMU 是一类完全不同的模态：6 自由度（三轴加速度 + 三轴陀螺）的时间序列，无空间结构、无 RGB 像素、无 token 化的常规手段。把 LLM 应用到这种纯数值时间序列上去重建 4D 人体姿态 + 场景，等于宣告 LLM 的内在"理解时空动态"能力可以脱离视觉训练单独被激活——这条主张如果稳定可复现，会改写多模态扩展的整个叙事。

工程意义上，"IMU-only 4D 重建"对消费电子是颠覆性可能。Apple AirPods、Apple Watch、AirTag 都内建 IMU 但当前几乎只用做计步、活动识别这类粗粒度信号。如果 IMU-to-4D 的精度足够把"用户在房间里如何走动 / 物品的相对位置"重建出来，那么 AirPods + Watch 的组合可以在不打开摄像头的情况下提供类 AR 的空间理解能力——这对隐私敏感场景（家庭、办公、医疗）是摄像头方案完全无法替代的功能。配合 4/19 Driftwood（WASM × Apple Silicon 零拷贝 GPU 推理）和 4/22 OpenAI Privacy Filter（端侧 PII 脱敏），"端侧 + 无视觉的环境感知" 在 2026 年春天首次具备完整工具链可能。

需要冷静读的边界：论文报告的对比 baseline 是"级联管线"（IMU → 姿态 → 场景），没有公开与摄像头方案的精度对比。仅 IMU 重建场景结构的物理可行性是有理论上限的——加速度积分会累积误差、缺少绝对参考点、无法识别物体 identity。所以"4D 场景"的"D" 多大概率是粗略几何（大型家具位置 / 房间边界）而不是精细物体级别。但即便如此，"无视觉、低功耗、隐私友好"这条产品维度在 2026 年下半年消费 AR 设备竞争中可能成为新的差异化轴。

ENTRY 010/012

[ 论文 · 视频 · 时间建模 · 自监督 · 世界模型 ]

"Seeing Fast and Slow"：自监督学习视频时间流，把"播放速度"做成可控维度

(Seeing Fast and Slow: Learning the Flow of Time in Videos)

→ arXiv:2604.21931

Yen-Siang Wu、Rundong Luo、Jingsen Zhu、Tao Tu、Ali Farhadi、Matthew Wallingford、Yu-Chiang Frank Wang、Steve Marschner、Wei-Chiu Ma 等 9 人 4/23 提交。利用视频中天然存在的多模态线索与时间结构做自监督学习，让模型感知播放速度变化、估计绝对播放速度。下游应用：(1) 从噪声真实视频中筛出最大规模慢动作数据集；(2) 速度条件视频生成（指定播放速度生成动作）；(3) 时间超分（低 FPS 模糊视频→高 FPS 清晰运动）；(4) 时间取证检测（识别 manipulated 视频）。核心贡献：把"时间"作为可操控的感知维度，让时间可控生成 + 取证 + 更丰富的时间世界模型成为可能。

这篇论文与 Vista4D 是同一周 HF Papers 上"视频生成与重新合成"主题的两个并行方向，但思路完全不同——Vista4D 操控空间维度（换相机视角），Seeing Fast and Slow 操控时间维度（换播放速度）。两者合起来构成"4D 视频可控生成"完整问题空间的两条正交轴。过去 video diffusion 模型几乎都把"播放速度"作为隐式不变量——训练数据是以"自然速度"录制的，模型既不知道也不能控制这个变量。Wei-Chiu Ma（论文通讯）等人的洞察是：速度本身是有学习信号的——同一段动作在 2× 加速下与 0.5× 减速下的视觉特征有系统性差异（运动模糊、空气阻力、惯性表现），自监督就能从未标注视频里挖出来。

下游应用里时间取证检测的实用价值最容易被低估。当前 deepfake 检测主要做"空间维度的伪造检测"（人脸纹理、光照不一致），但越来越多的 manipulated 视频是时间维度的伪造——把真实视频部分加速 / 减速 / 复制粘贴某些帧来改变事件叙事。Seeing Fast and Slow 训练出的时间流估计器可以在不依赖人工标注的情况下识别"这段视频的播放速度异常"，这是当前主流取证工具的盲点。配合 4/25 Succinct ZCAM（iPhone Secure Enclave 内 cryptographic 拍摄签名 + C2PA manifest），"内容认证 + 时间取证"可以从拍摄端和后期检测端双向夹击 manipulated 视频——这是 2026 年内容真实性这条战线的两条独立但可叠加的工具链。

最大慢动作数据集这个产物本身也是有持续价值的资产。慢动作视频在影视、广告、运动分析里需求巨大但稀缺——专业拍摄需要高速摄像机（千 FPS 起步），数据集主要靠艺术摄影师手工积累。从噪声真实视频中自动筛选高 FPS 片段构建数据集，等于把"高速摄影"的内容供给从硬件门槛拉到算法可获得。对正在做 video generation 的团队，这条数据集本身就是值得跟进的 release。

ENTRY 011/012

[ 论文 · 理论 · 公平性 · 校准 · 样本复杂度 ]

Multicalibration 样本复杂度：Õ(ε⁻³) 的紧上下界

(The Sample Complexity of Multicalibration)

→ arXiv:2604.21923

Natalie Collina、Jiuyao Lu、Georgy Noarov、Aaron Roth 4/23 提交。首次给出 multicalibration 样本复杂度的紧上下界：当群组数 |G| ≤ ε⁻ᵏ 时，Õ(ε⁻³) 样本既必要也充分（忽略 polylog 因子）；推广到加权 Lₚ 度量（1 ≤ p ≤ 2）时最优指数为 3/p；当 κ=0 时复杂度降到 Õ(ε⁻²)，呈现锐相变。这条结果的关键意义：multicalibration 比 marginal calibration 本质上更难，后者是 Õ(ε⁻²) 而前者是 Õ(ε⁻³)；且 multicalibration 在 batch 与 online 设定下复杂度相同，与 marginal calibration（batch 更容易）形成对照。

Aaron Roth 团队这条结果是 fairness ML 理论里第一次给出 multicalibration 的紧致 sample complexity——过去六年这个量只有零散的上下界，常常差好几个 ε 数量级。**Õ(ε⁻³) vs marginal Õ(ε⁻²)**这条本质差距的意义远超学术——它告诉所有部署 fairness-aware ML 系统的团队一个可量化的现实：把校准要求从"整体分布"提升到"每个 protected 群组都校准"，所需训练数据量从二次方变成三次方。具体感知：如果整体校准到 ε=0.01 需要 10⁴ 样本，那么对所有群组同时校准到 ε=0.01 需要 10⁶ 样本——100 倍的数据缺口。这条数字对 healthcare、credit scoring、招聘等监管 ML 场景的实际预算配置直接相关。

Batch ≈ Online 这条等价对算法设计是更深的指引。传统 ML 直觉里 batch（看完所有数据再学）应该比 online（一条一条学）容易很多——marginal calibration 就是这样。Multicalibration 上两者复杂度相同意味着 batch 算法在这个问题上没有任何信息论优势，所有"先收集再批训"的工程优化方案都不能减少所需样本数。这条结论对正在设计 fairness-aware 训练 pipeline 的团队的指导是：与其投资更复杂的 batch optimization，不如投资数据采集——后者是真实瓶颈。

理论 ML 在 2026 年春天连续出现 important results。和 4/24 LamBench、4/26 "Scientific Theory of Deep Learning" manifesto 放在一起看，深度学习理论的"复兴年"叙事正在成型。过去十年 deep learning 在工程上一骑绝尘但理论被认为"过时"，2026 年春天三件事同时发生：(a) frontier 模型规模 stabilize 让理论分析的"无限宽极限"假设有意义；(b) 算力成本压力让 trial-and-error 不可持续，理论指引超参数变成刚需；(c) 监管要求让 fairness / calibration / safety 的可证明保证变成生产需求。这三个驱动力在结构上保证理论 ML 在未来 18-24 个月会持续重要——本论文是这条曲线的一个早期 milestone。

ENTRY 012/012

[ 开源 · AGENT · OPENCLAW · GPT-5.5 · 多AGENT ]

OpenClaw v2026.4.23：GPT-5.5 + GPT-image-2 OAuth + forked-context subagents

(OpenClaw 2026.4.23 Release)

→ GitHub Release · → Releasebot

4/23 OpenClaw 主版本发布，重点更新：(1) GPT-5.5 Codex OAuth 集成——openai-codex/gpt-5.5 通过 OAuth 直连，cron 与 subagent run 不再因 catalog discovery 缺失而失败；(2) forked-context subagents——sessions_spawn 原生支持子 agent 可选继承父 agent 完整 transcript（默认仍是隔离 fresh session），用于需要上下文连续性的子任务；(3) OpenAI gpt-image-2 / OpenRouter 图像生成与 reference-image 编辑——通过 Codex OAuth 无需 OPENAI_API_KEY，agent 可请求质量 / 输出格式 hint，多 reference 编辑改用 multipart upload 替代 JSON data URL 修复了之前的失败模式；(4) CLI / Plugin / Memory 改进——/ 触发 prompt-build hooks、bundled plugin 跳过 npm 安装、MEMORY.md canonicalization、Anthropic Vertex ADC 模型发现修复。

这次更新最值得标记的是 forked-context subagents 这条架构选择。当前所有主流 agent 框架（DeerFlow 2.0、CrewAI、AutoGen、Kimi K2.6 swarm）的 sub-agent 默认都是 fresh session——子 agent 启动时不继承父 agent 的对话历史，由父 agent 显式传入相关 context。这条默认配置的好处是避免上下文污染与 token 浪费，但在某些任务上反而成为问题：当子 agent 需要"前面对话里的某个细节"而父 agent 又没主动传入时，子 agent 必须反复询问父 agent，长程任务下产生大量冗余 turn。OpenClaw 加入"可选继承 transcript"的开关让开发者按任务粒度选择——这条灵活性反映 2026 年春天 multi-agent 框架已经过了"feature 添加期"，进入"行为可调期"。

GPT-5.5 通过 Codex OAuth 直连是另一个值得注意的技术细节。OpenAI 当前 GPT-5.5 不开放标准 API（4/24 报道），但通过 Codex Desktop 的 OAuth 流程可以间接调用——这是开源 agent 框架接入 GPT-5.5 的唯一可行路径。OpenClaw 抢先把这条路径产品化，等于在 GPT-5.5 通用 API 释放之前给社区提供了一条"提前用上 GPT-5.5"的灰度通道。配合 4/24 Anthropic Workspace Agents、4/24 Kimi K2.6 swarm，开源多 agent 栈在 4/22-4/26 这一周已经把 GPT-5.5 / Claude Opus 4.7 / Kimi K2.6 三大 frontier 模型同时纳入可调度集——agent 框架的"模型选择层"已经成为新的竞争维度。

这次发布还把 gpt-image-2 通过 multipart upload 而非 JSON data URL 这条修复单独标记，是工程细节但反映 LLM API 发展的普遍痛点：图像 / 文件作为 base64 inlined 在 JSON 里是早期 MCP / API 设计的默认惯例，但当文件超过几 MB 后 JSON serialization 与解析开销变得无法接受。OpenClaw 这条迁移可能预示 MCP 协议本身在 2026 年下半年也会出现"binary streaming 替代 JSON inlining"的标准化讨论。

其他值得关注

MathDuels：让 LLM 既出题又答题的自博弈基准，揭示出题与解题能力解耦 (MathDuels: Evaluating LLMs as Problem Posers and Solvers) — arXiv:2604.21916
[Machine Behavior in Relational Moral Dilemmas：LLM 道德推理与行为预测背离，决策对齐刚性公平规则而非社会敏感模型] — arXiv:2604.21871 — arXiv:2604.21871
[Fine-Tuning Regimes Define Distinct Continual Learning Problems：可训练参数深度从根本上改变持续学习评测结果] — arXiv:2604.21927 — arXiv:2604.21927
[Scale-Adaptive Joint Spatiotemporal Super-Resolution Diffusion：复用同一架构跨 SR 倍数，引入因子相关超参与质量守恒变换] — arXiv:2604.21903 — arXiv:2604.21903
[TraceScope：解耦的 phishing 三角洲沙盒浏览器 + LLM 裁定，0.94 precision] — arXiv:2604.21840 — arXiv:2604.21840
[Bounding the Black Box：两阶段 AI 风险监管合规框架，无需访问模型内部即可审计上界] — arXiv:2604.21854 — arXiv:2604.21854
[zilliztech/memsearch（GitHub trending +31/day, 1,427 stars）：Markdown-first 独立 memory 库] — GitHub — GitHub
[google/langextract（GitHub trending +70/day, 35,862 stars）：基于 LLM 从非结构化文本提取结构化信息的 Python 库] — GitHub — GitHub
[Anthropic & NEC 合作：30,000 NEC 员工部署 Claude，建立日本最大 AI-native 工程团队 + Claude Cowork 用于金融 / 制造 / 政府垂直] — Anthropic News — Anthropic News
[Atomic：MIT-licensed 本地优先 AI 增强 Markdown 知识库，重建 iOS app + MCP/agent 工具集 + Obsidian 风格 markdown 编辑器（HN 61 pts）] — HN — HN
[Perplexity GPT-5.5 部署：Max 订阅访问 + Computer 默认编排模型] — AI News 4/25 — AI News 4/25
[Anthropic Mythos：4/25 报道发现 2,000+ 漏洞，触发跨组织响应] — opentools.ai — opentools.ai
[Claude Code 2.1.119：/config 设置（theme / editor mode / verbose）持久化到 ~/.claude/settings.json，参与 project/local/policy override 优先级] — Claude Code 更新 — Claude Code 更新
[Claude Cowork：在线交互可视化在所有付费 plan 开放（4/22）] — Anthropic News — Anthropic News
[Google × Anthropic：Anthropic 估值 $380B、Google 投 $40B（$10B 立即 + $30B 里程碑），Google Cloud 提供 5GW 5 年 TPU 容量、最多 100 万片 Ironwood TPU] — TechCrunch — TechCrunch
[Anthropic + AWS 4/20 公告：再 5GW 新算力——Anthropic 现持有 Google + AWS 共 10GW，仅次于 OpenAI 30GW 2030 目标] — TechCrunch — TechCrunch
[Meta × AWS：tens of millions of Graviton cores 部署 next-gen agentic AI] — opentools.ai — opentools.ai
[Anthropic 年化收入突破 $30B，传或最早 10 月 IPO] — TechCrunch — TechCrunch

← 2026.04.25 —