ENTRY 001/012
[ 论文 · 理论 · 深度学习 · SCALING · 学科宣言 ]
深度学习走向可预测科学:14 人联署提出"learning mechanics"
(There Will Be a Scientific Theory of Deep Learning)
Jamie Simon、Daniel Kunin、Alexander Atanasov、Enric Boix-Adserà、Blake Bordelon、Jeremy Cohen、Nikhil Ghosh、Florentin Guth、Arthur Jacot、Mason Kamb、Dhruva Karkada、Eric J. Michaud、Berkan Ottlik、Joseph Turnbull 14 人于 4/24 联署,正式命名一门新学科 learning mechanics:以"刻画训练过程、隐藏表征、最终权重和性能的重要性质与统计量"为目标,整合五条已有研究证据——(a) 提供学习动态直觉的可解析理想模型、(b) 揭示基础学习现象的可处理极限、(c) 捕捉宏观可观测量的简单数学律、(d) 把超参数从训练过程其他部分解耦的理论、(e) 跨系统跨设定的普适行为。核心方法论是 Discretization Hypothesis:把有限神经网络视为连续无限大系统的"含噪时空离散化",把宽度/深度推到无限后离散更新坍缩为可处理的 SDE 或梯度流。论文同时给出 12 个开放方向并配套开放社区。HN 351 分,是 4 月最受 ML 研究者关注的理论性论文之一。
这篇论文的真正分量不在哪个具体证明,而在它第一次把分散在十几个研究 PI 名下的工作整合为有共同名字的学科。过去十年深度学习理论一直被批评"只能解释 toy model、对真实大模型无用",所以即便 NTK、mean-field、SGD 隐式正则、scaling law 一条条都是有真分量的工作,整体上没有一个能被外部学者识别的"学科边界"——任何人都可以说"这只是另一个 toy theory"。Simon 等人把 14 个 PI 的工作整合为 learning mechanics,本质是对外宣告"我们已经形成可识别的研究范式,应该被当作一门学科对待"。这种命名行为本身在科学社会学上和"凝聚态物理"从固体物理脱出、"机器学习"从模式识别独立是同一种动作——决定的不是技术真理,而是学界资源分配的边界。
第二个值得读的是它对当前 scaling 经济学瓶颈的直接回应。论文明确写:"纯靠 trial-and-error 来 scale 过参数化模型已经在经济和算力上不可持续。"这条主张和 4/24 NVIDIA × OpenAI GB200 NVL72 35× 单 token 成本下降是同一根曲线的两侧——硬件侧把单位推理成本压低,理论侧把"该 scale 多大、用什么超参数"的预测从 trial-and-error 变成可外推。论文重点提出 zero-shot hyperparameter transfer across scales 是 learning mechanics 已经做到的具体能力(Maximal Update Parameterization µP 路线已经证明),下一步是预测 scaling law 的指数本身——这是当前完全空白的开放问题。如果 6-12 个月内有团队真把这步做通,frontier 实验室的 pretraining 选型就能从"花 1M GPU-hour 试一个超参组合"变成"先在小模型上算几个数字外推到 100B+",单次 frontier 训练成本可能下降一个数量级。
第三条隐性贡献是论文给非理论从业者的实操路径。它指出 learning mechanics 与 mechanistic interpretability、信息论是"共生关系"而非替代——前者解释训练动态,后者解释最终权重的内在结构,第三者解释表征压缩边界。这条三角主张对正在做 alignment 工程的团队是重要的认知重构:当前 alignment 工程把 mechanistic interpretability 当作核心工具(找电路、找 feature),但论文提示"训练动态"也是一条独立的诊断维度——比如"为什么这个 capability 在某 step 突然出现?"是 learning mechanics 的范畴,不是 mech interp 的范畴。两条路线交叉后,对 capability emergence、reward hacking 内化(4/19 RLVR 论文揭示)、alignment training 的稳定性都会有更结构化的解释工具。
ENTRY 002/012
[ 开源 · 推理优化 · SGLANG · VLLM · MILES · RL · FP8 ]
DeepSeek-V4 Day 0:SGLang + Miles 把 1M 上下文 + Verified RL 训练栈一次开源
(DeepSeek-V4 on Day 0: From Fast Inference to Verified RL with SGLang and Miles)
4/25 LMSYS 公布 SGLang 对 DeepSeek-V4 的 Day 0 支持完整工程细节。推理侧:(1) ShadowRadix 用虚拟 token slot + 每池索引映射,把 V4 的 hybrid sparse-attention(128 token sliding window + 4:1 top-k 或 128:1 dense 压缩)原生纳入前缀缓存;(2) HiSparse 把 KV cache 扩展到 CPU 内存,吞吐最高 3×;(3) Flash Compressor 融合压缩算子达到 80% 峰值内存带宽;(4) Lightning TopK 用自定义 radix-select kernel 把延迟压到 ~15µs。性能:B200 Pro 4K 上下文 199 tok/s、900K 上下文 180 tok/s;H200 Flash 4K 266 tok/s、900K 240 tok/s——1M 上下文下吞吐衰减不到 10%。训练侧:开源 Miles RL 框架,全 6 种 Megatron 并行(DP/TP/SP/EP/PP/CP)、FP8 rollout / BF16 训练、Rollout Routing Replay (R3)、Indexer Replay(实验性,捕获 rollout 阶段的 top-k 选择),train-inference divergence 0.02-0.03 的稳定 verified RL 训练曲线。
V4 上周作为模型本身已经是头条,这条 follow-up 的真正价值在于第一次把"frontier 长上下文模型"的全栈开源工程细节摊开。过去 1M 上下文模型一旦发布,社区第一周通常只能等"加载到 vLLM 但没法跑超过 200K"——CSA/HCA 这类新型注意力机制需要推理引擎重新写 attention kernel + KV 管理 + prefix cache,工程门槛把模型可用性卡死至少 2-4 周。SGLang 选择 Day 0 同步发布 ShadowRadix + HiSparse + Flash Compressor 三个新原语,等于把 V4 的工程墙拆掉——任何企业拉模型回内部跑 1M 上下文的路径在发布当天就通了。这条节奏和 4/24 V4 模型本身的发布是协调安排,不是 SGLang 团队凑巧 Day 0 跟上:HN 评论里指出 SGLang 与 vLLM 都收到了 embargoed 预览代码。
工程细节里 HiSparse 的 CPU-extended KV 最值得重点读。1M 上下文场景下 KV cache 在 GPU 显存上的占用即便经过 DeepSeek 自己 CSA/HCA 压缩后仍然紧张——单 H200 141GB 显存大约只能放 8-10K active session。HiSparse 把 cold path KV 卸载到 CPU DRAM、hot path 留在 GPU,配合 RDMA-based prefetch,吞吐 3× 这条数字意味着 H200 单节点能服务的 1M 上下文并发数从 8 拉到 24+。这条工程优化对真实 SaaS 部署的影响远大于那 199 vs 240 tok/s 的对比——并发能力是企业部署 frontier 长上下文的硬瓶颈,单点延迟反而是次要问题。Lightning TopK 15µs 这个数字也回应了一个长期质疑:稀疏注意力的 top-k 选择算子本身会不会变成新瓶颈?答案是不会——15µs 远低于 attention 主体计算的毫秒级耗时。
Miles 的 R3 + Indexer Replay 是另一条容易被忽视的开源贡献。RLVR 训练的最大工程痛点是 rollout 阶段的非确定性——同一组 prompt 在不同 rollout instance 上会因为 routing 抖动得到不同 top-k 选择,导致重训不可复现且 reward 分布失真。R3 在 rollout 后保存完整路由决策、Indexer Replay 保存 sparse attention 的 top-k 选择,让训练阶段能精确重放——这等于把 4/19 RLVR Reward Hacking 论文揭示的"verifier 被 exploit"问题在工程层补了一道缝。FP8 rollout + BF16 训练这一组合也是开源 V4 训练 recipe 第一次公开 train-inference divergence 数字(0.02-0.03),给所有打算复现的团队一个明确的健康指标。这条与 DeepSeek 论文同发布、SGLang 与 Miles 双开源的节奏,是 2026 年春天"frontier 模型 + 推理栈 + RL 训练栈"完整开源的第一例。
ENTRY 003/012
[ ANTHROPIC · CLAUDE · POSTMORTEM · EVALS · 工程教训 ]
Anthropic Claude Code 4 月降级三 bug 复盘:evals 漏检的工程教训
(An update on recent Claude Code quality reports)
4/23 Anthropic 工程团队公开复盘 3-4 月用户大面积反馈的 Claude Code 质量下滑事件,确认三条独立 bug 叠加导致一个月感知降级。Bug 1(3/4-4/7):把默认 reasoning effort 从 high 降到 medium(出于 UI 卡顿与 token 用量考虑),4/7 反向并把 Opus 4.7 上调到 xhigh、其他模型 high。Bug 2(3/26-4/10):使用 clear_thinking_20251015 API header 配合 keep:1 试图在 idle >1h session 恢复时清理旧 thinking 块,bug 导致每个 turn 都执行清理而不是仅一次——"Claude 会继续执行,但越来越不记得它为什么选择当前动作",并附带 cache miss 加剧用量耗损,v2.1.101 修复。Bug 3(4/16-4/20):加入 system prompt 强制响应 ≤25 词工具间 / ≤100 词最终回复,broader ablation 显示 Opus 4.6/4.7 编码质量降 3%。三条 bug 内部 evals 与单测均未 catch;社区压力主要来自 AMD AI 高级总监 Stella Laurenzo 公开审计 6,852 个 session + 234,000 工具调用。整改:内部员工改用公开 build、所有 system prompt 变更需 per-model eval sweep + ablation、智力相关 trade-off 必须 soak period + 渐进发布;4/23 全员用量重置。
这次复盘最重要的不是三条 bug 本身,而是 Anthropic 公开承认 "none of the issues were caught by Anthropic's internal evals or unit tests before shipping"——这条声明对整个行业的工程意义远大于一次产品事故。Claude Code 是把"自动 code review"作为旗舰能力的产品,结果它自己的部署 pipeline 在三条 bug 上 evals 全部漏检,这是对"用 LLM eval 替代人工 QA"叙事的一次直接打击。具体看:(1) reasoning effort 从 high 降到 medium 在内部 benchmark 上看不出区别(因为 benchmark 任务都偏短,medium 够用),但在用户真实长程任务上立刻劣化——说明 benchmark 与生产分布的差距比团队想象的大;(2) caching bug 把 thinking 块每轮清掉,evals 看不出问题是因为 evals 通常是单次 turn 测试,而 bug 只在多 turn 长 session 中累积;(3) 25/100 词的 verbosity prompt 在内部 eval 上显示无 regression,但 broader ablation 测了"每条 prompt 行的独立影响"才发现 3% 编码质量下降。这三件事共同指向一个工程现实:LLM 产品的真实质量曲线和 benchmark 曲线之间存在系统性偏差,而当前所有厂商的 evals 设计都偏向 benchmark 那一侧。
整改措施里"all system prompt changes require a per-model eval sweep with ablations"是一条很重的承诺。现在主流 LLM 产品的 system prompt 通常是几千字、几十条规则的复合文本,每改一条都要做 ablation 意味着 ablation 矩阵会指数级膨胀——一个有 50 条 prompt 规则的产品要做 50 条独立 ablation × N 个模型 × M 个任务族,单次 prompt 改动的 eval 成本可能高达数千 GPU-hour。Anthropic 选择吃下这个成本,本质是承认"system prompt 的单条改动可以撬动产品 3% 性能"这件事在 2026 年春天的 frontier 模型上是可重复出现的隐患——而 GPT-5.5 / Gemini 3.1 Pro / Kimi K2.6 / DeepSeek-V4 等竞争对手大概率有同样的暴露面但还没被发现。这是一条会改写整个行业 LLM 产品 release process 的工程惯例。
社区压力的角色尤其值得注意。Stella Laurenzo(AMD AI Senior Director)公开审计 6,852 session + 234,000 工具调用 是这次复盘的临界推动力——没有这份外部审计,Anthropic 内部"我们 evals 没看到 regression"的解释会一直成立。这条经验对正在做 LLM 产品的团队是直接信号:用户看到的 quality drift 在 telemetry 里通常先于 evals 显现,所以建立"用户 session 级别的回归监控"(不是"模型 benchmark 回归监控")是必要的第二层防线。Cache miss 那条 bug 也提示一个具体工程指标——cache hit rate 突然下降比模型分数突然下降更早暴露问题,应该作为 SLO 一等公民。整体看这次复盘是 Anthropic 把"transparency 作为护城河"的一次投资:竞争对手未来如果出现类似事故却选择沉默,会承受相对更大的信任损失。
ENTRY 004/012
[ OPENAI · 安全 · JAILBREAK · 生物安全 · 红队 ]
OpenAI GPT-5.5 Bio Bug Bounty:$25K 求 universal jailbreak
(GPT-5.5 Bio Bug Bounty)
4/23 OpenAI 启动 Bio Bug Bounty:$25K 单笔奖金给任何能用一条 universal jailbreak prompt 在 Codex Desktop 上绕过 GPT-5.5 安全分类器、回答全部 5 道生物安全问题(不被 moderation 拦截)的研究者。仅对受邀的 vetted bio red-teamer 开放,所有 prompt / completion / 通信均受 NDA 约束。申请 4/23 开放、6/22 截止;测试 4/28-7/27。仅对 Codex Desktop 环境(非通用 ChatGPT)开放——明确针对"工具增强 + step-wise 规划"放大风险的工作流。
把"universal jailbreak"作为悬赏目标,是 frontier 厂商安全策略的一个值得标记的转向。过去主流的红队悬赏定价模型是"按发现的单点漏洞付费"——HackerOne / Bugcrowd 模式下一个 prompt 拿一个 reward。OpenAI 选择"$25K 给单条覆盖全部 5 题的通用 prompt"等于宣告"单点漏洞我们已经不太担心,真正威胁是可被自动化、可打包、可分发的通用攻击模板"。这条转变背后的现实判断是:单点漏洞的修复是定向 SFT/RLHF 加几个负样本就能完成的工程任务,但通用 prompt 一旦泄露可以被恶意行为者编进自动化工具链批量利用——4/19 Route to Rome Attack 论文证明 router 层可被 suffix optimization 攻击是同类思路。"通用性"作为悬赏门槛把红队工作的难度抬高一个数量级——你不能凑巧绕过一题就拿钱,必须证明同一条 prompt 能稳定通关。
Codex Desktop 限定也是这次悬赏的一个隐含信号。OpenAI 选择只在 Codex Desktop 这一个 surface 上开放测试,不在 ChatGPT web/API 上,意味着团队明确认为"agent + tool use + step-wise 规划"是当前生物安全风险最高的工作流——单轮 ChatGPT 即便输出违规内容也只是文本,但 Codex Desktop 可以执行命令、读写文件、调用搜索 API,把违规知识立刻 operationalize。这一定位呼应 4/15 AISI 对 Claude Mythos 的评测发现:"agent + tool 的复合能力比 base model 更危险"。从产品策略看,OpenAI 在不公开 GPT-5.5 通用 API 之前先把生物安全这条最敏感能力的红队完成,是 4/16 Trusted Access for Cyber 之后的第二个垂直安全栈——下一步可能是 Bio Trusted Access for Healthcare/Pharma。
需要冷静读的反面:$25K 单笔奖金对真正具备 bioweapon 知识的攻击者而言不是激励上限。如果一条通用 jailbreak prompt 真能稳定生效,黑市价值远高于 25K——竞品厂商、反 AI 组织、甚至国家级威胁行为者都会竞价收购。OpenAI 这条悬赏的真实意义是为研究者提供一条合法的披露通道,而不是穷尽所有可能的攻击者动机。NDA + 受邀机制把"找到漏洞但选择公开发表"的路径堵死,对学术界生物安全红队是一种明显的信号——你的发现只有在 OpenAI 体系内才有价值。这是利弊参半的设计:好处是确保高风险信息不扩散,坏处是把独立红队评估能力垄断到厂商手里,外部审计的可信度被削弱。
ENTRY 005/012
[ ANTHROPIC · AGENT · 实验 · 公平性 · 多AGENT谈判 ]
Anthropic Project Deal:69 名员工 + 4 个市场 + 186 笔成交揭示"agent quality gap"
(Project Deal Marketplace)
2025 年 12 月 Anthropic SF 办公室搭建内部 classified 二手市场(snowboard、乒乓球等真实物品),69 名自选员工各分 $100 礼品卡预算,全部由 Claude agent 在 Slack channel 内代理谈判(人零干预)。每位员工先被 Claude 面试以提取卖家偏好 / 买家清单 / 个人指令,转成定制 system prompt 后投放。共运行 4 个并行市场——一个"真实"(统一用最强模型,成交后实物兑现),三个用于研究对照。实证结果:186 笔成交、$4,000+ 总成交额;随机分组 Opus 4.5 vs Haiku 4.5 代理人双盲,Opus 卖家平均多赚 $2.68/件、买家多省 $2.45/件、多成交 2.07 笔;用户对自己的 agent 是否高质量完全无感知——揭示新的公平性议题 "agent quality gap"。46% 参与者表示愿付费购买类似服务。Anthropic 本周(4/25)公开报告。
Project Deal 在新闻报道里通常被当作"AI 卖货真有趣"的轻报道,但报告本身揭示的"agent quality gap 不可感知"这条发现是 2026 年 agent 商业化最有分量的实证结论。双盲条件下 Opus 用户每笔多赚/省 $2.5、多成交 2 笔,但用户并不知道自己被分到了哪个模型;推到生产场景里,这意味着:(a) 当所有客户都通过 agent 与商家交互、商家可以选择"给所有客户上 Opus"或"对低价值客户用 Haiku"时,价值歧视会以"agent 质量歧视"形式出现,且用户没有任何工具识别这种歧视;(b) 所有 SaaS agent 服务(旅行预订、招聘、保险报价、二手交易)的"基础模型选择"会成为隐性的服务质量分级——比 chatbot 的回答质量更难审计,因为前者是单点对话差异,后者是长期累积成交结果差异。
这条实验在工程方法论上的贡献也值得注意。4 个并行市场设计(1 真实 + 3 对照)是 RLHF preference data 之后第一次有 frontier 厂商在真实经济场景下做 model A/B 对照的规模实证——不是 benchmark 上的 pass@k,而是真金白银的成交差距。这条 protocol 可以被复用到任何 agent 产品的 quality 评估:让 agent 在 stake-bearing 任务上互相博弈,用经济结果(成交价、成交量、用户满意度)作为 ground truth,比用 LLM-as-Judge(4/19 论文揭示 stake signaling 偏差最多 30%)或人工偏好打分(成本极高)都更可靠。这条方法论对正在做 agent product 的团队是直接可借鉴的:搭一个内部"真实任务市场"让自家 agent 与对照 agent 互相博弈,用经济信号校正 benchmark。
需要冷静读的边界:69 人 / $100 / 单办公室 是非常小的实验规模,Anthropic 自己也明确写"a pilot experiment with a self-selected participant pool"。这条数据不能直接外推到"百万用户、跨地域、信息不对称严重"的真实市场——例如 Claude 互相谈判用的是相同 base model,价格发现可能受 model bias 拖累;又例如真实市场里卖家和买家对物品估值差距远大于 Anthropic 员工对乒乓球的估值差,agent 能否在真正复杂的偏好结构下仍然稳定 close deal 是开放问题。但即便是 pilot scale,46% 愿付费这条市场调研数据也足够说明 agent-mediated commerce 在用户心智上已经过了"是否能用"的门槛——下一步选型决策已经聚焦"agent 用哪个底模"和"agent 行为如何被监管"。
ENTRY 006/012
[ 论文 · 视频生成 · 4D · 相机控制 · 世界模型 ]
Vista4D:4D 点云锚定的视频重拍跃居 HF Papers 99 投票 🔄
(Vista4D: Video Reshooting with 4D Point Clouds)
4/23 提交、4/24-25 在 HF Papers 持续上升至 99 投票(4/25 报道时仅 7 投票,48 小时增长 14×),由 Eyeline Labs 主导。核心命题:视频重拍不能只靠 depth 估计,需要 4D-grounded 点云作为几何与外观双锚。架构:(1) static pixel segmentation 把场景中"静止 vs 动态"区分开,静止部分用点云锁定外观避免漂移;(2) 4D 重建保持时间一致性;(3) 训练用重建出的多视角动态数据扩增鲁棒性。结果:在 4D 一致性、相机控制、视觉质量上全面优于现有 baseline;支持动态场景扩展、4D 场景重组合等下游应用。
Vista4D 这次 HF Papers 投票暴涨直接对应 4/23 WorldMark 揭示的痛点——"视觉质量与世界一致性几乎不相关"。WorldMark 在跨模型公平对比下发现 YUME 1.5 视觉最佳但 60 秒内场景结构坍塌,问题根源就在大多数视频生成模型只靠隐式 depth 维持几何,长程下会逐步漂移。Vista4D 的 4D 点云锚定路径直接回应这个失效模式:点云作为外部几何和外观锚,把"维持长程一致性"从模型隐式 capacity 转移到显式数据结构上。这条路径与 4/16 腾讯 HY-World 2.0 / 4/18 NVIDIA Lyra 2.0 走的"3DGS 资产化"路线异曲同工,但 Vista4D 的目标场景更聚焦——不是从单图生成 3D 世界,而是给已有视频做"换相机轨迹的重拍",对影视后期、虚拟拍摄、广告制作的工程价值更直接。
Static pixel segmentation 是 Vista4D 最具差异性的工程选择。视频重拍的失败 mode 大致两类:(1) 静止物体在新视角下看起来"飘"或"换了纹理"——场景墙面、地面这类应该锁死的细节被重新生成了一次;(2) 动态物体(人、车)的运动轨迹被 distorted 到反物理位置。前一类问题的解法历史上是 NeRF / GS 重建(费时且只对静态场景有效),Vista4D 把 static 部分用 segmentation 单独抽出来用点云锁定外观,dynamic 部分用 4D 重建保持时间一致——这条"静动解耦"在工程上比"统一用一个 video diffusion 端到端"更稳。
对短视频 / 影视后期 / 虚拟拍摄团队,Vista4D 是当前最值得重点跟进的开源世界模型工作之一。它的应用场景"给已拍摄视频换相机角度"在传统流程里需要昂贵的多机位拍摄或 CG 重建——Vista4D 把这两步压缩到一次推理。配合 4/24 Odyssey-2 Max 的"实时物理一致性"路线,世界模型在 2026 年春天首次形成"内容生成(YUME / HY-World)、几何资产(NVIDIA Lyra)、视频重拍(Vista4D)、实时物理(Odyssey)"四种独立产品形态——选型不再是"哪个最强",而是"你的工作流需要哪种 paradigm"。
ENTRY 007/012
[ BENCHMARK · LAMBDA-CALCULUS · 形式推理 · 评测 ]
LamBench:120 题纯 lambda calculus 基准揭示 GPT-5.5 反而比 5.3 弱 16 个点
(Lambda Calculus Benchmark for AI)
Victor Taelin(HVM、Bend 作者)4/25 发布 LamBench v1:120 个纯 lambda calculus 编程问题,模型必须输出 .lam 文件定义 @main,harness 通过 lambda 归约比对完整 normal form 才算通过。问题分 12 类、每类 10 题,覆盖 BF interpreter、迷宫求解、Sudoku、Church/Scott 编码(自然数、二进制、列表、树、ADT)、N-Tuples 等。结果:GPT-5.3 Codex 与 Opus 4.6 并列第一 108/120 (90.0%),Opus 4.7 与 Gemini 3.1 Pro 并列第三 106/120 (88.3%),GPT-5.4 仅 96/120 (80.0%)、GPT-5.5 反而下滑到 89/120 (74.2%)——领先模型在纯符号推理上呈现非单调能力曲线。
LamBench 的真正价值在于揭示一条主流 benchmark 几乎不覆盖的能力维度:纯符号 / 形式系统操作。LiveCodeBench、SWE-Bench、HumanEval 这些基准都是"在 Python/JS/Rust 这种实践语言里写函数"——模型可以借助海量 GitHub 训练数据 pattern-match。Lambda calculus 不一样:纯函数式、所有数据结构必须用 λ 编码(自然数 = Church numeral)、没有可借鉴的"标准库写法"——模型只能依靠对形式系统的真正理解。GPT-5.5 反而比 GPT-5.3 Codex 低 16 分这条数字非常刺眼,因为 GPT-5.5 在 LiveCodeBench、SWE-Bench Pro 等实战 coding 基准上是 OpenAI 当前最强(4/24 GPT-5.5 报道)。这条非单调性提示一个重要的可能:模型规模的扩大伴随训练数据的扩展,可能会"挤掉"早期模型在窄而深的形式推理能力上的强度——也就是说"更大、更新、更通用"的模型在某些细分能力上可以是退化的。
Opus 4.6 与 GPT-5.3 Codex 并列第一(都 108/120)也值得关注。Opus 4.7 比 4.6 反而低 2 题——这条与 4/23 Anthropic Claude Code 复盘揭示的"verbosity prompt 让 Opus 4.7 编码降 3%"是同一种回归现象。如果 4.7 在 lambda calculus 上的回归不是 verbosity prompt 导致而是 base model 本身的变化,那么 Opus 4.6 在结构化推理上的能力可能反而被 4.7 的"更通用 RL 训练"稀释。Gemini 3.1 Pro 88.3% 与 Opus 4.7 并列也提示一个非常稳定的现象:当前 frontier 模型的形式推理能力天花板大致在 88-90% 区间——超过 90% 需要专项训练(GPT-5.3 Codex 是 coding 专项 fine-tune 模型)。
工程实操层面,LamBench 给"模型选型"提供了一条罕见的非主流维度。如果你的应用场景是需要可验证的形式推理(编译器、定理证明助手、智能合约验证、形式化模型生成),那么模型选型不应该看 LiveCodeBench 而应该看 LamBench 这类 benchmark——GPT-5.3 Codex 和 Opus 4.6 在这条维度上明显胜过 GPT-5.5 和 Opus 4.7,价格也低。这条 benchmark 的更深远影响可能是推动行业重新思考"前沿模型"的定义——单一指标越来越无法反映模型的能力组合,多维度 benchmark 矩阵会变成 frontier model 选型的新标准。
ENTRY 008/012
[ 开源 · AGENT · 记忆 · PGVECTOR · MCP ]
Stash:Apache 2.0 的 agent 持久记忆层 + pgvector 多阶段 consolidation pipeline
(Open source memory layer for AI agents)
4/25 开源的持久记忆层,HN 172 分。架构:PostgreSQL + pgvector 做向量存储,多阶段 consolidation pipeline 将原始观察逐层提升——Episodes(append-only 原始观察) → Facts(LLM 综合的带置信度信念) → Relationships(实体知识图) → Causal links(因果关联) → Patterns(高阶抽象) → Contradictions(自我修正) → Goals/Failures(意图与失败追踪)。与 RAG 的差异:RAG 是"快速图书馆员"在预定义文档中搜索,Stash 是"会成长的脑"——能追踪目标、做因果推理、自我修正矛盾。部署:Docker Compose 三命令启动;OpenAI 兼容 API 后端(OpenRouter / Ollama / Groq / vLLM / 自部署);原生 MCP 支持,提供 28 个工具给 Claude Desktop / Cursor 等任意 MCP-compatible agent;分层命名空间(/self、/user/preferences、/project)做语义隔离;Apache 2.0。
Stash 把 4/19-4/25 这一波"agent 记忆层"产品化竞赛推到第 5 种范式。当前已有:filesystem-mounted(Anthropic Managed Agents Memory)、Durable Object + Vectorize(Cloudflare Agent Memory)、shared context(OpenAI Workspace Agents)、swarm sub-agent(Kimi K2.6)、git-native markdown(WuPHF)——Stash 加入 PostgreSQL + 多阶段 consolidation 这条更接近"传统认知科学的记忆模型"。多阶段 pipeline 的设计明显借鉴人类记忆研究:Episodes ≈ episodic memory、Facts ≈ semantic memory、Patterns ≈ schema、Goals/Failures ≈ procedural memory。这条认知科学路径在工程上的代价是 pipeline 推理成本 ——每一条新 Episode 都要被 LLM 综合成 Fact、嵌入到 Relationship 图、检测 Contradictions,每一步都是一次 LLM 调用。对成本敏感的部署,这条 overhead 可能让 Stash 在长时段大规模 agent 上比 git-native markdown 路线(WuPHF)昂贵 5-10×。
与 RAG 的对比是 Stash 最值得标记的认知重构。社区过去 18 个月把"长期记忆"约等于"vector search + 文档存储",本质是把记忆当只读知识库。Stash 的关键主张是记忆必须是可写、可演化、可自我修正的——Contradictions 检测让记忆遇到冲突会自我标记、Goals/Failures 让 agent 知道"我之前尝试过且失败了"。这条主张和 4/15 MEDS(历史失败 rollout 惩罚)、4/19 RLVR Reward Hacking 论文是同一根问题的不同侧面:agent 系统需要不仅"记住事实"还需要"记住自己的行为历史并从中学习",否则会在同一类失败上反复栽跟头。Stash 把这种行为级别的记忆做到 schema 层面,是对"记忆 vs RAG"二元对立的明确突破。
对正在选型 agent 记忆层的团队,5 种范式的差异不是优劣而是部署边界。Stash 适合:(a) 需要审计 / 可解释记忆(Episodes append-only + 多层 pipeline 留下完整证据链)、(b) PostgreSQL 已经在生产、(c) 单租户企业部署。WuPHF 适合:multi-agent 协作、人类可 git diff 审计。Cloudflare Agent Memory 适合:多租户 SaaS、edge 部署。Anthropic Managed Agents Memory 适合:完全 lock-in Claude 平台、文件系统语义直观。OpenAI Workspace Agents 适合:团队共享 + ChatGPT 已有用户。选型决策已经从"要不要记忆"完全转移到"哪种记忆抽象匹配业务"——这条转变在 2026 年春天发生得非常快,4 月初还在讨论"记忆是不是必须",4 月底已经在讨论"五种范式怎么选"。
ENTRY 009/012
[ 论文 · 具身智能 · IMU · LLM · 4D重建 · 无视觉 ]
"Seeing Without Eyes":用 IMU 传感器 + LLM 重建 4D 人体与场景
(Seeing Without Eyes: 4D Human-Scene Understanding from Wearable IMUs)
提出 IMU-to-4D 框架,仅用耳机、手表、手机的惯性传感器数据(无任何视觉输入),重建 4D 人体动作与粗略 3D 场景结构。核心方法:"repurpose LLMs for non-visual spatiotemporal understanding of human-scene dynamics"——把 LLM 当作非视觉时空推理引擎,输入是 IMU 时间序列,输出是人体姿态序列 + 场景几何。在多个 human-scene 数据集上比 SoTA 级联管线"更连贯且时间稳定"。优势:隐私、安全、能效、可扩展性都优于摄像头方案。
这篇论文的真正分量不在重建质量数字,而在首次系统性地验证 LLM 可以做"非视觉的时空推理"。过去两年大模型在多模态上的扩张几乎全部聚焦"加视觉"——CLIP、GPT-4V、Gemini Vision、Claude Vision——所有故事都是"语言模型 + 看图能力"。IMU 是一类完全不同的模态:6 自由度(三轴加速度 + 三轴陀螺)的时间序列,无空间结构、无 RGB 像素、无 token 化的常规手段。把 LLM 应用到这种纯数值时间序列上去重建 4D 人体姿态 + 场景,等于宣告 LLM 的内在"理解时空动态"能力可以脱离视觉训练单独被激活——这条主张如果稳定可复现,会改写多模态扩展的整个叙事。
工程意义上,"IMU-only 4D 重建"对消费电子是颠覆性可能。Apple AirPods、Apple Watch、AirTag 都内建 IMU 但当前几乎只用做计步、活动识别这类粗粒度信号。如果 IMU-to-4D 的精度足够把"用户在房间里如何走动 / 物品的相对位置"重建出来,那么 AirPods + Watch 的组合可以在不打开摄像头的情况下提供类 AR 的空间理解能力——这对隐私敏感场景(家庭、办公、医疗)是摄像头方案完全无法替代的功能。配合 4/19 Driftwood(WASM × Apple Silicon 零拷贝 GPU 推理)和 4/22 OpenAI Privacy Filter(端侧 PII 脱敏),"端侧 + 无视觉的环境感知" 在 2026 年春天首次具备完整工具链可能。
需要冷静读的边界:论文报告的对比 baseline 是"级联管线"(IMU → 姿态 → 场景),没有公开与摄像头方案的精度对比。仅 IMU 重建场景结构的物理可行性是有理论上限的——加速度积分会累积误差、缺少绝对参考点、无法识别物体 identity。所以"4D 场景"的"D" 多大概率是粗略几何(大型家具位置 / 房间边界)而不是精细物体级别。但即便如此,"无视觉、低功耗、隐私友好"这条产品维度在 2026 年下半年消费 AR 设备竞争中可能成为新的差异化轴。
ENTRY 010/012
[ 论文 · 视频 · 时间建模 · 自监督 · 世界模型 ]
"Seeing Fast and Slow":自监督学习视频时间流,把"播放速度"做成可控维度
(Seeing Fast and Slow: Learning the Flow of Time in Videos)
Yen-Siang Wu、Rundong Luo、Jingsen Zhu、Tao Tu、Ali Farhadi、Matthew Wallingford、Yu-Chiang Frank Wang、Steve Marschner、Wei-Chiu Ma 等 9 人 4/23 提交。利用视频中天然存在的多模态线索与时间结构做自监督学习,让模型感知播放速度变化、估计绝对播放速度。下游应用:(1) 从噪声真实视频中筛出最大规模慢动作数据集;(2) 速度条件视频生成(指定播放速度生成动作);(3) 时间超分(低 FPS 模糊视频→高 FPS 清晰运动);(4) 时间取证检测(识别 manipulated 视频)。核心贡献:把"时间"作为可操控的感知维度,让时间可控生成 + 取证 + 更丰富的时间世界模型成为可能。
这篇论文与 Vista4D 是同一周 HF Papers 上"视频生成与重新合成"主题的两个并行方向,但思路完全不同——Vista4D 操控空间维度(换相机视角),Seeing Fast and Slow 操控时间维度(换播放速度)。两者合起来构成"4D 视频可控生成"完整问题空间的两条正交轴。过去 video diffusion 模型几乎都把"播放速度"作为隐式不变量——训练数据是以"自然速度"录制的,模型既不知道也不能控制这个变量。Wei-Chiu Ma(论文通讯)等人的洞察是:速度本身是有学习信号的——同一段动作在 2× 加速下与 0.5× 减速下的视觉特征有系统性差异(运动模糊、空气阻力、惯性表现),自监督就能从未标注视频里挖出来。
下游应用里时间取证检测的实用价值最容易被低估。当前 deepfake 检测主要做"空间维度的伪造检测"(人脸纹理、光照不一致),但越来越多的 manipulated 视频是时间维度的伪造——把真实视频部分加速 / 减速 / 复制粘贴某些帧来改变事件叙事。Seeing Fast and Slow 训练出的时间流估计器可以在不依赖人工标注的情况下识别"这段视频的播放速度异常",这是当前主流取证工具的盲点。配合 4/25 Succinct ZCAM(iPhone Secure Enclave 内 cryptographic 拍摄签名 + C2PA manifest),"内容认证 + 时间取证"可以从拍摄端和后期检测端双向夹击 manipulated 视频——这是 2026 年内容真实性这条战线的两条独立但可叠加的工具链。
最大慢动作数据集这个产物本身也是有持续价值的资产。慢动作视频在影视、广告、运动分析里需求巨大但稀缺——专业拍摄需要高速摄像机(千 FPS 起步),数据集主要靠艺术摄影师手工积累。从噪声真实视频中自动筛选高 FPS 片段构建数据集,等于把"高速摄影"的内容供给从硬件门槛拉到算法可获得。对正在做 video generation 的团队,这条数据集本身就是值得跟进的 release。
ENTRY 011/012
[ 论文 · 理论 · 公平性 · 校准 · 样本复杂度 ]
Multicalibration 样本复杂度:Õ(ε⁻³) 的紧上下界
(The Sample Complexity of Multicalibration)
Natalie Collina、Jiuyao Lu、Georgy Noarov、Aaron Roth 4/23 提交。首次给出 multicalibration 样本复杂度的紧上下界:当群组数 |G| ≤ ε⁻ᵏ 时,Õ(ε⁻³) 样本既必要也充分(忽略 polylog 因子);推广到加权 Lₚ 度量(1 ≤ p ≤ 2)时最优指数为 3/p;当 κ=0 时复杂度降到 Õ(ε⁻²),呈现锐相变。这条结果的关键意义:multicalibration 比 marginal calibration 本质上更难,后者是 Õ(ε⁻²) 而前者是 Õ(ε⁻³);且 multicalibration 在 batch 与 online 设定下复杂度相同,与 marginal calibration(batch 更容易)形成对照。
Aaron Roth 团队这条结果是 fairness ML 理论里第一次给出 multicalibration 的紧致 sample complexity——过去六年这个量只有零散的上下界,常常差好几个 ε 数量级。**Õ(ε⁻³) vs marginal Õ(ε⁻²)**这条本质差距的意义远超学术——它告诉所有部署 fairness-aware ML 系统的团队一个可量化的现实:把校准要求从"整体分布"提升到"每个 protected 群组都校准",所需训练数据量从二次方变成三次方。具体感知:如果整体校准到 ε=0.01 需要 10⁴ 样本,那么对所有群组同时校准到 ε=0.01 需要 10⁶ 样本——100 倍的数据缺口。这条数字对 healthcare、credit scoring、招聘等监管 ML 场景的实际预算配置直接相关。
Batch ≈ Online 这条等价对算法设计是更深的指引。传统 ML 直觉里 batch(看完所有数据再学)应该比 online(一条一条学)容易很多——marginal calibration 就是这样。Multicalibration 上两者复杂度相同意味着 batch 算法在这个问题上没有任何信息论优势,所有"先收集再批训"的工程优化方案都不能减少所需样本数。这条结论对正在设计 fairness-aware 训练 pipeline 的团队的指导是:与其投资更复杂的 batch optimization,不如投资数据采集——后者是真实瓶颈。
理论 ML 在 2026 年春天连续出现 important results。和 4/24 LamBench、4/26 "Scientific Theory of Deep Learning" manifesto 放在一起看,深度学习理论的"复兴年"叙事正在成型。过去十年 deep learning 在工程上一骑绝尘但理论被认为"过时",2026 年春天三件事同时发生:(a) frontier 模型规模 stabilize 让理论分析的"无限宽极限"假设有意义;(b) 算力成本压力让 trial-and-error 不可持续,理论指引超参数变成刚需;(c) 监管要求让 fairness / calibration / safety 的可证明保证变成生产需求。这三个驱动力在结构上保证理论 ML 在未来 18-24 个月会持续重要——本论文是这条曲线的一个早期 milestone。
ENTRY 012/012
[ 开源 · AGENT · OPENCLAW · GPT-5.5 · 多AGENT ]
OpenClaw v2026.4.23:GPT-5.5 + GPT-image-2 OAuth + forked-context subagents
(OpenClaw 2026.4.23 Release)
4/23 OpenClaw 主版本发布,重点更新:(1) GPT-5.5 Codex OAuth 集成——openai-codex/gpt-5.5 通过 OAuth 直连,cron 与 subagent run 不再因 catalog discovery 缺失而失败;(2) forked-context subagents——sessions_spawn 原生支持子 agent 可选继承父 agent 完整 transcript(默认仍是隔离 fresh session),用于需要上下文连续性的子任务;(3) OpenAI gpt-image-2 / OpenRouter 图像生成与 reference-image 编辑——通过 Codex OAuth 无需 OPENAI_API_KEY,agent 可请求质量 / 输出格式 hint,多 reference 编辑改用 multipart upload 替代 JSON data URL 修复了之前的失败模式;(4) CLI / Plugin / Memory 改进——/ 触发 prompt-build hooks、bundled plugin 跳过 npm 安装、MEMORY.md canonicalization、Anthropic Vertex ADC 模型发现修复。
这次更新最值得标记的是 forked-context subagents 这条架构选择。当前所有主流 agent 框架(DeerFlow 2.0、CrewAI、AutoGen、Kimi K2.6 swarm)的 sub-agent 默认都是 fresh session——子 agent 启动时不继承父 agent 的对话历史,由父 agent 显式传入相关 context。这条默认配置的好处是避免上下文污染与 token 浪费,但在某些任务上反而成为问题:当子 agent 需要"前面对话里的某个细节"而父 agent 又没主动传入时,子 agent 必须反复询问父 agent,长程任务下产生大量冗余 turn。OpenClaw 加入"可选继承 transcript"的开关让开发者按任务粒度选择——这条灵活性反映 2026 年春天 multi-agent 框架已经过了"feature 添加期",进入"行为可调期"。
GPT-5.5 通过 Codex OAuth 直连是另一个值得注意的技术细节。OpenAI 当前 GPT-5.5 不开放标准 API(4/24 报道),但通过 Codex Desktop 的 OAuth 流程可以间接调用——这是开源 agent 框架接入 GPT-5.5 的唯一可行路径。OpenClaw 抢先把这条路径产品化,等于在 GPT-5.5 通用 API 释放之前给社区提供了一条"提前用上 GPT-5.5"的灰度通道。配合 4/24 Anthropic Workspace Agents、4/24 Kimi K2.6 swarm,开源多 agent 栈在 4/22-4/26 这一周已经把 GPT-5.5 / Claude Opus 4.7 / Kimi K2.6 三大 frontier 模型同时纳入可调度集——agent 框架的"模型选择层"已经成为新的竞争维度。
这次发布还把 gpt-image-2 通过 multipart upload 而非 JSON data URL 这条修复单独标记,是工程细节但反映 LLM API 发展的普遍痛点:图像 / 文件作为 base64 inlined 在 JSON 里是早期 MCP / API 设计的默认惯例,但当文件超过几 MB 后 JSON serialization 与解析开销变得无法接受。OpenClaw 这条迁移可能预示 MCP 协议本身在 2026 年下半年也会出现"binary streaming 替代 JSON inlining"的标准化讨论。