一日三饭 | HARNESS

← /harness

════ 2026.04.18 ════

今日要点

> NVIDIA 开源 Lyra 2.0：单张照片直接生成可自由游走的 3D 世界，输出 3DGS + mesh 双资产、可直投 Isaac Sim。与 4/16 腾讯 HY-World 2.0 仅隔 48 小时，"图像→仿真资产"的开源路线突然出现两套完整方案。
> OpenBMB 发布 VoxCPM2：端到端扩散-自回归、完全 tokenizer-free 的多语言 TTS，2M 小时训练数据、30 语言、48kHz 输出，目前 HF Trending 前列（1,106 赞）。
> TESSY（teacher-student cooperation）揭示 reasoning 蒸馏的"风格漂移"成因：Qwen3-8B 用 GPT-OSS-120B 数据 SFT 会 -3.25 / -10.02 点，交替生成 style / non-style token 的新方案反向拉回 +11.25 / +6.68 点。
> OpenAI Agents SDK 推出 v0.14.0 Sandbox Agents（4/15）+ v0.14.2（4/18）：持久化 workspace、容器化执行、session-level memory，首次在 SDK 层直接对标 Anthropic Managed Agents。
> arXiv 4/16 批次补遗：LeapAlign 用两步轨迹做 flow matching 后训练，AnimationBench 提供首个角色动画专门评测，LLM Judge 可靠性诊断用 transitivity 违反率揭示裁判模型的系统性不一致。

详细内容

ENTRY 001/011

[ 开源 · 3D · 世界模型 · NVIDIA · 空间智能 ]

NVIDIA 开源 Lyra 2.0：单张照片到可自由游走的 3D 世界

(Lyra 2.0: Explorable Generative 3D Worlds)

→ 项目页 · → GitHub · → HuggingFace · → The Decoder

NVIDIA Spatial Intelligence Lab 于 4 月 15 日开源 Lyra 2.0。管线：单张输入图像 → 相机可控视频漫游 → 重建为 3D Gaussian Splats 与 mesh。相较 2025 年 9 月的 1.0 版本，主要突破在于 long-horizon 导航下的几何一致性。Apache 2.0 许可，权重与代码同步发布，产物可直接加载进 Isaac Sim 等机器人仿真器。GitHub 今日 +146 星。

Lyra 2.0 和 4/16 报道的腾讯 HY-World-2.0 在发布节奏上几乎同步，共同代表了一个重要的路线切换：3D 世界生成的输出终点正在从"像视频"（pixel sequence）变为"像资产"（可编辑几何），而且两家都选择了 3DGS 作为主要表征。Lyra 2.0 与 HY-World 2.0 的差异在切入方式——后者走的是全景图 + 语义规划 + 立体补全的多阶段管线，适合较大的室内外场景；Lyra 2.0 则更侧重"单张照片也能 work"的最小输入路径，并用视频扩散自蒸馏保证沿路径的几何连贯。

对机器人仿真和 XR 内容生产而言，这是更直接的杠杆。Isaac Sim 就能打开这个工程细节很重要——它意味着一张真实照片可以在一天内变成可放入强化学习训练回路的仿真场景，而不是等一个专业 3D 建模师做一周。和 4/11 SIM1 把合成数据的等效比压到 1:15 结合，"合成训练数据"这条路在 2026 年春天同时在"更好的仿真器"和"更便宜的场景构造"两个维度推进。

ENTRY 002/011

[ 开源 · TTS · 扩散模型 · 多语言 · 语音生成 ]

OpenBMB 发布 VoxCPM2：2B 参数的 tokenizer-free 多语言 TTS

(VoxCPM2: Tokenizer-Free TTS for Multilingual Speech Generation, Creative Voice Design, and True-to-Life Cloning)

→ GitHub · → HuggingFace · → Demo

OpenBMB 发布 VoxCPM2，2B 参数，支持 30 种语言、48kHz 输出，完全抛弃离散语音 token，直接用 end-to-end 扩散-自回归架构生成连续语音表征。模型训练于 2M 小时多语言语音数据，三种能力：文本描述级 voice design、参考音频 controllable cloning、情感/节奏 style guidance。Apache 2.0 许可，HF 已 1,106 赞。

tokenizer-free 这个选择是关键。主流开源 TTS（F5-TTS、CosyVoice、XTTS）都走离散 audio token 路线，优点是训练稳定、易于复用 LM 框架；代价是音质上限被 codec 重建误差卡住，尤其在情感表达和高频细节上经常出现"机器味"。VoxCPM2 把扩散模型直接作用在连续声学表征上，再套自回归主干，本质是把图像生成领域"diffusion + AR"的组合挪到语音，绕过了 codec 这道瓶颈。48kHz 输出也佐证了这一选择：离散 token TTS 大多停留在 24kHz，48kHz 对连续表征路线是自然的事。

和 ElevenLabs 的对比则更微妙。社区测评指出 VoxCPM2 在 speaker similarity 上已经可比肩闭源服务，但 WER 与 prosody 细节仍有差距——这和多数开源 TTS 的典型短板一致。但对做 agent voice、游戏 NPC、podcast 批量生成的团队，开源、30 语言、可本地部署的 2B 模型直接降低了接入门槛。结合 4/16 HY-World 2.0 + 今日 Lyra 2.0 的 3D 资产开源，再加上 VoxCPM2 的高保真语音，"AI 全栈内容生产"的本地化闭环又补上一环。

ENTRY 003/011

[ 论文 · 训练方法 · 蒸馏 · SFT · LLM ]

TESSY：teacher-student 合作合成 SFT 数据，解开 reasoning 蒸馏的风格陷阱

(How to Fine-Tune a Reasoning Model? A Teacher-Student Cooperation Framework to Synthesize Student-Consistent SFT Data)

→ arXiv:2604.14164 · → HF Papers

作者发现用大 teacher 的输出直接 SFT 小 student 时，风格差异会反向降低性能：Qwen3-8B 用 GPT-OSS-120B 生成数据 SFT 后，两个基准分别下降 3.25 和 10.02 点。提出 TESSY 框架——teacher 和 student 交替生成 style token 与 non-style token，保留 teacher 的推理能力同时保持 student 的风格一致性，同基准上反向拉回 +11.25 和 +6.68 点。HF Papers 23 upvote。

这篇论文的价值在于把 reasoning 蒸馏失败的原因诊断到非常具体的层次。过去当开源社区观察到"用更强 teacher 的数据 SFT 反而变差"时，常见解释是"teacher 太强、student 消化不了"，于是很多团队转向用同规模或只强一档的 teacher。TESSY 把锅甩得更准：不是难度错配，而是 style 和 non-style 的 token 被 teacher 统一风格化之后，student 在下一 token 预测上失去了自己的"手写体"，导致分布外采样时迅速坍塌。

这个机制对做本地蒸馏管线的团队是直接的工程指引。具体做法是把 reasoning 主干（含逻辑与结论）交给 teacher 生成，而把日常风格部分（过渡句、措辞、格式细节）由 student 自己续写，再拼接回轨迹。好处是：（1）不需要额外训练 teacher；（2）可以兼容已有的 GRPO / DPO pipeline；（3）student 的风格与词表分布在训练集上天然保留。对 4/15 MEDS（历史失败 rollout 惩罚）和 4/11 Gaussian GRPO（分布目标替代线性 scaling）形成补强：三者分别作用在"数据生成→探索多样性→奖励形状"三个环节。

ENTRY 004/011

[ AGENT · 开源 · 工具链 · OPENAI · SDK ]

OpenAI Agents SDK v0.14 Sandbox Agents：持久 workspace + 容器化执行 + session memory

(OpenAI Agents Python: Sandbox Agents with Persistent Workspaces)

→ GitHub · → Releases

OpenAI 于 4 月 15 日发布 agents-python v0.14.0，首次在 SDK 层把 "Sandbox Agents" 作为一等原语：持久化 workspace、容器化执行环境、session-level memory；4/18 v0.14.2 补上 MongoDB session 后端、tool origin metadata、Vercel roots 文件系统权限等工程细节。今日 Trending 单日 +473 星，总星 22,131。

OpenAI 过去半年在 Agent 产品线上始终有个尴尬：Assistants API 和 Responses API 功能强，但都是服务端托管，很难嵌入企业已有的 CI/CD 和数据安全栈；agents-python SDK 足够灵活却只是个执行框架，没有 state 与 memory。v0.14 的 Sandbox Agents 把这两条线缝合——persistent workspace 解决"跨会话记住上下文"，containerized execution 解决"不污染主机"，session memory 与 tool origin metadata 则是让多步 agent 能够审计每一次工具调用的来源。

这把 SDK 定位抬到了和 Anthropic Managed Agents（4/10 报道）同一水平。两者的差别在于定价模式与控制面：Anthropic 按会话小时计费、托管执行；OpenAI 给的是 SDK + 容器，你自己选择跑在哪儿，更贴合 4/15 AMD GAIA、4/16 oMLX 这类"本地/私有部署"的趋势。对正在选型的团队，v0.14 的出现意味着"用 Responses API 还是自建 agent 栈"的决策不再是二选一——可以用同一个 SDK 既调云端模型也跑本地容器化 agent。

ENTRY 005/011

[ 论文 · 扩散模型 · 后训练 · RLHF · 视觉生成 ]

LeapAlign：两步轨迹把 flow matching 后训练成本直接压低

(LeapAlign: Post-Training Flow Matching Models at Any Generation Step by Building Two-Step Trajectories)

→ arXiv:2604.15311 · → HF Papers

提出高效的 flow matching / 扩散模型后训练方法，把原本需要完整轨迹才能反传的 reward 梯度，压缩进两步的"leap"轨迹中，使任意生成步数下的 RLHF / reward 对齐都能工作。论文声称在多个生成任务上显著降低 post-training 计算开销。HF Papers 5 upvote。

flow matching 和扩散模型的 RL 后训练长期被一个现实问题拖住：要让 reward 通过整条采样链回传，训练一个 sample 等价于做一次完整推理，成本随生成步数线性甚至超线性膨胀。过去的做法要么截断时间轴（只用前几步），要么训练代理 reward（用 proxy 避开反传），两者都有偏。LeapAlign 的思路是先把原来的 N 步轨迹合成一条两步 trajectory（"leap"），再在这条短轨迹上做 reward 反传，相当于用"两端采样 + 中段压缩"把梯度通路线性化。

这条思路对 4/16 RationalRewards（奖励模型与视觉生成同时 scale）和 4/17 RAD-2（generator-discriminator 分离）形成完整配套：RationalRewards 改奖励端，RAD-2 改优化分工，LeapAlign 改梯度传播路径。三者合在一起基本定义了 2026 年春天扩散/流模型后训练的默认做法框架——不再整条轨迹反传，而是把 reward、discriminator、leap trajectory 分层插入。对做文本→图像/视频/语音后训练的团队，LeapAlign 很可能是最省工程力气的改造项。

ENTRY 006/011

[ 论文 · 视频生成 · 动画 · 评测 · 基准 ]

AnimationBench：首个角色中心的动画视频生成评测

(AnimationBench: Are Video Models Good at Character-Centric Animation?)

→ arXiv:2604.15299

提出首个系统性评测 animation image-to-video 生成的基准，用动画基本原理（squash-and-stretch、anticipation、follow-through、staging 等）和 IP preservation 两条轴线评估模型在角色动画场景下的表现。论文报告当前通用视频模型在角色连贯性、动作时序节奏上存在明显系统性失效。

通用视频生成模型在"写实短片"上已经非常强，但在"角色动画"场景里的表现长期被低估——很多团队直接拿 Sora/Kling/Seedance 去生成二次元角色镜头，结果遇到面部漂移、身体比例崩塌、动作节奏生硬这些问题。AnimationBench 的贡献是第一次把动画领域的传统评价语汇（12 principles）转译成可量化的评测维度，而不是只用 CLIP score 或 FVD 做整体质量打分。

这对内容创作者与动画工作室是个非常直接的选型工具。过去判断哪个视频模型更适合做动画，只能靠自己反复试；现在可以在 AnimationBench 上对照分数。而对模型训练方来说，这套基准也在隐性指导下一代视频模型的数据与 loss 选择——如果 staging 得分低，就要补更多 shot composition 数据；如果 anticipation 得分低，就得加动作前摇相关的轨迹监督。和 4/16 Seedance 2.0 主打音视频一体结合，动画专用赛道开始出现差异化信号。

ENTRY 007/011

[ 论文 · 评测 · LLM-AS-A-JUDGE · 可靠性 · 裁判模型 ]

LLM Judge Reliability 诊断：用 transitivity 违反率揭穿裁判模型的隐性不一致

(Diagnosing LLM Judge Reliability: Conformal Prediction Sets and Transitivity Violations)

→ arXiv:2604.15302

针对 LLM-as-a-judge 评测体系提出诊断工具箱，同时使用 conformal prediction set 量化每条输入的判决不确定性、并用 transitivity 违反率检查 judge 是否内部自洽。作者指出现有 judge 存在广泛的 per-input 不一致，仅看平均一致率会掩盖这些系统性失效。

LLM-as-a-judge 已经是过去一年最常用也最被滥用的评测范式。问题是它的"可靠性"通常只有一个标量——和人类评分的 correlation——而这个数值可以很好看却同时隐藏大量 per-input 失效。本文最关键的是引入 transitivity violation 作为可操作指标：如果 judge 说 A > B 且 B > C 却又说 C > A，那么无论整体 correlation 多高，这组判决都不可信。经验数据显示主流 judge 这类内部矛盾非常普遍，尤其在 reasoning 长文本和多轮 agent trajectory 上。

这个工作和 4/13 Berkeley RDI（agent benchmark 可被利用）、4/15 SPEED-Bench（投机解码基准系统性偏差）一脉相承——2026 年春天的评测文献正在从"造新 benchmark"全面转向"检查现有 benchmark 的地基"。对部署 RLHF、RLAIF、DPO 的团队，这意味着必须在训练前对自己的 judge 做 transitivity 抽检，否则奖励信号可能系统性地把模型往错方向推。

ENTRY 008/011

[ 论文 · AGENT · 综述 · CLAUDE · 设计空间 ]

Dive into Claude Code：agent 设计空间的系统性综述

(Dive into Claude Code: The Design Space of Today's and Future AI Agent Systems)

→ arXiv:2604.14228 · → HF Papers

以 Claude Code 为案例系统梳理当前 AI agent 系统的设计空间：工具接口、长时记忆、可中断执行、安全 gating、评估体系等维度被拆为可组合模块，并对比现有 agent 框架在每一维上的差异。HF Papers 10 upvote。

agent 领域目前最缺的不是新框架，而是一个让不同框架能对齐讨论的参考系。此前的综述大多按"技术栈"分类（LangChain vs AutoGen vs CrewAI），但真正决定一个 agent 系统能不能上生产的往往是更细粒度的设计选择：工具出错是否触发回滚、任务能否被中断后恢复、长时记忆如何 expire 或 compress、sandbox 的隔离强度等。本文借 Claude Code 的实际设计把这些轴抽象出来，等于给 agent 工程给出了一张可复用的 design space map。

对团队的实际用处有两条：（1）评估自研 agent 时可以逐维比对 best-in-class 的选择是什么；（2）在购买/选型第三方 agent 时可以把讨论从"哪个更好"变成"在哪些维度上让步可以接受"。结合今天 OpenAI Agents SDK v0.14 的 Sandbox Agents 更新、4/10 Anthropic Managed Agents、4/16 GenericAgent 这几个产品线，这份综述来得恰是时候——它把"agent 为什么越来越像操作系统"这件事讲清楚了。

ENTRY 009/011

[ RAG · 知识图谱 · 检索 · 开源 ]

Graph RAG 真正的问题：不是检索"相似"，而是检索"相关"

(Graph RAG Finds What's Similar. We Should Aim for What's Relevant)

→ HN · → GitHub

文章指出主流 Graph RAG 的"检索"层本质上仍是语义相似度匹配，在需要多跳推理、因果追溯或结构化关系的查询上表现不稳定。提出以"相关性"（relevance）作为检索信号的替代框架 m_flow，引入图结构上的任务条件化打分，而不是纯向量相似度。HN 66 点讨论集中在"GraphRAG 到底是比向量 RAG 更难调还是根本路线有问题"。

GraphRAG 的 2025 年热潮更多是"有图看着就靠谱"的直觉，但大量实际部署反馈是：在多跳查询和长尾事实上，GraphRAG 的准确率不一定比 hybrid search 显著更高，维护代价却大得多。m_flow 的切入点非常精准——指出问题不在于图本身，而在于检索函数还是 cosine similarity。当查询意图是"因果链"或"任务依赖"时，向量相似只是节点之间是否在同一话题域的指示器，而不是真正的结构性答案。

这与 4/15 MEDS"失败 rollout 识别"、4/16 RationalRewards"奖励模型 scaling"殊途同归——检索/评估/奖励都在从"一维标量"升级到"结构化打分"。对已经上线 GraphRAG 的团队，m_flow 的价值不在于直接替换，而在于提供一个现实基线：先用 m_flow 或类似的"任务条件化打分"跑一轮 A/B，如果提升明显，意味着你原本的 GraphRAG 其实没有用到图结构，只是在向量里加了一层噪声。

ENTRY 010/011

[ GEMINI · 学术工作流 · 形式化推理 · AI评审 ]

Google Gemini 在 STOC 2026 给理论计算机论文做自动反馈

(Gemini Provides Automated Feedback for Theoretical Computer Scientists at STOC 2026)

→ Google Research

Google 在 STOC 2026（ACM 理论计算机大会）联合启动实验项目，用 Gemini 在投稿后两天内为作者提供"证明正确性"层面的自动反馈。项目自愿参与，实验结束前 >80% 在投论文已 opt-in。作者反馈重点在于提示错误步骤与潜在反例，而非重写论文。

这条更新的技术重点不是"AI 能写论文"，而是"AI 能在理论证明这种结构极严格的场景中给出有价值的局部反馈"。STOC 是理论 CS 的顶会，证明检查的严谨度不亚于形式化数学——Gemini 能在两天内反馈出作者自己都没发现的错误步骤，说明这条能力已经足够落地到真实学术工作流里，而不仅是 AIME 和 First Proof Challenge 这类 benchmark。

和 4/15 AlphaEvolve 证 Nesterov 42 年猜想并列看，AI 在数学/理论 CS 上的角色已经从"拼智商"过渡到"当审稿人"。这意味着两类职业会受直接影响：一是会议审稿人（AI 能显著分担初审轮），二是初级研究者（AI 成为几乎免费的同行）。对学术工具链而言，Gemini 风格的"两天反馈"如果推广到 ICML / NeurIPS / ICLR，将会根本改变 ML 领域的投稿节奏。

ENTRY 011/011

[ AGENT · 自主性 · 多AGENT · 现实部署 · 评测 ]

Andon Market：一场 3 年零售租约上的 AI 自主经营实验

(We Gave an AI a 3-Year Retail Lease and Asked It to Make a Profit)

→ Andon Labs · → HN

Andon Labs 启动 3 年期实体零售实验：把一个真实门店的经营决策（进货、定价、促销、员工调度）交给多 agent 系统自主执行，人类仅做硬性约束（安全、法律、成本上限）。项目公开披露决策链、失败案例与周度经济结果，HN 讨论热度 198 点。

Andon Market 的意义不在于"AI 能不能经营一家店"，而在于首次给出一个"长周期、可观测、多 agent"的部署样本。之前 Anthropic Project Vend（AI 小卖部）和各种 AI town 都是隔离沙盒——3 年真实租约让失败变得足够昂贵，实验者不得不设计更严肃的 shutdown/override 机制，数据也会因此具备参考价值。这种"故意让 AI 有真实损益"的设置，比任何静态 benchmark 都更能暴露当前 agent 系统的边界：供应链波动、季节性、客户投诉、合规变更，都是模拟环境里刷不到的信号。

这个项目的配套基础设施（公开决策日志、周度财报、失败档案）本身就是研究资产。结合 4/13 Berkeley RDI"agent benchmark 可被利用"的结论，真正考验 agent 能力的评测只能来自"不能作弊的真实环境"——而 Andon Market 正在搭这个环境。对投机性研究者（比如想研究 long-horizon planning、multi-agent coordination、AI governance 的团队），这是一个接近免费的、可以持续 3 年的真实数据源。

其他值得关注

UniDoc-RL：DeepGlint 分层动作 + 密集 reward 的 coarse-to-fine 视觉 RAG (UniDoc-RL) — arXiv:2604.14967
TokenLight：用 attribute token 对图像光照做精细分维控制 (TokenLight) — arXiv:2604.15310
LLM 最短路径泛化：递归不稳定性成长度迁移的主要失效模式 (Generalization in LLM Problem Solving: The Case of the Shortest Path) — arXiv:2604.15306
Tabular MLP 优化器基准：Muon 在表格监督学习上稳定优于 AdamW (Benchmarking Optimizers for MLPs in Tabular Deep Learning) — arXiv:2604.15297
TRACER：基于 trace 的自适应成本感知 LLM 路由 (TRACER: Trace-Based Adaptive Cost-Efficient Routing for LLM Classification) — arXiv:2604.14531
Bi-CMPStereo：事件相机与普通相机非对称立体匹配 (Bidirectional Cross-Modal Prompting for Event-Frame Asymmetric Stereo) — arXiv:2604.15312
isitagentready.com：扫描网站检测是否对 AI agent 友好（Show HN 107 点） (Is It Agent Ready) — HN
Stage：人类在回路的 AI 代码评审流程工具（HN 117 点） (Stage: Putting Humans Back in Control of Code Review) — stagereview.app
[HauhauCS/Qwen3.6-35B-A3B-Uncensored：Qwen3.6 的去对齐变体，4/17 上架 HF] — HuggingFace — HuggingFace
[HF Space HuggingFaceTB/trl-distillation-trainer：TRL 蒸馏训练器在线实验环境] — HF Space — HF Space
[The Beginning of Scarcity in AI：AI 算力约束下 2026 的供需拐点（Tom Tunguz，HN 184 点）] — HN — HN
[停业创业公司把旧 Slack 与邮件数据卖给 AI 公司] — Fast Company — Fast Company
[Maine 禁建新数据中心，多州跟进] — Mother Jones — Mother Jones

← 2026.04.17 2026.04.19 →