一日三饭 | HARNESS

← /harness

════ 2026.04.25 ════

今日要点

> DeepSeek V4 Pro / Flash 开源：1.6T-A49B + 284B-A13B 双 SKU、1M 上下文、MIT 许可、CSA+HCA 混合注意力、FP4+FP8 训练；1M context 下 V4-Pro 仅需 V3.2 的 27% FLOPs 与 10% KV，SWE-Bench Verified 80.6 仅落后 Claude Opus 4.6 0.2 分但价格仅 1/7；HN 1968 分。
> OpenAI Privacy Filter 开源：1.5B/50M-active 双向 token 分类器，由 gpt-oss 改造，PII-Masking-300k F1 96.0%（修正版 97.4%），Apache 2.0，128K 上下文，可在浏览器 WebGPU 内本地脱敏后再送 frontier 模型——首次把企业 GDPR/HIPAA 合规闭环做到端侧。
> xAI Grok Voice Think Fast 1.0：τ-Voice Bench 67.3 反超 Gemini 3.1 Flash Live（43.8）、GPT Realtime 1.5（35.3），25+ 语言，0.05$/min，"思考与延迟解耦"——可在保持响应延迟不变的前提下后台跑 reasoning，Starlink 已规模部署。
> Anthropic Memory for Claude Managed Agents 公测：filesystem-mounted 文件级记忆，与 bash/code execution 复用同一 surface；Rakuten 早期数据 first-pass 错误↓97%、成本↓27%、延迟↓34%。
> WorldMark 交互式视频世界模型统一基准（HF 33↑）+ UniT 人类→人形机器人统一物理语言（HF 34↑）：前者用 WASD+L/R 翻译层把 YUME 1.5、HY-World 1.5、Matrix-Game 2.0、HY-GameCraft、Open-Oasis、Genie 3 拉到同一标尺；后者用视觉锚定 RQ-VAE 让人和人形机器人共享离散动作 codebook，VLA-UniT 在 RoboCasa 取 66.7% 反超 GR00T 47.8%。

详细内容

ENTRY 001/011

[ 开源 · DEEPSEEK · LLM · 1M上下文 · FP4训练 · MOE ]

DeepSeek V4 Pro / Flash 开源：1.6T MoE + 1M 上下文 + Codeforces 3206

(DeepSeek-V4: Towards Highly Efficient Million-Token Context Intelligence)

→ DeepSeek 官方 · → HF V4-Pro · → HF V4-Flash · → Simon Willison · → HN

4 月 24 日 DeepSeek 开源 V4 双 SKU：V4-Pro 1.6T 总参 / 49B 激活、33T tokens 预训练、HF 文件 865GB；V4-Flash 284B / 13B 激活、32T tokens、160GB。MIT 许可。两者默认 1M 上下文，三档推理模式（Non-think / Think High / Think Max）。架构核心：Compressed Sparse Attention (CSA) 保留约 1/m 大小 KV + top-k 稀疏选择器，Heavily Compressed Attention (HCA) 把更多 token 折叠进单一 entry，二者交替；Manifold-Constrained Hyper-Connections (mHC) 强化残差稳定性。训练用 FP4 + FP8 混合精度（MoE expert FP4，其他 FP8）。后训练分两阶段：domain-expert 独立 SFT+GRPO → 统一蒸馏。1M 上下文下 V4-Pro 仅需 V3.2 的 27% 单 token 推理 FLOPs / 10% KV，V4-Flash 进一步压到 10% / 7%。基准：SWE-Bench Verified 80.6（Opus 4.6 80.8）、Codeforces 3206（GPT-5.4 xHigh 3168）、HMMT 2026 Feb 95.2、IMOAnswerBench 89.8、LiveCodeBench 93.5、GPQA Diamond 90.1、Putnam-2025 120/120 完美证明、HLE 37.7（落后 Claude 40.0、GPT-5.4 39.8、Gemini 3.1 Pro 44.4）、MRCR 1M 83.5（Opus 92.9）。Pro $1.74/$3.48 per 1M、Flash $0.14/$0.28——比 Claude Opus 4.6 同档便宜约 7×。华为宣布 Ascend 950 supernode 出厂直接支持 V4，无需 NVIDIA GPU。

V4 的真正分量不在分数线本身，而在三件事的同时落地。第一是 1M 上下文的成本经济学被重写——CSA + HCA 把"更长 = 更贵"这条公认曲线在 V4-Flash 上压到 10% FLOPs / 7% KV，意味着同一片 GPU 可以多处理一个数量级的 context；过去的"长上下文是奢侈功能"假设直接失效。这条改写跟今天 NVIDIA × OpenAI 在 GB200 NVL72 上宣称的 35× 推理 token 成本下降叠加——硬件侧（NVIDIA）和算法侧（DeepSeek）在同一周给出两条独立路径，把 frontier model 的单 token 单价拉低了几乎一个数量级，这是 4/24 这一天最隐性、影响最深的一条线。

第二是 FP4 + FP8 训练首次在万亿级 MoE 上工程化跑通。MoE expert 在 FP4、其他参数在 FP8 是 NVIDIA Blackwell 推出 NVFP4 后社区一直在试但很少有公开成功的配置——DeepSeek 给出 33T tokens 预训练完成的实证，并在技术报告里说明 mHC 残差是稳定 FP4 训练所需的工程补丁。这对正在评估"FP4 训练是否值得跳"的团队是一次决定性证据：训练 loss 不会因为低精度天然崩溃，关键是配套的归一化与残差结构。结合 Qwen3.6-27B-FP8 / 35B-A3B 的 FP8 量化优先训练（4/24 报道）、DFlash 块扩散、TPU v8 i/t 训推分离，低精度计算栈已经从加速选项变成 frontier 模型的默认假设。

第三是开源旗舰首次在 coding/竞赛领域正面击败闭源 frontier 模型。Codeforces 3206 超过 GPT-5.4 xHigh 3168、Putnam-2025 拿满分追平 Axiom 超过 Aristotle/Seed-1.5-Prover——这两个是历史上闭源最有护城河的赛道。SWE-Bench Verified 80.6 与 Opus 4.6 0.2 分差距、价格 1/7 的组合，对企业 coding agent 选型几乎构成"必须重新评估"的压力。但要冷静读 V4 的弱点：HLE 37.7 落后于 Claude/GPT/Gemini，MRCR 1M 83.5 比 Opus 92.9 低 9 个点——说明 V4 的优势集中在结构化、可验证、coding/数学任务，在长上下文 retrieval、开放知识、世界事实上仍有 3–6 个月差距。配合 4/24 报道的 K2.6 长程 agent 优势 + Qwen3.6 dense coding 优势，2026 年春天开源侧已经在不同任务维度形成"闭源最强"的并列威胁。技术报告本身（被多名研究者称作年度最佳模型论文之一）也是这次发布隐藏的资产——MIT + 完整训练细节 + Ascend 出厂支持，意味着 V4 同时是模型、训练 recipe 教学材料和中国本土硬件部署样板。

ENTRY 002/011

[ OPENAI · 开源 · 隐私 · PII · 生产工具 ]

OpenAI Privacy Filter 开源：浏览器内的 PII 脱敏闭环

(Introducing OpenAI Privacy Filter)

→ OpenAI · → HF Model · → VentureBeat

4 月 22 日 OpenAI 开源 Privacy Filter：1.5B 参数、50M 激活，从 gpt-oss 家族 checkpoint 改造为双向 token 分类器，配合 BIOES 标签 + 受约束 Viterbi 解码，单 forward pass 完成 8 类 PII 标注（人名、地址、邮箱、电话、URL、日期、账号、secret/credential）。Apache 2.0，128K 上下文，PII-Masking-300k F1 96.0%（修正版 97.4%）、CredData token-level F1 84.4%；少量 fine-tune 即可把领域 F1 从 54% 拉到 96%。原生支持 transformers.js 在浏览器 WebGPU 内运行。

Privacy Filter 在架构选型上做了一件长期被忽视的事——把 LLM 反向退化成 bidirectional encoder + token classifier。过去两年的趋势是把所有 NLP 任务都装进 autoregressive prompt，但 PII 检测这种结构化标注任务用 decoder-only LM 跑既贵又不稳。OpenAI 直接把 gpt-oss checkpoint 砍掉自回归头、加 BIOES + Viterbi——本质是把 BERT 时代的 NER 工程范式重新搬回来，承认"frontier base model 用作 encoder 仍然非常强，但任务头要回到 classification"。这条范式回归对企业 NLP 栈是一次重要信号，意味着未来一年类似的"用 frontier checkpoint 做 encoder 任务"会越来越多——情感分析、意图识别、文档分类、代码漏洞标注都可以走同一路径。

工程含义同样直接。WebGPU + transformers.js 让脱敏完全留在浏览器——这是过去 RegEx-based PII 工具（Microsoft Presidio、AWS Comprehend）一直做不到的：传统方案要么准确率低（regex 漏 90% 上下文型 PII），要么必须把数据送回云端。Privacy Filter 1.5B/50M-active 体量同时满足离线 + 高准确率这条 2024-2025 年视为不可能三角的需求。和 4/19 Driftwood 的 WASM × Apple Silicon 零拷贝推理放在一起，"端侧 AI 工程栈"在 2026 年春天首次具备完整的工具链：模型层（Privacy Filter / Gemma 4 31B / Qwen3.6-27B）、运行时层（Driftwood / WebGPU / transformers.js）、安全层（superhq microVM / Agent Vault）。

对真实部署的指引很清晰：任何把企业数据送 frontier API 之前都该先过一遍 Privacy Filter——成本几乎为零（单文档毫秒级），代价是把 96% F1 内的 PII 替换成占位符。fine-tune 把领域 F1 从 54 拉到 96 这条数据更直接说明：通用模型 + 100-1000 条领域样本就能在合规要求高的场景（医疗、金融、法律）跑到生产标准。这条路径比让企业反复审计 GPT-5.5 / Opus 4.7 的 prompt 防泄漏要简单一个数量级。

ENTRY 003/011

[ XAI · 语音 · AGENT · 实时 · TAU-VOICE-BENCH ]

xAI Grok Voice Think Fast 1.0：思考与延迟解耦的语音 agent

(Grok Voice Think Fast 1.0)

→ xAI 公告 · → TestingCatalog

4 月 23 日 xAI 推出 grok-voice-think-fast-1.0，τ-Voice Bench（含噪声、口音、打断、turn-taking 的全双工评测）拿下 67.3，远超 Gemini 3.1 Flash Live 43.8、Grok Voice Fast 1.0 38.3、GPT Realtime 1.5 35.3。25+ 语言原生、xAI 自研 VAD/tokenizer/audio model 全栈、$0.05/min API。声称可以在保持响应延迟不变的前提下后台跑 reasoning，把"复杂多步工作流"和"snappy 响应"解耦。Starlink 是首批规模部署伙伴，用于客服与销售等高量场景。

τ-Voice Bench 67.3 这个数字本身需要拆开看。第一项是它领先第二名（Gemini 3.1 Flash Live）超过 23 个点——这种差距在大模型对比里非常罕见，通常意味着评测维度本身偏向某种能力。τ-Voice Bench 加权了 turn-taking 与中断恢复，而 xAI 在这两点上的工程投入（自研 VAD + tokenizer 全栈）是别家的"接 Whisper / 接 ElevenLabs / 接 GPT 转写"管线无法对标的——所以这条领先更像"xAI 选择了一个自己最擅长的对齐基准"，而不是横向能力的全面胜出。但即便折算客观差距，也已经是 SOTA 级。

更值得读的是"思考与延迟解耦"这条架构主张。过去语音 agent 的死穴是用户感知延迟——任何超过 800ms 的"思考停顿"都会让对话从"自然交互"退回"语音命令"。Grok Voice 的解法是把 reasoning 放到响应的并发轨道，对话流先走"听觉层"应答（保持 200-400ms 响应），同时后台 reasoning 在 1-3 秒内完成并校正/扩展回复。这条架构和 4/24 的 Anthropic Memory for Managed Agents 是同一类思路：把 agent 的"快思维 / 慢思维"在运行时层拆开，而不是塞到同一个 forward pass 里。GPT Realtime 1.5 / Gemini 3.1 Flash Live 当前还是单 forward——所以即便上 GPT-5.5 base，单次 reasoning 长度仍然受限于"用户能容忍的停顿"。

战略侧，$0.05/min 是面向规模商用的定价信号——按客服场景每次通话 5 分钟，单次成本 $0.25，已经接近人工座席的边际人力成本三十分之一。Starlink 选作首批 launch partner 也明显——客户支持是 Musk 旗下产品体系里量最大、最痛点的语音工作流，先在内部把规模跑出来再向第三方开放。这给企业 voice agent 选型提供新的现实基准：如果你的场景是"高量、多语言、需要工具调用"，Grok Voice 是当前价格性能比最高的选项；如果是"对话深度高、需要长上下文记忆"，Anthropic Managed Agents（filesystem memory）+ GPT-5.5 仍然更适合。

ENTRY 004/011

[ ANTHROPIC · AGENT · 记忆 · 企业 · 可审计 ]

Anthropic Memory for Claude Managed Agents：filesystem-mounted 的可审计记忆

(Built-in memory for Claude Managed Agents)

→ Claude Blog · → TestingCatalog

4 月 23 日 Anthropic 在 Claude Managed Agents 上推出 Memory 公测，使用 managed-agents-2026-04-01 beta header。核心设计：记忆以文件形式挂在 agent 文件系统，Claude 通过原有的 bash 与 code execution 工具直接读写，不引入新原语；所有 memory 变更全程审计，可回滚、redact、按 session 导出。Netflix、Rakuten、Wisedocs、Ando 为早期客户；Rakuten 公开数据 first-pass 错误↓97%、成本↓27%、延迟↓34%。

把记忆挂成文件这个选择是工程上的高级选择，不是看起来那样的"懒"。过去一年 agent memory 的主流解法是引入新原语（向量数据库、Durable Object、专用 memory API），但每次新增原语都意味着 LLM 要学新工具——而 4/13 Berkeley RDI 与 4/19 RLVR Reward Hacking 反复证明：agent 在新工具上的失败率显著高于熟悉工具。Anthropic 的反方向解法是：既然 Claude 已经精通 bash + code execution，把记忆做成可被 cat、grep、echo >> file 操作的目录树，就把"记忆 IO 学习成本"压到接近零。这和 4/25 同日 HN 122 分的 wuphf（git markdown 作 LLM wiki）走的是同一条 Karpathy 主张："让 agent 用人类工程师已有的工具读写共享脑"。

可审计性是更被低估的卖点。所有 memory 变更全程日志、按 session 维度可回滚 直接对接企业合规栈：当 agent 写入了 PII 或不准确的"事实"，运维可以在 audit trail 里定位、删除、redact，而不是和向量数据库的 embedding drift 搏斗。Rakuten 报告的 27% 成本下降需要拆开读——表面看是模型用得更少，本质是每次 session 不再需要完整 RAG 召回，因为相关 memory 已经被 agent 自己持久化在了"工作目录"。这条收益对长程 agent（数小时-数天的工程任务）尤其大，对一次 5-10 turn 的客服对话则几乎不显现。

和 4/19 Cloudflare Agent Memory（Durable Object + Vectorize）形成"两条路线"完整画像：Cloudflare 走"基础设施层 vendor 托管 + binding 接入"，Anthropic 走"应用层 SDK 内置 + 文件系统抽象"。两条路线的差异不是优劣而是部署边界——多租户 SaaS 偏 Cloudflare（每用户一个 Durable Object 隔离），单租户企业偏 Anthropic（公司内部统一 Claude 平台 + 内部审计栈）。结合 OpenAI Workspace Agents 4/23 的"团队共享 agent"、Kimi K2.6 的 300 sub-agent swarm，agent 持久化栈在 2026 年春天已经形成 4 种范式并存：filesystem（Anthropic）、vector store（Cloudflare）、shared context（OpenAI）、swarm sub-agent（Kimi）——下一步选型问题不再是"要不要 memory"而是"哪种 memory 抽象匹配你的业务"。

ENTRY 005/011

[ 论文 · 世界模型 · 评测 · 多模态 · 基准 ]

WorldMark：交互式视频世界模型的统一基准

(WorldMark: A Unified Benchmark Suite for Interactive Video World Models)

→ arXiv:2604.21686 · → HF Papers

4 月 23 日 Alaya Studio / Shanda AI Research / 东京大学发布首个跨模型公平对比的交互式 I2V 世界模型基准 WorldMark。三个核心组件：(1) 统一动作映射层把共享 WASD + L/R 词表翻译进 6 个模型的原生控制接口（YUME 1.5 用 caption、HY-World 1.5 用 6-DoF pose、Genie 3 用 gamepad、Open-Oasis 用 25 维 action vector、Matrix-Game 用 action API、HY-GameCraft 用 Plücker ray）；(2) 500 测试用例 × 50 reference 图 × 15 trajectory，分 first/third-person × real/stylized × 3 难度档（20s/40s/60s）；(3) 8 维评测 covering Visual Quality、Control Alignment、World Consistency。结论："视觉质量与世界一致性几乎不相关"——YUME 1.5 视觉最佳但长程崩塌，Genie 3 几何最稳但视觉中等；HY-Game 控制最准但画质最差；third-person 是普遍失效模式（Matrix-Game 旋转误差暴涨 ~20×）；Open-Oasis 在 Minecraft 外完全失效。配套上线 World Model Arena (warena.ai) 在线 PK 平台。Spearman ρ > 0.9 与 20 人 human ranking 对齐。

WorldMark 解决的是 4/16-4/24 这一波世界模型集中发布后最严重的认知盲点：每家都报"我的世界模型最好"，但用的都是私有基准，比较根本不可能。这种状态在 2024 年 LLM 圈解决于 MMLU/GPQA/SWE-Bench 的标准化，世界模型这条赛道直到 2026 年 4 月才补上。WorldMark 的工程贡献甚至比"统一动作词表"更深——是把控制接口的差异工程化：YUME 用自然语言、HY-World 用 6-DoF、Genie 用 gamepad，这些差异过去是各家护城河，WorldMark 的适配器把它们统一成"一行 WASD"，让对比变成 plug-and-play。

最重要的实证发现是"视觉质量 ≠ 世界一致性"这条结论被首次量化。过去用户看 YUME 1.5 的 demo 会觉得"画面太美一定是 SOTA"，但 WorldMark 显示同样的输入下 YUME 在 60s 长度上世界结构会逐步坍塌——这是社交媒体 demo 不会展示的失效模式。Genie 3 走相反方向：每帧"一般好看"，但跨 60s 仍能维持物体永存性、几何稳定。对游戏开发与机器人仿真团队，这意味着选型不能只看 demo 视觉，必须查 Reprojection Error 与 State Consistency 这种长程指标——前者刚好是 4/18 NVIDIA Lyra 2.0 / 4/16 腾讯 HY-World 2.0 主打的"3DGS 资产化"路线相对于"视觉漂亮但物理散架"的纯 video diffusion 路线的核心优势。

第三人称视角崩塌（Matrix-Game 旋转误差 ×20）这条数据点对具身智能与机器人仿真最具警告价值。机器人训练里第三人称是默认场景（俯视/侧视拍摄），如果当前主流交互世界模型在第三人称下控制误差暴涨 20×，那么用它做 sim-to-real 训练数据的可靠性立刻打问号。这和 4/24 Odyssey-2 Max"实时物理一致性"主张形成有用对照——不是所有"世界模型"都能给机器人提供训练信号，第三人称稳定性应当成为新的差异化轴。

ENTRY 006/011

[ 论文 · 具身智能 · 人形机器人 · RQ-VAE · 世界模型 ]

UniT：用视觉锚定 RQ-VAE 把人和人形机器人压进同一动作 codebook

(UniT: Toward a Unified Physical Language for Human-to-Humanoid Policy Learning and World Modeling)

→ arXiv:2604.19734 · → HF Papers

提出 UniT（Unified Latent Action Tokenizer via Visual Anchoring）。核心命题："异质 kinematics 共享通用视觉后果，视觉是跨 embodiment 对齐的天然 anchor"。架构三分支：vision branch（DINOv2 特征做逆动力学）、action branch（state + action MLP）、fusion branch；三者共享 RQ-VAE 离散 codebook，每个量化 token 必须双向重构视觉与动作（cross-reconstruction）——视觉重构把不可见 kinematic 噪声滤掉、动作重构强制 latent 对齐物理后果。两个下游：VLA-UniT 基于 GR00T n1.5 + Qwen2.5-VL，token 预测 + flow matching 双头；WM-UniT 基于 Cosmos Predict 2.5 做 action-conditioned 视频生成。RoboCasa GR1：VLA-UniT 66.7% 全数据 / 45.5% 1/10 few-shot（vs GR00T 47.8%、FLARE 55%）。真机器人 IRON-R01-1.11：pick-and-place 78%（GR00T 30%）、pour 75%（GR00T 5%）；OOD geometry +40%、distractor +33%；零样本 stacking 60%（人类 co-training）。t-SNE 验证："raw action 下人/机器人完全分离 → UniT token 后高度重叠"。

UniT 的核心命题——"视觉是天然 anchor"——在工程上比看上去更深。人形机器人和人手部最不一样的就是 kinematic 自由度：人 27 个关节、机器人手往往只有 6-12 个，关节角直接迁移注定失败；过去主流方案是手工 retargeting（kinematic solver 求最近映射）或 contrastive embedding（学一个跨域表征空间）。UniT 的不同在于直接绕过 kinematic 层——只要"做这件事时画面如何变化"是同一件事，那么背后的具体关节角差异在表征上就被压缩成噪声。RQ-VAE 共享 codebook 让所有 embodiment 投影进同一离散空间，cross-reconstruction 强制每个 token 必须能反推回视觉变化（保证物理意义），物理意义对应的关节信号则通过 action 重构的 embodiment-specific decoder 还原。

数字层面最关键的不是 RoboCasa 66.7 vs 47.8 的 SOTA 数字，而是few-shot 泛化能力：1/10 数据下仍能跑到 45.5%（接近 GR00T 全数据 47.8%）——这条经济学对真实机器人公司是颠覆性的，意味着采集 2.4k 条人类 demonstration 就够替代 24k 条机器人 trajectory。机器人数据采集成本通常比人类视频高 10-100 倍，UniT 的 visual anchoring 让这条不对称被算法侧消化。配合 4/18 NVIDIA Lyra 2.0 + Isaac Sim 把仿真场景生成成本拉低，"小数据 + 仿真增广 + 跨 embodiment 迁移" 这个组合在 2026 年春天首次完整成型——具身智能的"数据稀缺"叙事会在 2026 年下半年被重写。

工程意义上 UniT 给具身基础模型一条新参考架构。过去 VLA（GR00T、π0、OpenVLA）都是"VLM + action head"两段式，UniT 在中间塞进了一个 embodiment-agnostic 离散 token 层——这层既是 policy learning 的对齐桥梁，也可以直接拿去做世界建模（WM-UniT 在 EgoDex+GR1 上 PSNR 28.06、FVD 130.87）。对正在自建 VLA 栈的团队，UniT 的 RQ-VAE codebook 是可以直接 plug-in 的中间件——不需要重训 VLM，只需要在 action head 前加一层量化 + cross-reconstruction loss。

ENTRY 007/011

[ 论文 · 时间序列 · 多模态 · ACL2026 · CURRICULUM-LEARNING ]

LLaTiSA：把 VLM 接到时间序列上的难度分级推理

(LLaTiSA: Towards Difficulty-Stratified Time Series Reasoning from Visual Perception to Semantics)

→ arXiv:2604.17295 · → GitHub · → HF Papers

阿里 Amap 团队 4/19 提交、4/24 登顶 HF Papers 的工作。核心问题：现有 LLM 处理时间序列的研究割裂——任务定义不一、benchmark 含糊。提出 TSR (Time Series Reasoning) 四级 cognitive taxonomy（数值读取 → 模式感知 → 语义推理 → 复合分析）+ HiTSR 层级数据集（83K 样本 + 验证过的 CoT 轨迹）+ LLaTiSA VLM：结合可视化图形 + 精度校准的数值表，三阶段 curriculum SFT（L1 数值读取 → L2 形态/趋势 → L3 上下文/领域知识）。在多个 benchmark 上稳定超过 proprietary 与开源 baseline，OOD 泛化突出。

把时间序列做成 VLM 任务这条路线的关键洞察是：数值精度与视觉直觉互补，但单走任一条都不够。纯数值表（数据帧、JSON）让 LLM 看见精度但失去形态信号——4 万行温度数据里"是否有周期性下降"的问题在数值下被淹没；纯图（折线图）让模型看到形态但读不出 32.5 vs 32.7 的差异。LLaTiSA 把两者并列输入：图供形态感知、表供数值锚定，让同一个 VLM 同时处理"看出 7 月有周期性峰值"和"峰值具体是 38.4°C"两类问题。这条思路其实和 4/24 LLaDA2.0-Uni 用 Mask Token Prediction 统一多模态生成属于同一范式——多模态不是把不同模态拼起来，而是让它们在同一推理回合里互相 grounding。

四级 taxonomy 是论文里被低估的工程贡献。现有时间序列 benchmark（TSFM、Time-MoE、Chronos）几乎都把任务定义在 L1（数值读取）或 L4（预测/异常检测），中间的 L2（趋势）和 L3（语义理解，"为什么涨"）几乎是评测空白。LLaTiSA 把 HiTSR 拆成四级让 curriculum 从易到难——这种按 cognitive 复杂度分层做 SFT 的思路和 4/15 SPEED-Bench、4/19 Atropos 都共享一条隐含主张：reasoning 训练不能一次性把所有难度灌进去，要让模型先在简单层稳定再上难度。这对正在做时序基础模型（金融、气象、IoT、医疗监测）的团队是直接可借鉴的训练 recipe。

ACL 2026 Findings 接收意味着这工作经过了 NLP 顶会同行评议——和今天 GitHub trending 上的 Kronos（金融 K-line 基础模型，AAAI 2026）形成"时间序列基础模型"赛道的两极：Kronos 把 K-line 离散 tokenize 后跑 decoder-only Transformer（金融垂直），LLaTiSA 用 VLM 加视觉做通用 TSR（跨领域）。两条路线对应不同假设——前者押"专门数据 + 专门 tokenizer"，后者押"通用 VLM + 多模态对齐"。后续 6-12 个月这两条路谁先在生产场景拿到稳定收益，会决定时序基础模型的主流路线。

ENTRY 008/011

[ OPENAI · 领域模型 · 生命科学 · CODEX · 药物发现 ]

GPT-Rosalind：OpenAI 首个领域专精模型，瞄准生命科学

(Introducing GPT-Rosalind for life sciences research)

→ OpenAI · → MarkTechPost

4 月 16 日 OpenAI 发布 GPT-Rosalind（命名致敬 Rosalind Franklin）——首个公开的领域专精 frontier model，聚焦生物学/药物发现/转译医学。基于 OpenAI 最新内部 base model 改造，强化分子/蛋白/基因/通路推理与多步科研工具调用。BixBench（生信数据分析）0.761 超 Gemini 3.1 Pro / Grok 4.2；LABBench2 在 11 项任务中 6 项超 GPT-5.4，含文献检索、序列操作、protocol 设计；Dyno Therapeutics 评测中 RNA 预测超过 95% 人类专家分位、复杂序列生成达 84% 分位。配套 Codex 生命科学 plugin 接入 50+ 多组学数据库，提供 research router 自动 evidence-backed 答复 + parallel sub-agents。Trusted Access 程序限定，早期客户：Amgen、Moderna、Thermo Fisher、Allen Institute、Dyno、Los Alamos、Novo Nordisk。注：本条 4 月 16 日发布但前期简报未单独覆盖，今日补遗。

GPT-Rosalind 是 OpenAI 第一次公开把"frontier base model + 领域微调 + 专用工具栈"打包为独立产品 SKU，对 AI 行业战略意义大于单点能力。过去通用 frontier model 的扩张逻辑是"一个模型服务所有任务"，所以 GPT-4o → GPT-5 → GPT-5.4 → GPT-5.5 都是横向变强；GPT-Rosalind 第一次承认"专门领域需要专门 SKU"——这条战略转向和 4/19 OpenAI Trusted Access for Cyber 推出 GPT-5.4-Cyber 是同一节奏，意味着 OpenAI 正在把产品矩阵从"模型"细化到"领域 × 模型 × 工具栈"。Anthropic 这条线还停留在 Mythos preview（cyber）和 Claude Design（设计），覆盖窄；Google 主要押 Gemini 通用 + Gemma 开源；OpenAI 选择往生命科学这个最大的下游产业垂直深耕，是面对 Anthropic 通用能力差距收窄时的战略防御。

Codex 生命科学 plugin 的工程结构尤其值得注意。research router + parallel sub-agents + 50+ 多组学数据库这套打法不是新模型能力，而是对既有 Codex agent 框架的领域适配——和 4/24 huggingface/ml-intern 把 ML 工作流结构化的思路同构。这条"垂直 agent + 通用 base model"的混合架构正在成为 2026 年企业 AI 部署的事实模板：base model 由前沿厂商提供，垂直工具栈与数据库挂载由领域厂商或自建。对生物科技公司，GPT-Rosalind + Trusted Access 等于把"接 Frontier Model + 自建 50 个数据库工具"这步省掉，但代价是被 OpenAI 锁定。

具体能力数字需要平衡看待。95% 人类专家分位听起来惊艳，但 RNA 预测（Dyno 任务）是受过专门训练 data 的窄任务，OOD 表现仍待外部验证；BixBench 0.761 高于 Grok 4.2 但低于专用蛋白模型（如 AlphaFold 3 + RoseTTAFold）。GPT-Rosalind 的现实定位是多步 agent 工作流而非单点 SOTA：当任务从"算 RNA 二级结构"扩展到"读论文 → 选靶 → 设计实验 → 分析结果 → 写 protocol"时，GPT-Rosalind 是当前唯一能端到端跑通的产品，配合 50+ 数据库工具的 router 是它的核心壁垒。对早期客户（Amgen、Moderna、Novo Nordisk），这意味着研究 pipeline 的初步实验设计阶段可以从数周压缩到小时。

ENTRY 009/011

[ 开源 · 编译器 · DSL · GPU · KERNEL工程 ]

TileLang v0.1.9：Pythonic GPU/CPU kernel DSL 走向多后端

(TileLang: Domain-Specific Language for High-Performance Kernels)

→ GitHub

TileLang 是构建在 Apache TVM 之上的 GPU/CPU kernel DSL，4 月 22 日发布 v0.1.9。核心定位：Pythonic 语法 + 编译期 tile 抽象，让开发者表达计算意图后由编译器自动生成 CUDA/HIP/CuTe DSL/WebGPU 多后端代码。功能：tile-based 数据流、autotune（pipeline、layout、L2 swizzle）、shared memory 显式管理、矩阵乘 / FlashAttention / dequant GEMM / sparse tensor 算子库；硬件覆盖 NVIDIA H100/A100/V100/RTX、AMD MI250/MI300X、Apple Metal。v0.1.9 引入 CuTe DSL 后端编译 + Z3 theorem prover 验证 + Apple Metal 设备支持。

TileLang 站在三股势力的交汇点：(1) Triton 已经是 PyTorch / vLLM 默认 GPU DSL 但只跑 NVIDIA；(2) AMD MI300X 与 Apple Silicon 在推理侧份额上升，需要跨厂商 kernel 编写工具；(3) NVIDIA 自己推出 CuTe DSL 替代 CUDA C++ 强调结构化 tile 抽象。TileLang 选择把这三条线接到同一编译栈下——Pythonic 前端写一次，编译到 Triton / CuTe / HIP / WebGPU / Metal 五条后端。这条战略野心比单一产品大，本质是想做"GPU kernel 时代的 LLVM"——前端归一、后端可插。

v0.1.9 加入 Z3 theorem prover 验证 是这次发布最被低估的更新。GPU kernel 的两个传统痛点：(1) 数据竞争靠人工审查、(2) 量化 / 混合精度边界条件靠测试穷举——前者难以可靠、后者代价高。Z3 把"shared memory 写入冲突"或"FP4 量化溢出"作为可形式化验证的命题处理，让编译器在生成 kernel 时直接证明无 race condition / 无溢出。这对正在做 FP4/FP8 训练栈（DeepSeek V4 今天证明 FP4 训练可行）的团队是直接刚需——之前 FP4 内核的失败 mode 大量来自"溢出在 99% 输入下不发生但被某个边界 case 触发"，theorem prover 的引入让这类 bug 在编译期消除。

Apple Metal 后端对 macOS / iOS 端侧 AI 是另一条战略意义。当前 Apple Silicon 的统一内存推理栈（4/19 Driftwood）主要是 Metal Performance Shaders + 自写 Metal kernel，TileLang 让"Triton 写一次跑 Metal"成为可能。配合 OpenAI Privacy Filter 的 transformers.js + WebGPU，端侧 AI 的工具链栈在 2026 年春天首次形成连贯路径：模型层（小型 frontier model）→ 编译层（TileLang / Triton）→ 运行时层（WebGPU / Metal / WASM）。

ENTRY 010/011

[ 开源 · AGENT · 多AGENT协作 · GIT · 记忆 ]

WuPHF：Karpathy 风格的 LLM wiki，让多 agent 共享 git-native 大脑

(Karpathy-style LLM wiki your agents maintain)

→ GitHub · → HN

4 月 25 日 Show HN 项目，262 stars。"Slack for AI employees with a shared brain"——支持 Claude Code、Codex、OpenClaw 等多 agent 在同一 channel 协作并维护git-native 共享记忆：事实以 markdown 提交到 archivist 身份下、可见 git log；超阈值时合成新 brief。架构核心：(1) push 驱动 agent 唤醒（零 idle token）、(2) 每轮新 session（无 context 累积）、(3) per-agent 隔离 + 共享 wiki 双层记忆、(4) 多 runtime 同时跑（Claude / Codex / OpenClaw）、(5) Telegram + OpenClaw bridge。后端 Go 75%、前端 TypeScript 14.6%、MIT。

WuPHF 名字虽然蹩脚，但选择了一条 2026 年春天非常正确的设计哲学。git-native 记忆 + per-turn fresh session 这两条选择直接对应 4/24 Anthropic Memory for Managed Agents 的 filesystem-mounted 抽象——两者独立得出同一条结论："agent 工程师已经精通 git 和文件系统，在共享脑上别再发明新原语"。WuPHF 把它推得更远：所有 agent 输出都以 markdown 提交到 archivist 身份下的 git repo，人类工程师可以用 git log、git blame、git diff 直接审计 agent 的"思考变迁"，这是任何 vector store / Durable Object 路线都无法天然做到的。

push 驱动唤醒 + 零 idle token 是另一条值得标记的工程细节。当前多 agent 框架（DeerFlow、AutoGen、CrewAI）的隐性成本是"sub-agent 在等待时仍在轮询消耗 token"，多 agent 部署后单位任务成本指数级上涨（4/19 Toby Ord 引发 HN 讨论的核心问题）。WuPHF 的 broker 架构让 agent 只在被 message 触发时才唤醒，待机成本理论上为零——这条结构在长程 agent（数小时到数天）场景下能直接把 token 账单压低一个数量级。Per-turn fresh session 也回应了 4/24 Tool Attention 论文揭示的 schema 膨胀问题：每轮新 session 意味着 tool schema 不会跨轮累积，自然规避了"每轮 47k token tool schema"的浪费。

但要冷静看 WuPHF 的成熟度——MIT、262 stars、pre-1.0、daily commits，是 4/19 DeerFlow 2.0 / 4/24 ml-intern 同类的"边写边开源"项目，主要价值在于给自建 multi-agent 团队提供可借鉴的设计参考，而不是直接 production-ready。结合 4/19 Cloudflare Agent Memory、4/24 Anthropic Memory for Managed Agents、4/19 OpenAI Agents SDK v0.14 Sandbox、Kimi K2.6 Agent Swarm，multi-agent 协作的运行时抽象在过去一周已经被 5 种独立方案证明可行，下一步选型决策应该聚焦"哪种抽象最贴近你的团队既有工具链"。

ENTRY 011/011

[ 硬件 · NVIDIA · OPENAI · 推理经济学 · BLACKWELL ]

NVIDIA × OpenAI GB200 NVL72：35× token 成本下降的硬件经济学

(OpenAI's New GPT-5.5 Powers Codex on NVIDIA Infrastructure)

→ NVIDIA Blog · → TechRadar

4 月 23 日 NVIDIA 公布与 OpenAI 在 GB200 NVL72 上的联合部署细节：双方完成首批 100,000-GPU GB200 NVL72 集群联合 bring-up，单 token 成本相对前代下降 35×、每兆瓦 token 吞吐上升 50×。GPT-5.5 在该集群上完成训练并继续 serve；NVIDIA 同步将 GPT-5.5-Powered Codex 推送给内部 10,000 名工程师作为生产力工具，工程师反馈 "数天 debug 周期压缩到小时、跨多文件 codebase 实验从数周变为隔夜"。OpenAI 公布对 NVIDIA 系统超 10GW 装机承诺。

35× 单 token 成本下降是 2026 年 4 月最重要却最容易被忽视的数据点之一。这是 frontier model serving 经济学的拐点信号：去年 GPT-4o 单 token 推理价高于 GPT-3.5 约 5×，企业 AI 部署的核心约束是"token 账单"；如果 GB200 NVL72 把这条曲线压平 35×，那么 4/19 Toby Ord 提出的"AI agent 时薪指数级上涨"假设直接被打破——硬件代际跃迁速度超过了模型能力溢价的速度。这和 DeepSeek V4 同日证明 FP4 训练 + CSA/HCA 注意力把 1M 上下文成本压到 10% FLOPs 是同向 reinforcement：硬件层（NVIDIA）和算法层（DeepSeek）独立把成本曲线砍下来，叠加效应是企业 AI 单位任务成本可能在 2026 下半年回到 GPT-3.5 时代水平。

50× per-MW token 吞吐对数据中心规划的隐性影响巨大。当前美国 AI 数据中心的核心约束是 grid 电力承载（4/18 Maine 禁建数据中心、4/19 多州跟进），如果同样 100MW 容量原本能服务 10 万 token/s，GB200 NVL72 升级后能跑 500 万 token/s——意味着已建数据中心的实际产能潜在 50×，电网约束被部分缓解。配合 4/24 Google TPU 8i 性价比 +80% 的并列发布，前沿厂商的硬件代际更新节奏在 2026 年春天首次同时朝同一方向加速。

10GW 装机承诺这个数字需要拆开读。10GW ≈ 1000 万张 H100 等效 = 全球已建 GPU 算力的 1.5-2×——OpenAI 单家承诺的算力规模超过 2024 年全球总产能。这条数字要么意味着 NVIDIA 未来 18 个月的产能都被 OpenAI 锁定（其他客户排队），要么意味着 NVIDIA 必须把 Vera Rubin（2026 下半年）的产能提前。两种解读都对**第二梯队 AI 公司（Anthropic、xAI、Meta、Mistral）**的硬件供给构成实质压力——如果 NVIDIA 全力服务 OpenAI 与 Google 双线，其他厂商可能必须更早转向 AMD MI300X / Huawei Ascend 等替代路线（DeepSeek V4 选择 Ascend 950 直接出厂支持也呼应这条逻辑）。

NVIDIA 内部 10,000 工程师全员部署 GPT-5.5-Codex 这条产品验证比 35× 成本数字更具说服力。NVIDIA 不需要做"AI 提升生产力"的营销故事，但仍选择把 OpenAI Codex 推到所有内部工程师——意味着 NVIDIA 已经把 Codex 视为芯片设计工程师的标准工具。这反过来给企业 CIO 一个简单的决策提示：当 NVIDIA 工程团队（被认为是世界最难替代的工程职业之一）都在大规模使用 Codex 时，对外质疑 AI Coding agent ROI 的企业可能在落后。

其他值得关注

COSPLAY：8B 基模 + 共生进化 skill bank，跨 6 游戏环境平均奖励超 frontier baseline 25.1%（HF 16↑） (Co-Evolving LLM Decision and Skill Bank Agents) — arXiv:2604.20987
VLAA-GUI：模块化 GUI 自动化框架，支持"知何时停止 / 恢复 / 搜索"（HF 12↑） (VLAA-GUI: Knowing When to Stop, Recover, and Search) — arXiv:2604.21375
Vista4D：用 4D 点云做视频重拍，对动态场景操控提供新表征（HF 7↑） (Vista4D: Video Reshooting with 4D Point Clouds) — arXiv:2604.21915
StyleID：风格无关人脸识别基准 + 度量（HF 18↑） (StyleID) — arXiv:2604.21689
[Hybrid Policy Distillation for LLMs：策略蒸馏的混合方法（HF 9↑）] — arXiv:2604.20244 — arXiv:2604.20244
TingIS：企业级实时风险事件发现，95% 高优 incident 召回（HF 10↑） (TingIS) — arXiv:2604.21889
[Replay-Buffer Engineering for Quantum Circuit Optimization：annealed prioritization 把化学精度步数减少 90%] — arXiv:2604.21863 — arXiv:2604.21863
WebGen-R1：用 RL 让 LLM 生成功能与美学兼具的网站（HF 3↑） (WebGen-R1) — arXiv:2604.20398
[Recursive Language Models 库登 GitHub trending（论文较旧，库为新增）：rlm.completion() 让 LLM 在 REPL 里递归调用自身处理 2 量级超出 context 的输入] — GitHub — GitHub
[Kronos 4M-72M 金融 K-line 基础模型登 GitHub Python trending（AAAI 2026 接收，21K 星 +451）] — GitHub — GitHub
[Anthropic Claude Code v2.1.116+：质量 bug 修复 + 用量限额重置] — Claude Devs — Claude Devs
[Canva AI 2.0：Zoom/Slack/邮件集成 + 后台调度 + 可编辑分层设计输出] — Canva — Canva
[Succinct ZCAM：iPhone 端 Apple Secure Enclave 内拍照 cryptographic 签名 + C2PA manifest，反 AI 伪造] — Succinct Labs — Succinct Labs
[NanoClaw v2 与 Vercel 合作：a2a 通信 + human-in-loop + 15 messaging platforms（产品发布）] — AI News — AI News
[Tencent Foundation Model Upgrade（Bloomberg 报道，缺技术细节）]
[Alibaba Qwen 与 China Eastern Airlines：自然语言订机票成首例规模 agentic AI 商用]
[OpenAI ChatGPT for Clinicians 对美国持证医师/药师/PA 免费开放]
[HN 1968 分 DeepSeek V4 主帖之外，AI 相关高分多为 ai-burnout / "AI juniors becoming nightmare" 等情绪/社会话题]

← 2026.04.24 2026.04.26 →