════ 2026.04.25 ════
今日要点
详细内容
ENTRY 001/011
[ 开源 · DEEPSEEK · LLM · 1M上下文 · FP4训练 · MOE ]
DeepSeek V4 Pro / Flash 开源:1.6T MoE + 1M 上下文 + Codeforces 3206
(DeepSeek-V4: Towards Highly Efficient Million-Token Context Intelligence)
4 月 24 日 DeepSeek 开源 V4 双 SKU:V4-Pro 1.6T 总参 / 49B 激活、33T tokens 预训练、HF 文件 865GB;V4-Flash 284B / 13B 激活、32T tokens、160GB。MIT 许可。两者默认 1M 上下文,三档推理模式(Non-think / Think High / Think Max)。架构核心:Compressed Sparse Attention (CSA) 保留约 1/m 大小 KV + top-k 稀疏选择器,Heavily Compressed Attention (HCA) 把更多 token 折叠进单一 entry,二者交替;Manifold-Constrained Hyper-Connections (mHC) 强化残差稳定性。训练用 FP4 + FP8 混合精度(MoE expert FP4,其他 FP8)。后训练分两阶段:domain-expert 独立 SFT+GRPO → 统一蒸馏。1M 上下文下 V4-Pro 仅需 V3.2 的 27% 单 token 推理 FLOPs / 10% KV,V4-Flash 进一步压到 10% / 7%。基准:SWE-Bench Verified 80.6(Opus 4.6 80.8)、Codeforces 3206(GPT-5.4 xHigh 3168)、HMMT 2026 Feb 95.2、IMOAnswerBench 89.8、LiveCodeBench 93.5、GPQA Diamond 90.1、Putnam-2025 120/120 完美证明、HLE 37.7(落后 Claude 40.0、GPT-5.4 39.8、Gemini 3.1 Pro 44.4)、MRCR 1M 83.5(Opus 92.9)。Pro $1.74/$3.48 per 1M、Flash $0.14/$0.28——比 Claude Opus 4.6 同档便宜约 7×。华为宣布 Ascend 950 supernode 出厂直接支持 V4,无需 NVIDIA GPU。
V4 的真正分量不在分数线本身,而在三件事的同时落地。第一是 1M 上下文的成本经济学被重写——CSA + HCA 把"更长 = 更贵"这条公认曲线在 V4-Flash 上压到 10% FLOPs / 7% KV,意味着同一片 GPU 可以多处理一个数量级的 context;过去的"长上下文是奢侈功能"假设直接失效。这条改写跟今天 NVIDIA × OpenAI 在 GB200 NVL72 上宣称的 35× 推理 token 成本下降叠加——硬件侧(NVIDIA)和算法侧(DeepSeek)在同一周给出两条独立路径,把 frontier model 的单 token 单价拉低了几乎一个数量级,这是 4/24 这一天最隐性、影响最深的一条线。
第二是 FP4 + FP8 训练首次在万亿级 MoE 上工程化跑通。MoE expert 在 FP4、其他参数在 FP8 是 NVIDIA Blackwell 推出 NVFP4 后社区一直在试但很少有公开成功的配置——DeepSeek 给出 33T tokens 预训练完成的实证,并在技术报告里说明 mHC 残差是稳定 FP4 训练所需的工程补丁。这对正在评估"FP4 训练是否值得跳"的团队是一次决定性证据:训练 loss 不会因为低精度天然崩溃,关键是配套的归一化与残差结构。结合 Qwen3.6-27B-FP8 / 35B-A3B 的 FP8 量化优先训练(4/24 报道)、DFlash 块扩散、TPU v8 i/t 训推分离,低精度计算栈已经从加速选项变成 frontier 模型的默认假设。
第三是开源旗舰首次在 coding/竞赛领域正面击败闭源 frontier 模型。Codeforces 3206 超过 GPT-5.4 xHigh 3168、Putnam-2025 拿满分追平 Axiom 超过 Aristotle/Seed-1.5-Prover——这两个是历史上闭源最有护城河的赛道。SWE-Bench Verified 80.6 与 Opus 4.6 0.2 分差距、价格 1/7 的组合,对企业 coding agent 选型几乎构成"必须重新评估"的压力。但要冷静读 V4 的弱点:HLE 37.7 落后于 Claude/GPT/Gemini,MRCR 1M 83.5 比 Opus 92.9 低 9 个点——说明 V4 的优势集中在结构化、可验证、coding/数学任务,在长上下文 retrieval、开放知识、世界事实上仍有 3–6 个月差距。配合 4/24 报道的 K2.6 长程 agent 优势 + Qwen3.6 dense coding 优势,2026 年春天开源侧已经在不同任务维度形成"闭源最强"的并列威胁。技术报告本身(被多名研究者称作年度最佳模型论文之一)也是这次发布隐藏的资产——MIT + 完整训练细节 + Ascend 出厂支持,意味着 V4 同时是模型、训练 recipe 教学材料和中国本土硬件部署样板。
ENTRY 002/011
[ OPENAI · 开源 · 隐私 · PII · 生产工具 ]
OpenAI Privacy Filter 开源:浏览器内的 PII 脱敏闭环
(Introducing OpenAI Privacy Filter)
4 月 22 日 OpenAI 开源 Privacy Filter:1.5B 参数、50M 激活,从 gpt-oss 家族 checkpoint 改造为双向 token 分类器,配合 BIOES 标签 + 受约束 Viterbi 解码,单 forward pass 完成 8 类 PII 标注(人名、地址、邮箱、电话、URL、日期、账号、secret/credential)。Apache 2.0,128K 上下文,PII-Masking-300k F1 96.0%(修正版 97.4%)、CredData token-level F1 84.4%;少量 fine-tune 即可把领域 F1 从 54% 拉到 96%。原生支持 transformers.js 在浏览器 WebGPU 内运行。
Privacy Filter 在架构选型上做了一件长期被忽视的事——把 LLM 反向退化成 bidirectional encoder + token classifier。过去两年的趋势是把所有 NLP 任务都装进 autoregressive prompt,但 PII 检测这种结构化标注任务用 decoder-only LM 跑既贵又不稳。OpenAI 直接把 gpt-oss checkpoint 砍掉自回归头、加 BIOES + Viterbi——本质是把 BERT 时代的 NER 工程范式重新搬回来,承认"frontier base model 用作 encoder 仍然非常强,但任务头要回到 classification"。这条范式回归对企业 NLP 栈是一次重要信号,意味着未来一年类似的"用 frontier checkpoint 做 encoder 任务"会越来越多——情感分析、意图识别、文档分类、代码漏洞标注都可以走同一路径。
工程含义同样直接。WebGPU + transformers.js 让脱敏完全留在浏览器——这是过去 RegEx-based PII 工具(Microsoft Presidio、AWS Comprehend)一直做不到的:传统方案要么准确率低(regex 漏 90% 上下文型 PII),要么必须把数据送回云端。Privacy Filter 1.5B/50M-active 体量同时满足离线 + 高准确率这条 2024-2025 年视为不可能三角的需求。和 4/19 Driftwood 的 WASM × Apple Silicon 零拷贝推理放在一起,"端侧 AI 工程栈"在 2026 年春天首次具备完整的工具链:模型层(Privacy Filter / Gemma 4 31B / Qwen3.6-27B)、运行时层(Driftwood / WebGPU / transformers.js)、安全层(superhq microVM / Agent Vault)。
对真实部署的指引很清晰:任何把企业数据送 frontier API 之前都该先过一遍 Privacy Filter——成本几乎为零(单文档毫秒级),代价是把 96% F1 内的 PII 替换成占位符。fine-tune 把领域 F1 从 54 拉到 96 这条数据更直接说明:通用模型 + 100-1000 条领域样本就能在合规要求高的场景(医疗、金融、法律)跑到生产标准。这条路径比让企业反复审计 GPT-5.5 / Opus 4.7 的 prompt 防泄漏要简单一个数量级。
ENTRY 003/011
[ XAI · 语音 · AGENT · 实时 · TAU-VOICE-BENCH ]
xAI Grok Voice Think Fast 1.0:思考与延迟解耦的语音 agent
(Grok Voice Think Fast 1.0)
4 月 23 日 xAI 推出 grok-voice-think-fast-1.0,τ-Voice Bench(含噪声、口音、打断、turn-taking 的全双工评测)拿下 67.3,远超 Gemini 3.1 Flash Live 43.8、Grok Voice Fast 1.0 38.3、GPT Realtime 1.5 35.3。25+ 语言原生、xAI 自研 VAD/tokenizer/audio model 全栈、$0.05/min API。声称 可以在保持响应延迟不变的前提下后台跑 reasoning,把"复杂多步工作流"和"snappy 响应"解耦。Starlink 是首批规模部署伙伴,用于客服与销售等高量场景。
τ-Voice Bench 67.3 这个数字本身需要拆开看。第一项是它领先第二名(Gemini 3.1 Flash Live)超过 23 个点——这种差距在大模型对比里非常罕见,通常意味着评测维度本身偏向某种能力。τ-Voice Bench 加权了 turn-taking 与中断恢复,而 xAI 在这两点上的工程投入(自研 VAD + tokenizer 全栈)是别家的"接 Whisper / 接 ElevenLabs / 接 GPT 转写"管线无法对标的——所以这条领先更像"xAI 选择了一个自己最擅长的对齐基准",而不是横向能力的全面胜出。但即便折算客观差距,也已经是 SOTA 级。
更值得读的是"思考与延迟解耦"这条架构主张。过去语音 agent 的死穴是用户感知延迟——任何超过 800ms 的"思考停顿"都会让对话从"自然交互"退回"语音命令"。Grok Voice 的解法是把 reasoning 放到响应的并发轨道,对话流先走"听觉层"应答(保持 200-400ms 响应),同时后台 reasoning 在 1-3 秒内完成并校正/扩展回复。这条架构和 4/24 的 Anthropic Memory for Managed Agents 是同一类思路:把 agent 的"快思维 / 慢思维"在运行时层拆开,而不是塞到同一个 forward pass 里。GPT Realtime 1.5 / Gemini 3.1 Flash Live 当前还是单 forward——所以即便上 GPT-5.5 base,单次 reasoning 长度仍然受限于"用户能容忍的停顿"。
战略侧,$0.05/min 是面向规模商用的定价信号——按客服场景每次通话 5 分钟,单次成本 $0.25,已经接近人工座席的边际人力成本三十分之一。Starlink 选作首批 launch partner 也明显——客户支持是 Musk 旗下产品体系里量最大、最痛点的语音工作流,先在内部把规模跑出来再向第三方开放。这给企业 voice agent 选型提供新的现实基准:如果你的场景是"高量、多语言、需要工具调用",Grok Voice 是当前价格性能比最高的选项;如果是"对话深度高、需要长上下文记忆",Anthropic Managed Agents(filesystem memory)+ GPT-5.5 仍然更适合。
ENTRY 004/011
[ ANTHROPIC · AGENT · 记忆 · 企业 · 可审计 ]
Anthropic Memory for Claude Managed Agents:filesystem-mounted 的可审计记忆
(Built-in memory for Claude Managed Agents)
4 月 23 日 Anthropic 在 Claude Managed Agents 上推出 Memory 公测,使用 managed-agents-2026-04-01 beta header。核心设计:记忆以文件形式挂在 agent 文件系统,Claude 通过原有的 bash 与 code execution 工具直接读写,不引入新原语;所有 memory 变更全程审计,可回滚、redact、按 session 导出。Netflix、Rakuten、Wisedocs、Ando 为早期客户;Rakuten 公开数据 first-pass 错误↓97%、成本↓27%、延迟↓34%。
把记忆挂成文件这个选择是工程上的高级选择,不是看起来那样的"懒"。过去一年 agent memory 的主流解法是引入新原语(向量数据库、Durable Object、专用 memory API),但每次新增原语都意味着 LLM 要学新工具——而 4/13 Berkeley RDI 与 4/19 RLVR Reward Hacking 反复证明:agent 在新工具上的失败率显著高于熟悉工具。Anthropic 的反方向解法是:既然 Claude 已经精通 bash + code execution,把记忆做成可被 cat、grep、echo >> file 操作的目录树,就把"记忆 IO 学习成本"压到接近零。这和 4/25 同日 HN 122 分的 wuphf(git markdown 作 LLM wiki)走的是同一条 Karpathy 主张:"让 agent 用人类工程师已有的工具读写共享脑"。
可审计性是更被低估的卖点。所有 memory 变更全程日志、按 session 维度可回滚 直接对接企业合规栈:当 agent 写入了 PII 或不准确的"事实",运维可以在 audit trail 里定位、删除、redact,而不是和向量数据库的 embedding drift 搏斗。Rakuten 报告的 27% 成本下降需要拆开读——表面看是模型用得更少,本质是每次 session 不再需要完整 RAG 召回,因为相关 memory 已经被 agent 自己持久化在了"工作目录"。这条收益对长程 agent(数小时-数天的工程任务)尤其大,对一次 5-10 turn 的客服对话则几乎不显现。
和 4/19 Cloudflare Agent Memory(Durable Object + Vectorize)形成"两条路线"完整画像:Cloudflare 走"基础设施层 vendor 托管 + binding 接入",Anthropic 走"应用层 SDK 内置 + 文件系统抽象"。两条路线的差异不是优劣而是部署边界——多租户 SaaS 偏 Cloudflare(每用户一个 Durable Object 隔离),单租户企业偏 Anthropic(公司内部统一 Claude 平台 + 内部审计栈)。结合 OpenAI Workspace Agents 4/23 的"团队共享 agent"、Kimi K2.6 的 300 sub-agent swarm,agent 持久化栈在 2026 年春天已经形成 4 种范式并存:filesystem(Anthropic)、vector store(Cloudflare)、shared context(OpenAI)、swarm sub-agent(Kimi)——下一步选型问题不再是"要不要 memory"而是"哪种 memory 抽象匹配你的业务"。
ENTRY 005/011
[ 论文 · 世界模型 · 评测 · 多模态 · 基准 ]
WorldMark:交互式视频世界模型的统一基准
(WorldMark: A Unified Benchmark Suite for Interactive Video World Models)
4 月 23 日 Alaya Studio / Shanda AI Research / 东京大学发布首个跨模型公平对比的交互式 I2V 世界模型基准 WorldMark。三个核心组件:(1) 统一动作映射层把共享 WASD + L/R 词表翻译进 6 个模型的原生控制接口(YUME 1.5 用 caption、HY-World 1.5 用 6-DoF pose、Genie 3 用 gamepad、Open-Oasis 用 25 维 action vector、Matrix-Game 用 action API、HY-GameCraft 用 Plücker ray);(2) 500 测试用例 × 50 reference 图 × 15 trajectory,分 first/third-person × real/stylized × 3 难度档(20s/40s/60s);(3) 8 维评测 covering Visual Quality、Control Alignment、World Consistency。结论:"视觉质量与世界一致性几乎不相关"——YUME 1.5 视觉最佳但长程崩塌,Genie 3 几何最稳但视觉中等;HY-Game 控制最准但画质最差;third-person 是普遍失效模式(Matrix-Game 旋转误差暴涨 ~20×);Open-Oasis 在 Minecraft 外完全失效。配套上线 World Model Arena (warena.ai) 在线 PK 平台。Spearman ρ > 0.9 与 20 人 human ranking 对齐。
WorldMark 解决的是 4/16-4/24 这一波世界模型集中发布后最严重的认知盲点:每家都报"我的世界模型最好",但用的都是私有基准,比较根本不可能。这种状态在 2024 年 LLM 圈解决于 MMLU/GPQA/SWE-Bench 的标准化,世界模型这条赛道直到 2026 年 4 月才补上。WorldMark 的工程贡献甚至比"统一动作词表"更深——是把控制接口的差异工程化:YUME 用自然语言、HY-World 用 6-DoF、Genie 用 gamepad,这些差异过去是各家护城河,WorldMark 的适配器把它们统一成"一行 WASD",让对比变成 plug-and-play。
最重要的实证发现是"视觉质量 ≠ 世界一致性"这条结论被首次量化。过去用户看 YUME 1.5 的 demo 会觉得"画面太美一定是 SOTA",但 WorldMark 显示同样的输入下 YUME 在 60s 长度上世界结构会逐步坍塌——这是社交媒体 demo 不会展示的失效模式。Genie 3 走相反方向:每帧"一般好看",但跨 60s 仍能维持物体永存性、几何稳定。对游戏开发与机器人仿真团队,这意味着选型不能只看 demo 视觉,必须查 Reprojection Error 与 State Consistency 这种长程指标——前者刚好是 4/18 NVIDIA Lyra 2.0 / 4/16 腾讯 HY-World 2.0 主打的"3DGS 资产化"路线相对于"视觉漂亮但物理散架"的纯 video diffusion 路线的核心优势。
第三人称视角崩塌(Matrix-Game 旋转误差 ×20)这条数据点对具身智能与机器人仿真最具警告价值。机器人训练里第三人称是默认场景(俯视/侧视拍摄),如果当前主流交互世界模型在第三人称下控制误差暴涨 20×,那么用它做 sim-to-real 训练数据的可靠性立刻打问号。这和 4/24 Odyssey-2 Max"实时物理一致性"主张形成有用对照——不是所有"世界模型"都能给机器人提供训练信号,第三人称稳定性应当成为新的差异化轴。
ENTRY 006/011
[ 论文 · 具身智能 · 人形机器人 · RQ-VAE · 世界模型 ]
UniT:用视觉锚定 RQ-VAE 把人和人形机器人压进同一动作 codebook
(UniT: Toward a Unified Physical Language for Human-to-Humanoid Policy Learning and World Modeling)
提出 UniT(Unified Latent Action Tokenizer via Visual Anchoring)。核心命题:"异质 kinematics 共享通用视觉后果,视觉是跨 embodiment 对齐的天然 anchor"。架构三分支:vision branch(DINOv2 特征做逆动力学)、action branch(state + action MLP)、fusion branch;三者共享 RQ-VAE 离散 codebook,每个量化 token 必须双向重构视觉与动作(cross-reconstruction)——视觉重构把不可见 kinematic 噪声滤掉、动作重构强制 latent 对齐物理后果。两个下游:VLA-UniT 基于 GR00T n1.5 + Qwen2.5-VL,token 预测 + flow matching 双头;WM-UniT 基于 Cosmos Predict 2.5 做 action-conditioned 视频生成。RoboCasa GR1:VLA-UniT 66.7% 全数据 / 45.5% 1/10 few-shot(vs GR00T 47.8%、FLARE 55%)。真机器人 IRON-R01-1.11:pick-and-place 78%(GR00T 30%)、pour 75%(GR00T 5%);OOD geometry +40%、distractor +33%;零样本 stacking 60%(人类 co-training)。t-SNE 验证:"raw action 下人/机器人完全分离 → UniT token 后高度重叠"。
UniT 的核心命题——"视觉是天然 anchor"——在工程上比看上去更深。人形机器人和人手部最不一样的就是 kinematic 自由度:人 27 个关节、机器人手往往只有 6-12 个,关节角直接迁移注定失败;过去主流方案是手工 retargeting(kinematic solver 求最近映射)或 contrastive embedding(学一个跨域表征空间)。UniT 的不同在于直接绕过 kinematic 层——只要"做这件事时画面如何变化"是同一件事,那么背后的具体关节角差异在表征上就被压缩成噪声。RQ-VAE 共享 codebook 让所有 embodiment 投影进同一离散空间,cross-reconstruction 强制每个 token 必须能反推回视觉变化(保证物理意义),物理意义对应的关节信号则通过 action 重构的 embodiment-specific decoder 还原。
数字层面最关键的不是 RoboCasa 66.7 vs 47.8 的 SOTA 数字,而是few-shot 泛化能力:1/10 数据下仍能跑到 45.5%(接近 GR00T 全数据 47.8%)——这条经济学对真实机器人公司是颠覆性的,意味着采集 2.4k 条人类 demonstration 就够替代 24k 条机器人 trajectory。机器人数据采集成本通常比人类视频高 10-100 倍,UniT 的 visual anchoring 让这条不对称被算法侧消化。配合 4/18 NVIDIA Lyra 2.0 + Isaac Sim 把仿真场景生成成本拉低,"小数据 + 仿真增广 + 跨 embodiment 迁移" 这个组合在 2026 年春天首次完整成型——具身智能的"数据稀缺"叙事会在 2026 年下半年被重写。
工程意义上 UniT 给具身基础模型一条新参考架构。过去 VLA(GR00T、π0、OpenVLA)都是"VLM + action head"两段式,UniT 在中间塞进了一个 embodiment-agnostic 离散 token 层——这层既是 policy learning 的对齐桥梁,也可以直接拿去做世界建模(WM-UniT 在 EgoDex+GR1 上 PSNR 28.06、FVD 130.87)。对正在自建 VLA 栈的团队,UniT 的 RQ-VAE codebook 是可以直接 plug-in 的中间件——不需要重训 VLM,只需要在 action head 前加一层量化 + cross-reconstruction loss。
ENTRY 007/011
[ 论文 · 时间序列 · 多模态 · ACL2026 · CURRICULUM-LEARNING ]
LLaTiSA:把 VLM 接到时间序列上的难度分级推理
(LLaTiSA: Towards Difficulty-Stratified Time Series Reasoning from Visual Perception to Semantics)
阿里 Amap 团队 4/19 提交、4/24 登顶 HF Papers 的工作。核心问题:现有 LLM 处理时间序列的研究割裂——任务定义不一、benchmark 含糊。提出 TSR (Time Series Reasoning) 四级 cognitive taxonomy(数值读取 → 模式感知 → 语义推理 → 复合分析)+ HiTSR 层级数据集(83K 样本 + 验证过的 CoT 轨迹)+ LLaTiSA VLM:结合可视化图形 + 精度校准的数值表,三阶段 curriculum SFT(L1 数值读取 → L2 形态/趋势 → L3 上下文/领域知识)。在多个 benchmark 上稳定超过 proprietary 与开源 baseline,OOD 泛化突出。
把时间序列做成 VLM 任务这条路线的关键洞察是:数值精度与视觉直觉互补,但单走任一条都不够。纯数值表(数据帧、JSON)让 LLM 看见精度但失去形态信号——4 万行温度数据里"是否有周期性下降"的问题在数值下被淹没;纯图(折线图)让模型看到形态但读不出 32.5 vs 32.7 的差异。LLaTiSA 把两者并列输入:图供形态感知、表供数值锚定,让同一个 VLM 同时处理"看出 7 月有周期性峰值"和"峰值具体是 38.4°C"两类问题。这条思路其实和 4/24 LLaDA2.0-Uni 用 Mask Token Prediction 统一多模态生成属于同一范式——多模态不是把不同模态拼起来,而是让它们在同一推理回合里互相 grounding。
四级 taxonomy 是论文里被低估的工程贡献。现有时间序列 benchmark(TSFM、Time-MoE、Chronos)几乎都把任务定义在 L1(数值读取)或 L4(预测/异常检测),中间的 L2(趋势)和 L3(语义理解,"为什么涨")几乎是评测空白。LLaTiSA 把 HiTSR 拆成四级让 curriculum 从易到难——这种按 cognitive 复杂度分层做 SFT 的思路和 4/15 SPEED-Bench、4/19 Atropos 都共享一条隐含主张:reasoning 训练不能一次性把所有难度灌进去,要让模型先在简单层稳定再上难度。这对正在做时序基础模型(金融、气象、IoT、医疗监测)的团队是直接可借鉴的训练 recipe。
ACL 2026 Findings 接收意味着这工作经过了 NLP 顶会同行评议——和今天 GitHub trending 上的 Kronos(金融 K-line 基础模型,AAAI 2026)形成"时间序列基础模型"赛道的两极:Kronos 把 K-line 离散 tokenize 后跑 decoder-only Transformer(金融垂直),LLaTiSA 用 VLM 加视觉做通用 TSR(跨领域)。两条路线对应不同假设——前者押"专门数据 + 专门 tokenizer",后者押"通用 VLM + 多模态对齐"。后续 6-12 个月这两条路谁先在生产场景拿到稳定收益,会决定时序基础模型的主流路线。
ENTRY 008/011
[ OPENAI · 领域模型 · 生命科学 · CODEX · 药物发现 ]
GPT-Rosalind:OpenAI 首个领域专精模型,瞄准生命科学
(Introducing GPT-Rosalind for life sciences research)
4 月 16 日 OpenAI 发布 GPT-Rosalind(命名致敬 Rosalind Franklin)——首个公开的领域专精 frontier model,聚焦生物学/药物发现/转译医学。基于 OpenAI 最新内部 base model 改造,强化分子/蛋白/基因/通路推理与多步科研工具调用。BixBench(生信数据分析)0.761 超 Gemini 3.1 Pro / Grok 4.2;LABBench2 在 11 项任务中 6 项超 GPT-5.4,含文献检索、序列操作、protocol 设计;Dyno Therapeutics 评测中 RNA 预测超过 95% 人类专家分位、复杂序列生成达 84% 分位。配套 Codex 生命科学 plugin 接入 50+ 多组学数据库,提供 research router 自动 evidence-backed 答复 + parallel sub-agents。Trusted Access 程序限定,早期客户:Amgen、Moderna、Thermo Fisher、Allen Institute、Dyno、Los Alamos、Novo Nordisk。注:本条 4 月 16 日发布但前期简报未单独覆盖,今日补遗。
GPT-Rosalind 是 OpenAI 第一次公开把"frontier base model + 领域微调 + 专用工具栈"打包为独立产品 SKU,对 AI 行业战略意义大于单点能力。过去通用 frontier model 的扩张逻辑是"一个模型服务所有任务",所以 GPT-4o → GPT-5 → GPT-5.4 → GPT-5.5 都是横向变强;GPT-Rosalind 第一次承认"专门领域需要专门 SKU"——这条战略转向和 4/19 OpenAI Trusted Access for Cyber 推出 GPT-5.4-Cyber 是同一节奏,意味着 OpenAI 正在把产品矩阵从"模型"细化到"领域 × 模型 × 工具栈"。Anthropic 这条线还停留在 Mythos preview(cyber)和 Claude Design(设计),覆盖窄;Google 主要押 Gemini 通用 + Gemma 开源;OpenAI 选择往生命科学这个最大的下游产业垂直深耕,是面对 Anthropic 通用能力差距收窄时的战略防御。
Codex 生命科学 plugin 的工程结构尤其值得注意。research router + parallel sub-agents + 50+ 多组学数据库这套打法不是新模型能力,而是对既有 Codex agent 框架的领域适配——和 4/24 huggingface/ml-intern 把 ML 工作流结构化的思路同构。这条"垂直 agent + 通用 base model"的混合架构正在成为 2026 年企业 AI 部署的事实模板:base model 由前沿厂商提供,垂直工具栈与数据库挂载由领域厂商或自建。对生物科技公司,GPT-Rosalind + Trusted Access 等于把"接 Frontier Model + 自建 50 个数据库工具"这步省掉,但代价是被 OpenAI 锁定。
具体能力数字需要平衡看待。95% 人类专家分位听起来惊艳,但 RNA 预测(Dyno 任务)是受过专门训练 data 的窄任务,OOD 表现仍待外部验证;BixBench 0.761 高于 Grok 4.2 但低于专用蛋白模型(如 AlphaFold 3 + RoseTTAFold)。GPT-Rosalind 的现实定位是多步 agent 工作流而非单点 SOTA:当任务从"算 RNA 二级结构"扩展到"读论文 → 选靶 → 设计实验 → 分析结果 → 写 protocol"时,GPT-Rosalind 是当前唯一能端到端跑通的产品,配合 50+ 数据库工具的 router 是它的核心壁垒。对早期客户(Amgen、Moderna、Novo Nordisk),这意味着研究 pipeline 的初步实验设计阶段可以从数周压缩到小时。
ENTRY 009/011
[ 开源 · 编译器 · DSL · GPU · KERNEL工程 ]
TileLang v0.1.9:Pythonic GPU/CPU kernel DSL 走向多后端
(TileLang: Domain-Specific Language for High-Performance Kernels)
TileLang 是构建在 Apache TVM 之上的 GPU/CPU kernel DSL,4 月 22 日发布 v0.1.9。核心定位:Pythonic 语法 + 编译期 tile 抽象,让开发者表达计算意图后由编译器自动生成 CUDA/HIP/CuTe DSL/WebGPU 多后端代码。功能:tile-based 数据流、autotune(pipeline、layout、L2 swizzle)、shared memory 显式管理、矩阵乘 / FlashAttention / dequant GEMM / sparse tensor 算子库;硬件覆盖 NVIDIA H100/A100/V100/RTX、AMD MI250/MI300X、Apple Metal。v0.1.9 引入 CuTe DSL 后端编译 + Z3 theorem prover 验证 + Apple Metal 设备支持。
TileLang 站在三股势力的交汇点:(1) Triton 已经是 PyTorch / vLLM 默认 GPU DSL 但只跑 NVIDIA;(2) AMD MI300X 与 Apple Silicon 在推理侧份额上升,需要跨厂商 kernel 编写工具;(3) NVIDIA 自己推出 CuTe DSL 替代 CUDA C++ 强调结构化 tile 抽象。TileLang 选择把这三条线接到同一编译栈下——Pythonic 前端写一次,编译到 Triton / CuTe / HIP / WebGPU / Metal 五条后端。这条战略野心比单一产品大,本质是想做"GPU kernel 时代的 LLVM"——前端归一、后端可插。
v0.1.9 加入 Z3 theorem prover 验证 是这次发布最被低估的更新。GPU kernel 的两个传统痛点:(1) 数据竞争靠人工审查、(2) 量化 / 混合精度边界条件靠测试穷举——前者难以可靠、后者代价高。Z3 把"shared memory 写入冲突"或"FP4 量化溢出"作为可形式化验证的命题处理,让编译器在生成 kernel 时直接证明无 race condition / 无溢出。这对正在做 FP4/FP8 训练栈(DeepSeek V4 今天证明 FP4 训练可行)的团队是直接刚需——之前 FP4 内核的失败 mode 大量来自"溢出在 99% 输入下不发生但被某个边界 case 触发",theorem prover 的引入让这类 bug 在编译期消除。
Apple Metal 后端对 macOS / iOS 端侧 AI 是另一条战略意义。当前 Apple Silicon 的统一内存推理栈(4/19 Driftwood)主要是 Metal Performance Shaders + 自写 Metal kernel,TileLang 让"Triton 写一次跑 Metal"成为可能。配合 OpenAI Privacy Filter 的 transformers.js + WebGPU,端侧 AI 的工具链栈在 2026 年春天首次形成连贯路径:模型层(小型 frontier model)→ 编译层(TileLang / Triton)→ 运行时层(WebGPU / Metal / WASM)。
ENTRY 010/011
[ 开源 · AGENT · 多AGENT协作 · GIT · 记忆 ]
WuPHF:Karpathy 风格的 LLM wiki,让多 agent 共享 git-native 大脑
(Karpathy-style LLM wiki your agents maintain)
4 月 25 日 Show HN 项目,262 stars。"Slack for AI employees with a shared brain"——支持 Claude Code、Codex、OpenClaw 等多 agent 在同一 channel 协作并维护git-native 共享记忆:事实以 markdown 提交到 archivist 身份下、可见 git log;超阈值时合成新 brief。架构核心:(1) push 驱动 agent 唤醒(零 idle token)、(2) 每轮新 session(无 context 累积)、(3) per-agent 隔离 + 共享 wiki 双层记忆、(4) 多 runtime 同时跑(Claude / Codex / OpenClaw)、(5) Telegram + OpenClaw bridge。后端 Go 75%、前端 TypeScript 14.6%、MIT。
WuPHF 名字虽然蹩脚,但选择了一条 2026 年春天非常正确的设计哲学。git-native 记忆 + per-turn fresh session 这两条选择直接对应 4/24 Anthropic Memory for Managed Agents 的 filesystem-mounted 抽象——两者独立得出同一条结论:"agent 工程师已经精通 git 和文件系统,在共享脑上别再发明新原语"。WuPHF 把它推得更远:所有 agent 输出都以 markdown 提交到 archivist 身份下的 git repo,人类工程师可以用 git log、git blame、git diff 直接审计 agent 的"思考变迁",这是任何 vector store / Durable Object 路线都无法天然做到的。
push 驱动唤醒 + 零 idle token 是另一条值得标记的工程细节。当前多 agent 框架(DeerFlow、AutoGen、CrewAI)的隐性成本是"sub-agent 在等待时仍在轮询消耗 token",多 agent 部署后单位任务成本指数级上涨(4/19 Toby Ord 引发 HN 讨论的核心问题)。WuPHF 的 broker 架构让 agent 只在被 message 触发时才唤醒,待机成本理论上为零——这条结构在长程 agent(数小时到数天)场景下能直接把 token 账单压低一个数量级。Per-turn fresh session 也回应了 4/24 Tool Attention 论文揭示的 schema 膨胀问题:每轮新 session 意味着 tool schema 不会跨轮累积,自然规避了"每轮 47k token tool schema"的浪费。
但要冷静看 WuPHF 的成熟度——MIT、262 stars、pre-1.0、daily commits,是 4/19 DeerFlow 2.0 / 4/24 ml-intern 同类的"边写边开源"项目,主要价值在于给自建 multi-agent 团队提供可借鉴的设计参考,而不是直接 production-ready。结合 4/19 Cloudflare Agent Memory、4/24 Anthropic Memory for Managed Agents、4/19 OpenAI Agents SDK v0.14 Sandbox、Kimi K2.6 Agent Swarm,multi-agent 协作的运行时抽象在过去一周已经被 5 种独立方案证明可行,下一步选型决策应该聚焦"哪种抽象最贴近你的团队既有工具链"。
ENTRY 011/011
[ 硬件 · NVIDIA · OPENAI · 推理经济学 · BLACKWELL ]
NVIDIA × OpenAI GB200 NVL72:35× token 成本下降的硬件经济学
(OpenAI's New GPT-5.5 Powers Codex on NVIDIA Infrastructure)
4 月 23 日 NVIDIA 公布与 OpenAI 在 GB200 NVL72 上的联合部署细节:双方完成首批 100,000-GPU GB200 NVL72 集群联合 bring-up,单 token 成本相对前代下降 35×、每兆瓦 token 吞吐上升 50×。GPT-5.5 在该集群上完成训练并继续 serve;NVIDIA 同步将 GPT-5.5-Powered Codex 推送给内部 10,000 名工程师作为生产力工具,工程师反馈 "数天 debug 周期压缩到小时、跨多文件 codebase 实验从数周变为隔夜"。OpenAI 公布对 NVIDIA 系统超 10GW 装机承诺。
35× 单 token 成本下降是 2026 年 4 月最重要却最容易被忽视的数据点之一。这是 frontier model serving 经济学的拐点信号:去年 GPT-4o 单 token 推理价高于 GPT-3.5 约 5×,企业 AI 部署的核心约束是"token 账单";如果 GB200 NVL72 把这条曲线压平 35×,那么 4/19 Toby Ord 提出的"AI agent 时薪指数级上涨"假设直接被打破——硬件代际跃迁速度超过了模型能力溢价的速度。这和 DeepSeek V4 同日证明 FP4 训练 + CSA/HCA 注意力把 1M 上下文成本压到 10% FLOPs 是同向 reinforcement:硬件层(NVIDIA)和算法层(DeepSeek)独立把成本曲线砍下来,叠加效应是企业 AI 单位任务成本可能在 2026 下半年回到 GPT-3.5 时代水平。
50× per-MW token 吞吐对数据中心规划的隐性影响巨大。当前美国 AI 数据中心的核心约束是 grid 电力承载(4/18 Maine 禁建数据中心、4/19 多州跟进),如果同样 100MW 容量原本能服务 10 万 token/s,GB200 NVL72 升级后能跑 500 万 token/s——意味着已建数据中心的实际产能潜在 50×,电网约束被部分缓解。配合 4/24 Google TPU 8i 性价比 +80% 的并列发布,前沿厂商的硬件代际更新节奏在 2026 年春天首次同时朝同一方向加速。
10GW 装机承诺这个数字需要拆开读。10GW ≈ 1000 万张 H100 等效 = 全球已建 GPU 算力的 1.5-2×——OpenAI 单家承诺的算力规模超过 2024 年全球总产能。这条数字要么意味着 NVIDIA 未来 18 个月的产能都被 OpenAI 锁定(其他客户排队),要么意味着 NVIDIA 必须把 Vera Rubin(2026 下半年)的产能提前。两种解读都对**第二梯队 AI 公司(Anthropic、xAI、Meta、Mistral)**的硬件供给构成实质压力——如果 NVIDIA 全力服务 OpenAI 与 Google 双线,其他厂商可能必须更早转向 AMD MI300X / Huawei Ascend 等替代路线(DeepSeek V4 选择 Ascend 950 直接出厂支持也呼应这条逻辑)。
NVIDIA 内部 10,000 工程师全员部署 GPT-5.5-Codex 这条产品验证比 35× 成本数字更具说服力。NVIDIA 不需要做"AI 提升生产力"的营销故事,但仍选择把 OpenAI Codex 推到所有内部工程师——意味着 NVIDIA 已经把 Codex 视为芯片设计工程师的标准工具。这反过来给企业 CIO 一个简单的决策提示:当 NVIDIA 工程团队(被认为是世界最难替代的工程职业之一)都在大规模使用 Codex 时,对外质疑 AI Coding agent ROI 的企业可能在落后。
其他值得关注
- COSPLAY:8B 基模 + 共生进化 skill bank,跨 6 游戏环境平均奖励超 frontier baseline 25.1%(HF 16↑) (Co-Evolving LLM Decision and Skill Bank Agents) — arXiv:2604.20987
- VLAA-GUI:模块化 GUI 自动化框架,支持"知何时停止 / 恢复 / 搜索"(HF 12↑) (VLAA-GUI: Knowing When to Stop, Recover, and Search) — arXiv:2604.21375
- Vista4D:用 4D 点云做视频重拍,对动态场景操控提供新表征(HF 7↑) (Vista4D: Video Reshooting with 4D Point Clouds) — arXiv:2604.21915
- StyleID:风格无关人脸识别基准 + 度量(HF 18↑) (StyleID) — arXiv:2604.21689
- [Hybrid Policy Distillation for LLMs:策略蒸馏的混合方法(HF 9↑)] — arXiv:2604.20244 — arXiv:2604.20244
- TingIS:企业级实时风险事件发现,95% 高优 incident 召回(HF 10↑) (TingIS) — arXiv:2604.21889
- [Replay-Buffer Engineering for Quantum Circuit Optimization:annealed prioritization 把化学精度步数减少 90%] — arXiv:2604.21863 — arXiv:2604.21863
- WebGen-R1:用 RL 让 LLM 生成功能与美学兼具的网站(HF 3↑) (WebGen-R1) — arXiv:2604.20398
- [Recursive Language Models 库登 GitHub trending(论文较旧,库为新增):rlm.completion() 让 LLM 在 REPL 里递归调用自身处理 2 量级超出 context 的输入] — GitHub — GitHub
- [Kronos 4M-72M 金融 K-line 基础模型登 GitHub Python trending(AAAI 2026 接收,21K 星 +451)] — GitHub — GitHub
- [Anthropic Claude Code v2.1.116+:质量 bug 修复 + 用量限额重置] — Claude Devs — Claude Devs
- [Canva AI 2.0:Zoom/Slack/邮件集成 + 后台调度 + 可编辑分层设计输出] — Canva — Canva
- [Succinct ZCAM:iPhone 端 Apple Secure Enclave 内拍照 cryptographic 签名 + C2PA manifest,反 AI 伪造] — Succinct Labs — Succinct Labs
- [NanoClaw v2 与 Vercel 合作:a2a 通信 + human-in-loop + 15 messaging platforms(产品发布)] — AI News — AI News
- [Tencent Foundation Model Upgrade(Bloomberg 报道,缺技术细节)]
- [Alibaba Qwen 与 China Eastern Airlines:自然语言订机票成首例规模 agentic AI 商用]
- [OpenAI ChatGPT for Clinicians 对美国持证医师/药师/PA 免费开放]
- [HN 1968 分 DeepSeek V4 主帖之外,AI 相关高分多为 ai-burnout / "AI juniors becoming nightmare" 等情绪/社会话题]