每日科技简报 — 2026年3月16日

核心摘要

Sam Altman公开承认纯规模扩张无法通向AGI，呼吁寻找全新架构——这是AI行业叙事的里程碑式转折。与此同时，Anthropic百万token上下文窗口的实际表现获得独立验证，而DRAM供应瓶颈可能在未来两年严重制约AI算力扩张。

重点报道

规模神话破灭：Altman亲口承认需要"超越Transformer的重大突破"

此前我们持续追踪的AI规模瓶颈故事迎来决定性一幕。

Sam Altman在最新演讲中表示："我打赌还有另一种新架构等待被发现，其带来的增益将不亚于Transformer对LSTM的提升。"这句话的分量在于它的出处——十四个月前，正是Altman本人宣称"我们已经知道如何构建AGI"。从"我们知道怎么做"到"我们需要全新突破"，这不是措辞微调，而是根本立场的逆转。

更关键的是这并非孤立事件。正如AI评论家Gary Marcus所指出的，Musk承认xAI"构建方式不对"，Zuckerberg推迟了Meta下一代模型（我们在3月14日报道了Avocado模型因性能不达标被推迟），Hassabis、Sutskever、LeCun也纷纷与纯规模路线保持距离。连Nadella和Pichai都暗示了对规模扩张的怀疑。

为什么这很重要？ 当前数千亿美元的数据中心投资，其底层逻辑就是"更大=更强"的规模假说。如果行业领袖自己都不再相信这个前提，这些基础设施投入就面临成为搁浅资产的风险。Marcus犀利地指出：在通往AGI的论据持续崩塌之际，仍在考虑投入数万亿美元建设数据中心，这笔交易说不通。

不过值得注意的是，Altman提到可以"借助AI的力量寻找重大突破"——换言之，现有AI虽不能自我进化到AGI，但或许能帮助人类发现通往AGI的新路径。这是一种更务实、也更诚实的定位。

Claude百万Token上下文：独立测试印证非同凡响

延续3月14日Anthropic开放百万token上下文的报道，独立博主Martin Alderson分享了深度使用体验。他在约50万token的Claude Code会话中发现模型表现"非常好——它保持了任务焦点，我不需要比平时更多地重复自己"。

技术上的关键区别在于"上下文衰减"（context rot）——随着会话变长，模型质量下降的程度。Alderson引用Anthropic发布的"大海捞针"基准测试（needle benchmark，要求模型从上下文中回忆特定事实）：GPT-5.4和Gemini 3.1 Pro在超过256K token后准确率骤降至50%以下，而Claude 4.6在百万token时仍保持高准确率。

最大惊喜是定价：Anthropic没有对超长上下文加价，而Google和OpenAI在超过200-272K token后收取双倍费用。这意味着一个主代理可以管理多个子代理，每个都拥有百万token上下文窗口，经济上首次变得可行。

DRAM短缺：AI算力扩张的真正天花板

Martin Alderson的另一篇深度分析揭示了一个被低估的瓶颈：全球DRAM供应仅能支撑15GW的AI基础设施部署。这对我们此前报道的算力瓶颈问题（光刻机、内存、电力三大制约）提供了具体数据支撑。

粗略计算：15GW约相当于200万块GB200芯片，大概只能支撑3000万"重度代理用户"每天百万token的使用量。考虑到视频、音频模型以及训练任务也在争夺同一资源池，这个数字远不足以满足爆发式增长的需求。更棘手的是，高端DRAM产能扩张需要数年时间，且依赖荷兰ASML独家供应的EUV光刻设备。

Alderson个人的token消耗量在三年内增长了约50倍——这不是个例，而是代理式工作流普及后的普遍趋势。

快讯

代理工程定义成型：Simon Willison发布"代理工程模式"指南，将代理定义为"在循环中运行工具以实现目标"的系统，强调人类的核心价值在于决定写什么代码而非写代码本身
Ghostty修复最大内存泄漏：Mitchell Hashimoto详述了一个由Claude Code的特殊输出模式触发的PageList内存泄漏——非标准页面在滚动缓冲区复用时元数据与实际分配不同步，导致munmap永远不会被调用
Zig错误恢复测试新工具：同样来自Hashimoto的Tripwire库，通过命名故障注入点测试errdefer路径，在Ghostty中首次集成就发现约6个潜伏bug，且在非测试构建中完全零开销
Drupal到Hugo的13000条评论迁移：Jeff Geerling用本地LLM（GPT-OSS 20B）辅助完成，几个晚上搞定了原本需要数周的工作，但他警告："谄媚的LLM不能替代资深开发者的导师作用"
欧洲数字主权危机：Bert Hubert指出欧洲领导层被咨询行业洗脑，认为只有美国三大云商可选，而实际上直到几年前税务系统还运行在本地服务器上——技术能力并未消失，只是决策层失去了技术判断力
多项式时间分解算法猜想：geohot大胆预测AI将在十年内找到多项式时间整数分解算法，甚至认为P=BQP（量子计算无复杂度优势），并称公开发布这样的算法将是"历史上最伟大的合法自由抗争行为"

值得关注

"规模神话破灭"从趋势变成共识：从孤立质疑到行业领袖集体后退，这条叙事线在两周内急速演进。下一个关注点：这是否会影响已宣布的数据中心投资计划的实际执行节奏？
DRAM供应链将成为2026-2027年AI行业的关键变量，可能比模型能力本身更能决定行业格局
代理式工作流的token消耗爆发正在与算力供给形成剪刀差，动态推理定价和免费额度缩减可能很快到来

PODCAST SCRIPT

大家好，欢迎来到2026年3月16日的 YOMOO 每日AI快送。

我跟你说，今天这期节目信息量非常大，而且有一条消息，我觉得它可能会成为整个AI行业的一个分水岭。什么消息呢？Sam Altman，对，就是那个OpenAI的掌门人，他公开说了一句话，大意是：光靠把模型做大，是到不了通用人工智能的，我们需要一种全新的架构。

你可能觉得，这不就是一句技术观点嘛，有什么大不了的？大了去了。你想想看，就在十四个月前，也是这位Altman先生，他信心满满地告诉全世界说"我们已经知道如何构建AGI了"。从"我们知道怎么做"到"我们需要全新突破"，这可不是什么措辞上的微调，这是根本立场的一百八十度大转弯。

而且更有意思的是什么呢？这不是他一个人在唱独角戏。你看，Musk承认xAI的构建方式不对，Zuckerberg推迟了Meta的下一代模型，DeepMind的Hassabis、Sutskever、LeCun，这些AI领域最顶级的大脑，全都在跟"越大越强"这条路线保持距离。连微软的Nadella和Google的Pichai都在暗示，纯粹的规模扩张可能走不通。

那这意味着什么？你想，现在全球有数千亿美元砸在数据中心上，这些投资的底层逻辑就一条：模型越大越聪明，算力越多越好。但如果连行业领袖自己都不信这个前提了，那这些基础设施就有可能变成搁浅资产。AI评论家Gary Marcus说了一句特别犀利的话：在通往AGI的论据持续崩塌的时候，你还要往里砸数万亿美元建数据中心，这笔账怎么算都说不通。

不过呢，Altman倒也没有完全悲观。他提到了一个很有意思的思路，就是说现有的AI虽然自己进化不到AGI，但也许能帮人类去发现那条通往AGI的新路径。这个定位我觉得务实多了，也诚实多了。

好，咱们说回技术层面，聊一个让人眼前一亮的事。

还记得我们前两天报道过Anthropic开放了百万token的上下文窗口吗？现在有独立测试结果出来了。一位叫Martin Alderson的独立博主，他在大约五十万token的Claude Code会话里深度使用了一番，结论是什么呢？他说模型表现非常好，它始终保持任务焦点，他不需要比平时更多地重复自己。

这里面有一个关键的技术概念叫"上下文衰减"，就是说随着对话越来越长，模型的质量会下降多少。Alderson引用了Anthropic发布的大海捞针测试，就是让模型从海量文本中回忆一个特定事实。结果显示，GPT-5.4和Gemini 3.1 Pro在超过二十五万token之后，准确率就骤降到百分之五十以下了，而Claude 4.6在一百万token的时候依然保持着很高的准确率。这个差距是非常显著的。

但最让我惊讶的还不是性能，而是定价。Anthropic居然没有对超长上下文加价，而Google和OpenAI在超过大约二十五万token之后是要收双倍费用的。这意味着什么呢？你可以搞一个主代理管理多个子代理，每个子代理都有百万token的上下文窗口，而且经济上首次变得可行了。这对于做复杂代理工作流的人来说，简直是一个巨大的利好。

接下来这条消息，可能没那么性感，但我认为它比模型能力本身更重要。

还是这位Alderson，他做了一篇深度分析，揭示了一个被严重低估的瓶颈：全球的DRAM供应，也就是内存，它只能支撑大约15GW的AI基础设施部署。15GW是什么概念呢？粗略算一下，大概相当于两百万块GB200芯片，只能支撑大约三千万"重度代理用户"每天百万token级别的使用量。

三千万，听起来不少对吧？但你想想，现在全球有多少开发者在用AI编程工具？有多少企业在部署AI代理？更何况视频模型、音频模型、训练任务，这些全都在抢同一个资源池。而且更棘手的是，高端DRAM的产能扩张需要好几年时间，还得依赖荷兰ASML独家供应的EUV光刻设备。这不是花钱就能立刻解决的问题。

Alderson自己的token消耗量在三年内增长了大约五十倍。这不是个例，这是代理式工作流普及之后的普遍趋势。一边是token消耗的爆发式增长，一边是算力供给受制于物理世界的瓶颈，这把剪刀差正在越张越大。

好，快速过几条值得关注的消息。

Simon Willison发布了一份代理工程模式指南，他把代理定义为"在循环中运行工具以实现目标"的系统，并且强调了一个很重要的观点：人类的核心价值在于决定写什么代码，而不是写代码本身。这对于所有担心被AI取代的程序员来说，应该是一个很好的思考方向。

Ghostty终端模拟器修复了它最大的内存泄漏问题，有意思的是这个bug是被Claude Code的特殊输出模式触发的。Mitchell Hashimoto还发布了一个Zig语言的错误恢复测试工具叫Tripwire，首次在Ghostty中集成就发现了大约六个潜伏的bug，而且在非测试构建中完全零开销。

Jeff Geerling用本地大模型帮他完成了从Drupal到Hugo的一万三千条评论迁移，几个晚上就搞定了原本需要数周的工作。但他也警告说，谄媚的大模型不能替代资深开发者的导师作用。这句话我觉得说得特别好。

还有一条关于欧洲数字主权的消息，Bert Hubert指出欧洲的领导层被咨询公司洗脑了，觉得只有美国三大云商可选，但实际上直到几年前，欧洲的税务系统还跑在本地服务器上。技术能力并没有消失，只是决策层失去了技术判断力。这个观察非常尖锐。

最后特别提一下geohot的一个大胆预测：他认为AI将在十年内找到多项式时间的整数分解算法。如果这真的实现了，现有的加密体系就要重新来过了。他甚至说公开发布这样的算法将是"历史上最伟大的合法自由抗争行为"。这个预测够疯狂，但谁知道呢。

所以你看，今天的内容其实串起来就是一条线：AI行业正在从狂热的规模崇拜中清醒过来。模型能力的天花板、硬件供应的瓶颈、新架构的缺失，这三座大山同时摆在面前。但与此同时，像百万token上下文这样的实用创新还是在不断涌现。这个行业没有停下脚步，只是终于开始认真思考方向了。

接下来值得持续关注的是：规模神话的破灭会不会影响那些已经宣布的数据中心投资计划？DRAM供应链在未来两年会如何重塑行业格局？代理式工作流的爆发和算力供给之间的剪刀差，会不会催生新的定价模式？这些问题的答案，我们会持续跟踪。

如果您觉得我们的节目对您有帮助，请帮忙分享、转发给您的朋友，也欢迎直接回复邮件给我们提建议。好了，今天就到这里，我们明天见！