每日科技简报 — 2026年3月16日
核心摘要
Sam Altman公开承认纯规模扩张无法通向AGI,呼吁寻找全新架构——这是AI行业叙事的里程碑式转折。与此同时,Anthropic百万token上下文窗口的实际表现获得独立验证,而DRAM供应瓶颈可能在未来两年严重制约AI算力扩张。
重点报道
规模神话破灭:Altman亲口承认需要"超越Transformer的重大突破"
此前我们持续追踪的AI规模瓶颈故事迎来决定性一幕。
Sam Altman在最新演讲中表示:"我打赌还有另一种新架构等待被发现,其带来的增益将不亚于Transformer对LSTM的提升。"这句话的分量在于它的出处——十四个月前,正是Altman本人宣称"我们已经知道如何构建AGI"。从"我们知道怎么做"到"我们需要全新突破",这不是措辞微调,而是根本立场的逆转。
更关键的是这并非孤立事件。正如AI评论家Gary Marcus所指出的,Musk承认xAI"构建方式不对",Zuckerberg推迟了Meta下一代模型(我们在3月14日报道了Avocado模型因性能不达标被推迟),Hassabis、Sutskever、LeCun也纷纷与纯规模路线保持距离。连Nadella和Pichai都暗示了对规模扩张的怀疑。
为什么这很重要? 当前数千亿美元的数据中心投资,其底层逻辑就是"更大=更强"的规模假说。如果行业领袖自己都不再相信这个前提,这些基础设施投入就面临成为搁浅资产的风险。Marcus犀利地指出:在通往AGI的论据持续崩塌之际,仍在考虑投入数万亿美元建设数据中心,这笔交易说不通。
不过值得注意的是,Altman提到可以"借助AI的力量寻找重大突破"——换言之,现有AI虽不能自我进化到AGI,但或许能帮助人类发现通往AGI的新路径。这是一种更务实、也更诚实的定位。
Claude百万Token上下文:独立测试印证非同凡响
延续3月14日Anthropic开放百万token上下文的报道,独立博主Martin Alderson分享了深度使用体验。他在约50万token的Claude Code会话中发现模型表现"非常好——它保持了任务焦点,我不需要比平时更多地重复自己"。
技术上的关键区别在于"上下文衰减"(context rot)——随着会话变长,模型质量下降的程度。Alderson引用Anthropic发布的"大海捞针"基准测试(needle benchmark,要求模型从上下文中回忆特定事实):GPT-5.4和Gemini 3.1 Pro在超过256K token后准确率骤降至50%以下,而Claude 4.6在百万token时仍保持高准确率。
最大惊喜是定价:Anthropic没有对超长上下文加价,而Google和OpenAI在超过200-272K token后收取双倍费用。这意味着一个主代理可以管理多个子代理,每个都拥有百万token上下文窗口,经济上首次变得可行。
DRAM短缺:AI算力扩张的真正天花板
Martin Alderson的另一篇深度分析揭示了一个被低估的瓶颈:全球DRAM供应仅能支撑15GW的AI基础设施部署。这对我们此前报道的算力瓶颈问题(光刻机、内存、电力三大制约)提供了具体数据支撑。
粗略计算:15GW约相当于200万块GB200芯片,大概只能支撑3000万"重度代理用户"每天百万token的使用量。考虑到视频、音频模型以及训练任务也在争夺同一资源池,这个数字远不足以满足爆发式增长的需求。更棘手的是,高端DRAM产能扩张需要数年时间,且依赖荷兰ASML独家供应的EUV光刻设备。
Alderson个人的token消耗量在三年内增长了约50倍——这不是个例,而是代理式工作流普及后的普遍趋势。
快讯
代理工程定义成型:Simon Willison发布"代理工程模式"指南,将代理定义为"在循环中运行工具以实现目标"的系统,强调人类的核心价值在于决定写什么代码而非写代码本身
Ghostty修复最大内存泄漏:Mitchell Hashimoto详述了一个由Claude Code的特殊输出模式触发的PageList内存泄漏——非标准页面在滚动缓冲区复用时元数据与实际分配不同步,导致munmap永远不会被调用
Zig错误恢复测试新工具:同样来自Hashimoto的Tripwire库,通过命名故障注入点测试errdefer路径,在Ghostty中首次集成就发现约6个潜伏bug,且在非测试构建中完全零开销
Drupal到Hugo的13000条评论迁移:Jeff Geerling用本地LLM(GPT-OSS 20B)辅助完成,几个晚上搞定了原本需要数周的工作,但他警告:"谄媚的LLM不能替代资深开发者的导师作用"
欧洲数字主权危机:Bert Hubert指出欧洲领导层被咨询行业洗脑,认为只有美国三大云商可选,而实际上直到几年前税务系统还运行在本地服务器上——技术能力并未消失,只是决策层失去了技术判断力
多项式时间分解算法猜想:geohot大胆预测AI将在十年内找到多项式时间整数分解算法,甚至认为P=BQP(量子计算无复杂度优势),并称公开发布这样的算法将是"历史上最伟大的合法自由抗争行为"
值得关注
- "规模神话破灭"从趋势变成共识:从孤立质疑到行业领袖集体后退,这条叙事线在两周内急速演进。下一个关注点:这是否会影响已宣布的数据中心投资计划的实际执行节奏?
- DRAM供应链将成为2026-2027年AI行业的关键变量,可能比模型能力本身更能决定行业格局
- 代理式工作流的token消耗爆发正在与算力供给形成剪刀差,动态推理定价和免费额度缩减可能很快到来
大家好,欢迎来到2026年3月16日的 YOMOO 每日AI快送。
我跟你说,今天这期节目信息量非常大,而且有一条消息,我觉得它可能会成为整个AI行业的一个分水岭。什么消息呢?Sam Altman,对,就是那个OpenAI的掌门人,他公开说了一句话,大意是:光靠把模型做大,是到不了通用人工智能的,我们需要一种全新的架构。
你可能觉得,这不就是一句技术观点嘛,有什么大不了的?大了去了。你想想看,就在十四个月前,也是这位Altman先生,他信心满满地告诉全世界说"我们已经知道如何构建AGI了"。从"我们知道怎么做"到"我们需要全新突破",这可不是什么措辞上的微调,这是根本立场的一百八十度大转弯。
而且更有意思的是什么呢?这不是他一个人在唱独角戏。你看,Musk承认xAI的构建方式不对,Zuckerberg推迟了Meta的下一代模型,DeepMind的Hassabis、Sutskever、LeCun,这些AI领域最顶级的大脑,全都在跟"越大越强"这条路线保持距离。连微软的Nadella和Google的Pichai都在暗示,纯粹的规模扩张可能走不通。
那这意味着什么?你想,现在全球有数千亿美元砸在数据中心上,这些投资的底层逻辑就一条:模型越大越聪明,算力越多越好。但如果连行业领袖自己都不信这个前提了,那这些基础设施就有可能变成搁浅资产。AI评论家Gary Marcus说了一句特别犀利的话:在通往AGI的论据持续崩塌的时候,你还要往里砸数万亿美元建数据中心,这笔账怎么算都说不通。
不过呢,Altman倒也没有完全悲观。他提到了一个很有意思的思路,就是说现有的AI虽然自己进化不到AGI,但也许能帮人类去发现那条通往AGI的新路径。这个定位我觉得务实多了,也诚实多了。
好,咱们说回技术层面,聊一个让人眼前一亮的事。
还记得我们前两天报道过Anthropic开放了百万token的上下文窗口吗?现在有独立测试结果出来了。一位叫Martin Alderson的独立博主,他在大约五十万token的Claude Code会话里深度使用了一番,结论是什么呢?他说模型表现非常好,它始终保持任务焦点,他不需要比平时更多地重复自己。
这里面有一个关键的技术概念叫"上下文衰减",就是说随着对话越来越长,模型的质量会下降多少。Alderson引用了Anthropic发布的大海捞针测试,就是让模型从海量文本中回忆一个特定事实。结果显示,GPT-5.4和Gemini 3.1 Pro在超过二十五万token之后,准确率就骤降到百分之五十以下了,而Claude 4.6在一百万token的时候依然保持着很高的准确率。这个差距是非常显著的。
但最让我惊讶的还不是性能,而是定价。Anthropic居然没有对超长上下文加价,而Google和OpenAI在超过大约二十五万token之后是要收双倍费用的。这意味着什么呢?你可以搞一个主代理管理多个子代理,每个子代理都有百万token的上下文窗口,而且经济上首次变得可行了。这对于做复杂代理工作流的人来说,简直是一个巨大的利好。
接下来这条消息,可能没那么性感,但我认为它比模型能力本身更重要。
还是这位Alderson,他做了一篇深度分析,揭示了一个被严重低估的瓶颈:全球的DRAM供应,也就是内存,它只能支撑大约15GW的AI基础设施部署。15GW是什么概念呢?粗略算一下,大概相当于两百万块GB200芯片,只能支撑大约三千万"重度代理用户"每天百万token级别的使用量。
三千万,听起来不少对吧?但你想想,现在全球有多少开发者在用AI编程工具?有多少企业在部署AI代理?更何况视频模型、音频模型、训练任务,这些全都在抢同一个资源池。而且更棘手的是,高端DRAM的产能扩张需要好几年时间,还得依赖荷兰ASML独家供应的EUV光刻设备。这不是花钱就能立刻解决的问题。
Alderson自己的token消耗量在三年内增长了大约五十倍。这不是个例,这是代理式工作流普及之后的普遍趋势。一边是token消耗的爆发式增长,一边是算力供给受制于物理世界的瓶颈,这把剪刀差正在越张越大。
好,快速过几条值得关注的消息。
Simon Willison发布了一份代理工程模式指南,他把代理定义为"在循环中运行工具以实现目标"的系统,并且强调了一个很重要的观点:人类的核心价值在于决定写什么代码,而不是写代码本身。这对于所有担心被AI取代的程序员来说,应该是一个很好的思考方向。
Ghostty终端模拟器修复了它最大的内存泄漏问题,有意思的是这个bug是被Claude Code的特殊输出模式触发的。Mitchell Hashimoto还发布了一个Zig语言的错误恢复测试工具叫Tripwire,首次在Ghostty中集成就发现了大约六个潜伏的bug,而且在非测试构建中完全零开销。
Jeff Geerling用本地大模型帮他完成了从Drupal到Hugo的一万三千条评论迁移,几个晚上就搞定了原本需要数周的工作。但他也警告说,谄媚的大模型不能替代资深开发者的导师作用。这句话我觉得说得特别好。
还有一条关于欧洲数字主权的消息,Bert Hubert指出欧洲的领导层被咨询公司洗脑了,觉得只有美国三大云商可选,但实际上直到几年前,欧洲的税务系统还跑在本地服务器上。技术能力并没有消失,只是决策层失去了技术判断力。这个观察非常尖锐。
最后特别提一下geohot的一个大胆预测:他认为AI将在十年内找到多项式时间的整数分解算法。如果这真的实现了,现有的加密体系就要重新来过了。他甚至说公开发布这样的算法将是"历史上最伟大的合法自由抗争行为"。这个预测够疯狂,但谁知道呢。
所以你看,今天的内容其实串起来就是一条线:AI行业正在从狂热的规模崇拜中清醒过来。模型能力的天花板、硬件供应的瓶颈、新架构的缺失,这三座大山同时摆在面前。但与此同时,像百万token上下文这样的实用创新还是在不断涌现。这个行业没有停下脚步,只是终于开始认真思考方向了。
接下来值得持续关注的是:规模神话的破灭会不会影响那些已经宣布的数据中心投资计划?DRAM供应链在未来两年会如何重塑行业格局?代理式工作流的爆发和算力供给之间的剪刀差,会不会催生新的定价模式?这些问题的答案,我们会持续跟踪。
如果您觉得我们的节目对您有帮助,请帮忙分享、转发给您的朋友,也欢迎直接回复邮件给我们提建议。好了,今天就到这里,我们明天见!