YOMOO 每日 AI 快送 · 2026-05-11
今日要点
AI 能力的"虚"与"实"今天在两条主线上同时拉扯:一边 ChatGPT 5.5 Pro 在数学家手里一小时跑出博士级新结果,另一边 Gary Marcus 拆解 METR 图表"50% 成功率"的水分。资本面则更加现实——xAI 把 Colossus 1 数据中心所有算力打包卖给 Anthropic,事实上退出前沿模型竞赛;同一周,佐治亚州一座 AI 数据中心被发现 15 个月内悄悄偷水 2900 万加仑,基础设施失序的代价开始显形。Linux 世界则迎来标志性时刻:Ubuntu 和 Fedora 同日官宣拥抱本地 AI,引发开源阵营的去留之争。
主要议题
一、AI 能力的"上限"之争:同一天两个相反信号
今天的 AI 进展叙事被两份截然相反的材料同时点燃。
正面信号:菲尔兹奖得主 Tim Gowers 公开实测 ChatGPT 5.5 Pro。他用一周时间让 ChatGPT 5.5 Pro 挑战美国数学家 Mel Nathanson 提出的一系列加法数论开放问题。模型先用 17 分 5 秒把 Nathanson 论文里的线性界改进到二次界(也就是从理论上把问题彻底封死),再用一连串思考一步步将另一道由 MIT 学生 Isaac Rajagopal 此前用指数界解决的问题,推进到了多项式界。事后 Rajagopal 亲自检查论文,确认"思想层面也是正确的"。Gowers 在博客中说:"我的数学输入是零。"——也就是说,他几乎只是在问、读、转交,几乎没有提供任何关键想法。这对此前"LLM 只会拼凑已有知识"的判断是一次结构性冲击,因为这次的工作明显超出了简单组合现有论证的范围。Gowers 给出的判断是:"研究新组合参数、提出大量小问题"这种过去被视为新人入门级研究的论文,门槛刚刚被抬高了。
反面信号:METR 的"任务时长翻倍图"被夸大恐慌。METR 最新版图表显示前沿模型能完成的"软件开发任务长度"已经达到 16 小时,Twitter 上一片"AI 把图打破了"的惊呼。AI 怀疑派代表人物 Gary Marcus 当日撰文降温,指出三个被忽略的关键事实:第一,这个 16 小时是 50% 成功率 下的数字,如果把门槛抬到 80% 甚至 95%,曲线立刻矮一大截——而真正的工程实践需要的是可靠率,不是抛硬币;第二,近期主要进步来自符号工具的接入(代码解释器、形式化验证、harness 框架,即给模型外挂一个"作弊纸条"),并非模型本身规模上的胜利,这反而印证了"纯靠堆参数的 scaling 是有墙的";第三,这只关于软件任务,不能外推到通用智能,Mythos 在更广义的 ECI 基准上其实"只比 GPT 5.4 略高一点"。Marcus 顺手把"Mythos 让 Anthropic 2030 年达到 2 万亿美元收入"嘲讽为"千磅婴儿谬误"——婴儿四个月体重翻倍,你不能据此预测他高中毕业时变成一吨重。
为什么这两条同时重要:看似矛盾,实则各说一半。Gowers 的实验说明"AI 在结构化、可验证的领域(数学、编程)正在快速吞噬研究助理的工作",Marcus 的拆解则提醒"它在开放性、不可形式化的领域并没有同步突破,而商业故事正在透支这点确定性"。回顾我们 5 月 8 日报道过的 GPT-5.5 Pro 翻倍定价,以及 4 月 11 日 Yupp 融资 2.2 亿元 22 个月后倒闭的预兆,这一轮 AI 估值热与实际能力扩张之间的差,正在拉到肉眼可见。
来源:Gowers 博客 · Marcus on AI
二、xAI 卖光算力,事实上退出前沿模型竞赛
Anthropic 与 xAI 本周突袭宣布:Anthropic 买断 xAI 田纳西州 Colossus 1 数据中心的全部算力。这件事的真正信号不在交易本身,而在马斯克这边——这意味着 xAI 把所有"卡"换成了现金流,转身成为一家"neocloud"(向云客户租 GPU 而不是自己训模型的中立算力公司)。配合本周稍早传出的消息——xAI 联合创始人几乎全部离职、马斯克宣布要"从零重做",并把品牌干脆并入"SpaceXAI"——这是 xAI 作为前沿模型实验室的事实落幕。
TechCrunch 同时披露,xAI 内部员工此前就被发现"在用别家模型而不是 Grok",并因此引发一次大清洗。结合我们 5 月 7 日报道过的 Anthropic 与 SpaceX 绑定 22 万 GPU,以及 4 月 21 日 Anthropic 误封 60 人公司暴露单一供应商风险,可以勾画出新的算力地图:Anthropic 成为最大算力买家,SpaceX-xAI 成为前向 IPO 故事中的"现金流型基础设施",而前沿模型场上只剩 OpenAI、Anthropic、Google、Meta、DeepSeek 五家在认真训练。
值得关注的次级影响是 IPO 叙事:把"前沿 AI 实验室"换成"出租 GPU 的房东"之后,商业故事更稳但天花板更低,对马上推 IPO 的 SpaceX 来说是一次"赶在估值检验之前的安全降落"。
来源:TechCrunch
三、AI 数据中心偷水 2900 万加仑,15 个月才被发现
佐治亚州 Fayette 县居民因水压异常下降投诉,排查后才发现:Blackstone 旗下 QTS 公司在当地建设的 615 英亩、6.2 平方百万英尺 AI 数据中心园区"Project Excalibur",通过两个县政府毫不知情的水管接驳,15 个月内累计取水约 2900 万加仑(约 11 万立方米)。
更值得记录的是后续处置:县政府只追缴了 14.7 万美元"补费",没有罚款。水务主管解释"他们是我们最大的客户,得讲伙伴关系",巡查岗位"一个人干两份活,留不住人"。同期,州里因干旱已宣布紧急状态,州公共服务委员会被迫冻结电费基价至 2028 年,以防数据中心把电费转嫁居民。Fayetteville 市议会更直接——已通过 26-O-12 号令,全市所有分区禁建新数据中心。全美现有至少 50 个城市出台同类禁令,4 个城市永久禁建。
关联回顾:5 月 8 日内存短缺蔓延至游戏机和互联网档案、5 月 6 日 Anthropic 2000 亿美元绑定谷歌 TPU、4 月 30 日巨头 AI 资本支出冲到 7250 亿美元——这些数字最终都要在地方公共资源上落地,而地方治理能力显然远远没跟上。
四、Ubuntu 与 Fedora 同日宣布拥抱本地 AI
Canonical 工程副总裁 Jon Seager 与 Fedora 项目负责人 Jef Spaleta 在同一周分别官宣 AI 路线图:
- Fedora:推出"AI Developer Desktop Objective",定位是给开发者提供本地模型运行环境,默认不预装会回连远端 AI 服务的工具,也不在用户行为上做"埋点训练"。该项目已促使 SUSE 工程师 Fernando Mancera 辞职抗议。
- Ubuntu:AI 功能将分两阶段加入,先以"后台增强"形式融入现有功能,再做"AI 原生"工作流;Seager 特意写了一句"我们不考核工程师的 AI token 使用率、代码占比",被外界普遍解读为暗讽 Red Hat / Microsoft 把 AI 使用率纳入 OKR 的做法。
两家发行版的共同点:都强调本地运行、隐私优先、开放模型,试图划出与"商业云 AI"不同的赛道。但开源社区对这种"温和拥抱"并不买账,Stop Slopware、No-AI Software Directory 等名单已经在准备把它们列入。这件事的真正分歧不是技术,而是社区身份——FOSS(自由开源软件)的纯粹派认为任何 LLM 介入都污染了血统。
来源:The Register
速递
- Shopify 公开协作模式被点赞:Tobi Lütke 描述内部 AI 编程代理 River 只能在公开 Slack channel 里工作,不接受私聊。他给这种模式命名为"Lehrwerkstatt"(德语:教学车间),100 多人在他的频道里围观、补充、纠错、顺便学习。(Simon Willison)
- Chrome 偷占 4GB 存储:Gemini Nano 的 weights.bin 文件在开启某些 AI 功能后会自动下载,用户需到设置 > 系统手动关掉"On-Device AI"才能阻止重新下载。
- 纽约时报 AI 翻车:报道中加拿大保守党领袖 Poilievre 的"原话"实为 AI 生成的"观点摘要",记者未核对,事后发编辑勘误。LLM 入侵新闻流程的副作用进入主流报纸。
- CXL 内存盒子缓解 RAM 荒:Compute Express Link 3.0(允许多机共享同一份内存的协议)即将随 AMD / Intel 下一代服务器到来,Panmnesia、Liqid、UnifabriX 等已经推出"内存 godbox"。但 AI 推理 KV cache 才是最大需求方,救济作用有限。
- macOS 27 修补 Liquid Glass:Bloomberg 称 Tahoe 的透明度与阴影实现"未完工",27 会调整对比度。Gurman 转述苹果设计团队的说法:"问题不在设计,在工程实现没烤熟。"
- Bambu Lab 起诉开源开发者:右修权代表 Louis Rossmann 视频里中指比向 Bambu,公开承诺为被律师函威胁的 OrcaSlicer fork 开发者垫付一万美元起诉费。
- 中国推出 Hanyuan-2 双核量子计算机:200 量子位,但未公布门保真度、相干时间、错误率任何关键指标,也未发同行评议论文,与 Atom Computing 1180 量子位、QuEra 已交付错误纠正机的对比相形见绌。
- AMD K5 / Intel i486 退出 Linux:30 年老 CPU 因不支持 TSC(时间戳计数器)被踢出内核 7.2,意味着这类老设备只能停留在旧版内核。
- Plex 涨价:远程访问自家媒体要交更多订阅费,Jellyfin(开源替代品)再次进入用户备选名单。
- IT 失业率 4 月升至 3.8%,信息行业当月失岗 1.3 万。Meta 裁员 10%、Nike 裁 1400、Snap 裁 16% 都与 AI 重组有关,但有趣的是 Indeed 上软件开发岗位同比反增 15%——市场要的是有经验的人,应届生最难。
值得关注
- LLM 摘要会跳过"识别"步骤:Towards Data Science 一篇长文用因果推断(causal inference,统计学中区分"数据是否支持某个结论"和"结论数值是多少"的方法)框架批评当前 AI 会议纪要:模型直接产出八个工整段落,却没问"这段对话到底能不能支持这个结论"。作者给出的工程模式是三阶段流水线+严格审计,审计阶段只能删除或弱化,不能改写得更顺——这与 4 月 29 日"AI 碳水估算误差致命"的研究互为印证,提示我们 AI 报告生成场景的方法论债。
- 欧洲游戏引擎 The Immense Engine:前 Epic 全球产品总监、Guerrilla Games 联合创始人 Arjan Brussee 着手做"完全欧洲托管、欧洲合规"的 Unreal/Unity 替代品。他还公开表态:"会用 AI agent 做 10-15 个人的工作。"是否走向 AI 代码债的下一个反面教材,值得跟踪。
- Eric Ries 新书《Incorruptible》:精益创业之父转向公司治理,核心论点:80% 的 VC 创业公司创始人在 IPO 后 3 年内被踢走,Anthropic、Costco、Novo Nordisk 这种公司之所以能守住使命,关键在治理结构。在 AI 公司频繁经历政变(OpenAI、xAI)的当下,这本书的时机精准。
- Substack 写作者出逃潮:旗舰刊《The Ankler》上月离开 Substack,转向 Ghost、Beehiiv。"Substack 税"(平台抽成 10%)正在被独立作者重新审视——这是订阅经济权力关系的下一阶段。
- MIT Y 型拉链:1985 年专利,3D 打印让它变成现实——可以把软塌塌的"触手"瞬间锁成刚性梁,18000 次循环不坏。可拓展性强,可能用于可部署结构、机器人、医疗护具。
大家好,欢迎来到2026年5月11日的 YOMOO 每日AI快送。
我跟你说,今天这件事真的挺有意思的。同一天,你能看到两份关于AI能力完全相反的材料,一个把AI捧到天上,一个把AI按在地上摩擦。咱们先说捧到天上这个。菲尔兹奖得主,注意,是菲尔兹奖,数学界的诺贝尔奖,蒂姆·高尔斯,他花了一个礼拜,让 ChatGPT 5.5 Pro 去挑战美国数学家 Mel Nathanson 的一系列加法数论开放问题。结果你猜怎么着?模型先用17分5秒,把 Nathanson 论文里的线性界改进到了二次界——什么意思呢?相当于直接把这个问题从理论上彻底封死了。后面还有一道题,是 MIT 学生此前用指数界解决的,模型一步一步把它推进到了多项式界。事后这个 MIT 学生亲自检查,确认说,思想层面也是对的。
最炸裂的是高尔斯自己说的那句话,他在博客里写,"我的数学输入是零"。你想想看,一个菲尔兹奖得主,全程只是问、读、转交,几乎没贡献任何关键想法,模型就把一篇能发表的数论论文做出来了。之前所有人都说 LLM 只会拼凑已有知识,这次它明显超出了简单组合的范围。高尔斯给出的判断也特别狠,他说,过去那种"研究新组合参数、提出大量小问题"的论文,是新人入门级研究的活,门槛刚刚被抬高了。
但是,你别急着兴奋。同一天,AI 怀疑派的代表人物 Gary Marcus 出来给大家泼了一盆冷水。事情是这样的,METR 最新版图表显示,前沿模型能完成的"软件开发任务长度"已经达到了16个小时,整个推特一片惊呼,说 AI 把图打破了。Marcus 当天就撰文降温,他指出了三个被忽略的关键事实,我跟你说,每一条都挺扎心的。
第一条,这个16小时是50%成功率下的数字。你品品这个意思。50%成功率,相当于抛硬币,那这个曲线如果你把门槛提到80%甚至95%,立刻矮一大截。可工程实践要的是什么?是可靠率,不是抛硬币。第二条,最近的进步主要来自符号工具的接入,比如代码解释器、形式化验证、外挂框架,相当于给模型加了一张作弊纸条,并不是模型本身规模上的胜利。这反而印证了纯靠堆参数的 scaling 是有墙的。第三条,这只关于软件任务,不能外推到通用智能。Marcus 顺手把那个"让 Anthropic 2030 年达到 2 万亿美元收入"的预测,嘲讽为千磅婴儿谬误——婴儿四个月体重翻倍,你不能据此预测他高中毕业的时候变成一吨重。
所以你看,这两条同时重要。高尔斯的实验说明,AI 在结构化、可验证的领域,比如数学、编程,正在快速吞噬研究助理的工作;Marcus 的拆解则提醒我们,它在开放性、不可形式化的领域并没有同步突破,而商业故事正在透支这点确定性。
说到商业故事,咱们今天第二件大事就更耐人寻味了。Anthropic 和 xAI 本周突袭宣布,Anthropic 买断了 xAI 田纳西州 Colossus 1 数据中心的全部算力。注意,是全部算力。你看这件事的真正信号不在交易本身,而在马斯克这边——这意味着 xAI 把所有的卡,全部换成了现金流,转身成为一家所谓 neocloud,就是向云客户租 GPU 而不是自己训模型的中立算力公司。
配合本周稍早传出的消息,xAI 联合创始人几乎全部离职,马斯克宣布要从零重做,并且把品牌直接并入 SpaceXAI。这是 xAI 作为前沿模型实验室的事实落幕。TechCrunch 还披露了一个特别尴尬的细节,xAI 内部员工此前就被发现,在用别家模型而不是自家 Grok,结果引发了一次大清洗。
所以新的算力地图就出来了:Anthropic 成为最大算力买家,SpaceX-xAI 成为前向 IPO 故事中的现金流型基础设施,而前沿模型场上只剩 OpenAI、Anthropic、Google、Meta、DeepSeek 这五家在认真训练。你把"前沿 AI 实验室"换成"出租 GPU 的房东",商业故事更稳但天花板更低,对马上要推 IPO 的 SpaceX 来说,这是一次赶在估值检验之前的安全降落。
聊完天上的钱,咱们说回地上的事。今天还有一个新闻我必须跟你讲,因为它把 AI 时代的代价具体到了什么程度,让人有点震惊。佐治亚州 Fayette 县,居民因为水压异常下降去投诉,排查之后才发现,Blackstone 旗下 QTS 公司在当地建设的一座 AI 数据中心园区,叫 Project Excalibur,615 英亩、620 万平方英尺,通过两个县政府毫不知情的水管接驳,15 个月内累计取水大概 2900 万加仑,换算下来差不多 11 万立方米。
更狠的是后续处置。县政府只追缴了 14.7 万美元的补费,没罚款。水务主管解释说,他们是我们最大的客户,得讲伙伴关系。巡查岗位呢,一个人干两份活,留不住人。同期,州里因为干旱已经宣布紧急状态了,州公共服务委员会被迫冻结电费基价到 2028 年,就怕数据中心把电费转嫁给居民。Fayetteville 市议会更直接,已经通过命令,全市所有分区禁建新的数据中心。我跟你说,全美现在至少有 50 个城市出台了同类禁令,4 个城市永久禁建。
你想啊,前段时间咱们报道过的内存短缺、Anthropic 2000 亿美元绑定谷歌 TPU、巨头 AI 资本支出冲到 7250 亿美元——这些数字最终都要在地方公共资源上落地,而地方治理能力显然远远没跟上。
接下来这条,对开源圈的朋友来说会很有感觉。Ubuntu 和 Fedora,Linux 世界两个最知名的发行版,居然在同一周内分别官宣了 AI 路线图。Fedora 推出 AI 开发者桌面目标,定位是给开发者提供本地模型运行环境,默认不预装会回连远端 AI 服务的工具,也不在用户行为上做埋点训练。这事儿已经导致 SUSE 一位工程师辞职抗议了。Ubuntu 这边呢,AI 功能分两阶段加入,先以后台增强的形式融入现有功能,再做 AI 原生工作流。Canonical 的工程副总裁特意写了一句,"我们不考核工程师的 AI token 使用率、代码占比",外界普遍解读为暗讽 Red Hat 和 Microsoft 把 AI 使用率纳入 OKR 的做法。
两家发行版的共同点都是本地运行、隐私优先、开放模型,想划出和商业云 AI 不同的赛道。但你猜怎么着,开源社区并不买账,Stop Slopware、No-AI Software Directory 这些名单已经准备把它们列入了。这件事的真正分歧不是技术,是社区身份——FOSS 自由开源软件的纯粹派认为,任何 LLM 介入都污染了血统。
说完几个大块的,咱们来几条速递。Shopify 的 CEO Tobi Lütke 描述了内部 AI 编程代理叫 River 的协作模式,它只能在公开的 Slack 频道里工作,不接受私聊。100 多人在他的频道里围观、补充、纠错、顺便学习,他给这种模式起了个德语名字叫 Lehrwerkstatt,意思是教学车间。
另外,Chrome 浏览器偷偷占用了 4GB 存储,Gemini Nano 的权重文件在开启某些 AI 功能后会自动下载,用户得手动到设置里关掉本地 AI 才能阻止重新下载。还有更尴尬的,纽约时报最近一篇报道里,加拿大保守党领袖 Poilievre 的"原话",实际是 AI 生成的观点摘要,记者没核对,事后发了编辑勘误。LLM 入侵新闻流程的副作用,这下进入主流报纸了。
硬件层面,CXL 3.0 内存盒子马上要随 AMD 和 Intel 下一代服务器到来,能让多机共享同一份内存,缓解 RAM 荒。但 AI 推理的 KV cache 才是最大需求方,救济作用有限。macOS 27 准备修补 Liquid Glass 透明度的"未完工"问题,苹果设计团队的说法是,问题不在设计,在工程实现没烤熟。
还有几条小消息,Bambu Lab 起诉开源开发者,右修权代表 Louis Rossmann 公开承诺为被律师函威胁的 OrcaSlicer fork 开发者垫付一万美元起诉费;中国推出 Hanyuan-2 双核量子计算机,200 量子位,但门保真度、相干时间、错误率所有关键指标都没公布,也没发同行评议论文;30 年老的 AMD K5 和 Intel i486 因为不支持时间戳计数器,被踢出 Linux 内核 7.2;Plex 涨价了,远程访问自家媒体得交更多订阅费,开源替代品 Jellyfin 又被翻出来了;IT 失业率 4 月升到 3.8%,信息行业当月失岗 1.3 万,Meta 裁员 10%、Nike 裁 1400、Snap 裁 16%,但 Indeed 上软件开发岗位同比反增 15%。市场要的是有经验的人,应届生最难。
最后还有几件值得持续关注的事。Towards Data Science 一篇长文用因果推断的框架批评当前 AI 会议纪要,说模型直接产出八个工整段落,却没问这段对话到底能不能支持这个结论。这跟我们之前讲过的 AI 碳水估算误差致命的研究互为印证,提示我们 AI 报告生成场景的方法论债。前 Epic 全球产品总监、Guerrilla Games 联合创始人 Arjan Brussee 着手做完全欧洲托管、欧洲合规的 Unreal 替代品,公开表态说会用 AI agent 做 10 到 15 个人的工作,是不是会走向 AI 代码债的下一个反面教材,值得跟踪。精益创业之父 Eric Ries 出了新书 Incorruptible,核心论点是 80% 的 VC 创业公司创始人在 IPO 后 3 年内被踢走,在 AI 公司频繁经历政变的当下,这本书的时机精准。
回过头看今天这两条主线,一边 ChatGPT 5.5 Pro 在数学家手里一小时跑出博士级新结果,另一边 Marcus 拆解 METR 图表的水分;一边 xAI 卖光算力退场,一边佐治亚州一座数据中心 15 个月偷水 2900 万加仑。我跟你说,AI 的"虚"和"实",从来没有像今天这样被同时摆在桌面上。
如果你想通过阅读文字版更快地获取每日的AI快送信息,欢迎免费订阅我们的mail list,地址在视频描述里。如果您觉得我们的节目对您有帮助,请帮忙分享、转发给您的朋友。好了,今天就到这里,我们明天见!