每日技术简报 | 2026年3月30日

执行摘要

斯坦福最新研究揭示前沿AI模型的"视觉理解"不过是统计幻觉——不看图也能在医学影像基准测试中拿高分，这对AI能力的真实边界提出了严峻质疑。与此同时，NVIDIA发布内部备忘录极力撇清与安然的关系，却意外引发市场对AI产业资金链条脆弱性的更深忧虑。在软件工程领域，多篇文章不约而同地指向同一个结论：真正的价值不在代码本身，而在对系统的深度理解。

主要报道

AI的"视觉海市蜃楼"：不看图也能答对题

斯坦福大学一项研究发现，前沿多模态AI模型在完全不输入任何图像的情况下，仍能在视觉理解基准测试中取得惊人高分。研究者称之为"海市蜃楼推理"（Mirage Reasoning）——模型并非真正"看懂"了图像，而是通过文本中的统计规律编造出听起来合理的临床描述。

最极端的案例是：模型在一项标准胸部X光问答基准测试中，未接收任何图像即获得排名第一的成绩。

此前我们多次报道AI产业泡沫的质疑声浪（[3月28日]AI泡沫系列、[3月22日]全链条亏损分析），这项研究从技术层面提供了新的佐证。如果AI连"看"这个基本能力都是幻觉，那些建立在"AI即将取代一切"叙事上的万亿美元投资，根基何在？

这意味着什么： 需要视觉理解的职业——建筑师、放射科医生、城市规划师、影视剪辑师——远比硅谷宣传的安全得多。而人形机器人？如果连视觉环境都无法真正解析，那只是舞台表演，不是技术突破。更深层的教训是：基准测试本身已经失效，它们衡量的是模型"模仿"的能力，而非"理解"的能力。

来源：Marcus on AI

NVIDIA：不是安然，但到底是什么？

科技评论人Ed Zitron发布了一篇超长调查分析，起因是NVIDIA泄露的一份内部备忘录——该公司主动声明自己"不像安然、不像世通、不像朗讯"。这种未被指控却急于辩白的姿态本身就耐人寻味。

Zitron的核心论点并非指控NVIDIA欺诈，而是揭示了AI产业资金链条的结构性脆弱：

CoreWeave用NVIDIA的GPU作抵押借债，再用借来的钱购买更多GPU
CoreWeave 500亿美元积压订单中，220亿来自OpenAI（年亏数十亿），140亿来自Meta，NVIDIA自身承诺购买63亿美元未售出算力
NVIDIA声称已出货600万块Blackwell GPU，但Zitron只能追踪到不到100万块的实际部署去向
大型科技公司的GPU折旧周期（5-6年）可能远超实际使用寿命（1-3年），人为美化了利润

关键数字： Zitron估算，大型科技公司到2030年需要创造约2万亿美元的全新AI专属收入，才能收回已投入的资本支出。目前全部生成式AI收入估计约610亿美元。

此前我们持续追踪的AI泡沫话题（[3月28日]靠公告而非收入维持、[3月15日]规模扩张神话破产）在这篇分析中得到了最系统的梳理。这不是一个"会不会破"的问题，而是"什么时候以什么方式破"的问题。

来源：Where's Your Ed At

SaaS并未死亡：一位创始人的反击

面对"AI将消灭SaaS"的声浪，许可证管理平台Keygen创始人Zeke Gabrielse给出了实战反驳：2025年Keygen收入增长超40%，客户流失率仅1.9%。

他的核心论点直击要害：买家选择SaaS不是因为不能自建，而是因为维护不是他们的核心能力。AI确实降低了"建"的成本，但"维护"的成本从未改变。此前我们报道过SaaS行业危机（[3月14日]增长放缓、[3月20日]Adobe隐藏合同争议），Gabrielse提供了一个重要的对冲视角——真正转向自建的客户，大多是独立开发者，而非企业用户。

来源：Keygen Blog

快讯

Git Diff驱动器深度指南： Git内置28种语言差异驱动器，但几乎没有代码托管平台或GUI客户端支持。Andrew Nesbitt详解了textconv机制如何将锁文件的200行噪音变成几行依赖变更，并指出Xcode .pbxproj等格式仍是空白。来源
Pretext：不触DOM计算文本高度： React核心开发者Cheng Lou发布浏览器库，通过离屏Canvas预测量和浏览器换行模拟，实现极速文本布局计算，用《了不起的盖茨比》全文做测试验证。来源
AI "GPU"不能打游戏： Xe Iaso提醒：服务器级AI加速卡（如H100）已移除图形处理和视频输出功能。等AI泡沫破裂后想捡便宜显卡打游戏的玩家，恐怕要失望了。
软件设计只能由实际开发者完成： Sean Goedecke论证，大型代码库中一致性比"好设计"更重要，纯架构师角色注定失败——他们可以揽功却无需承担失败责任。
文档的两类读者： Ibrahim Diallo指出API文档的致命错误是试图同时服务消费者（只想扫菜单）和维护者（需要全貌），解决方案是分层写作加折叠区块。
IBM 4 Pi航空计算机图解史： Ken Shirriff详述从1967年到航天飞机时代的军用计算机家族，从17磅战术计算机到1826磅的AWACS系统，展示了摩尔定律如何成为军用计算机的"最无情敌人"。
微软12月补丁修复56个漏洞： 包括一个已被利用的零日提权漏洞（CVE-2025-62221），以及GitHub Copilot JetBrains插件的远程代码执行漏洞——后者属于研究者命名的"IDEsaster"系列，涉及十余款AI编程平台。

趋势观察

AI成本叙事的两极分化： 一边是"软件开发成本下降90%"的乐观宣言，另一边是基准测试被证明衡量的是模仿而非理解。2026年的关键分水岭可能不是AI能否写代码，而是谁来为AI写错的代码负责。
"不像安然"成为新的风险信号： 当行业龙头主动与历史丑闻划清界限时，市场的嗅觉往往比公关声明更灵敏。关注NVIDIA下一季度的库存和应收账款变化。
深度领域知识重估： 从SaaS生存论到软件设计哲学，多条线索汇聚于同一结论——在AI加速一切的时代，真正稀缺的不是编码速度，而是知道该编什么、为什么这样编的判断力。

PODCAST SCRIPT

大家好，欢迎来到2026年3月30日的 YOMOO 每日AI快送。

我跟你说，今天有一个斯坦福的研究，看完之后我整个人都不好了。你知道现在那些最先进的多模态AI模型，号称能看懂图片、能分析医学影像的那些，对吧？斯坦福的研究人员做了一件特别简单但特别狠的事情，他们把图片去掉了。就是说，本来你应该看一张胸部X光片然后回答问题，他们直接不给图，就给文字题目。你猜怎么着？模型照样拿高分。最离谱的是，有一个标准的胸部X光问答测试，模型在完全没有看到任何图像的情况下，拿了第一名。第一名啊！

研究人员给这个现象起了个名字，叫"海市蜃楼推理"。什么意思呢？就是说这些模型根本不是真的在"看"图片，它们是在文字里找统计规律，然后编出一段听起来像那么回事的描述。你想想看，这就像一个学生从来不看题目里的图表，光靠猜题干里的关键词就能考高分。你说他学会了吗？他什么都没学会，他只是摸透了出题套路。

这件事为什么重要？因为现在整个AI产业有大量的投资，都建立在一个假设上，就是AI已经具备了视觉理解能力，能看懂图像、能分析场景。基于这个假设，大家说放射科医生要被替代了，建筑师要被替代了，影视剪辑师要被替代了，甚至人形机器人都要来了。但如果连"看"这个最基本的能力都是幻觉，那这些故事的根基在哪里？更深层的问题是，我们用来衡量AI能力的那些基准测试，它们测的到底是"理解"还是"模仿"？这两个东西差别太大了。

说到AI产业的根基问题，咱们来聊一个更大的话题。NVIDIA最近出了一件很有意思的事。

科技评论人Ed Zitron披露了一份NVIDIA的内部备忘录。这份备忘录里，NVIDIA主动声明说，我们不像安然，不像世通，不像朗讯。你听到这话什么感觉？没有人指控你啊，你急什么？这就好比一个人走进房间突然说"我没偷东西"，你第一反应是什么？对吧，这个姿态本身就很耐人寻味。

Zitron的分析并不是说NVIDIA在造假，他揭示的是整个AI产业资金链条的结构性问题。我给你捋一下这个链条，你听听看有多惊险。CoreWeave这家公司，它拿NVIDIA的GPU做抵押去借钱，然后用借来的钱再去买更多的GPU。这已经够刺激了对吧？但还没完。CoreWeave号称有500亿美元的积压订单，这里面220亿来自OpenAI。OpenAI什么情况？年亏数十亿。还有140亿来自Meta。然后注意这个细节，NVIDIA自己承诺购买63亿美元CoreWeave还没卖出去的算力。你看到没有，这就形成了一个闭环，我买你的芯片，你买我的算力，钱在圈子里转，但真正的外部收入在哪里？

Zitron还提了一个关键问题。NVIDIA说自己已经出货600万块Blackwell GPU，但他追踪来追踪去，只能找到不到100万块的实际部署去向。剩下那500多万块在哪里？是在仓库里？在运输途中？还是在某个我们看不到的地方？

最狠的一个数字来了。Zitron估算，大型科技公司到2030年需要创造大约2万亿美元的全新AI专属收入，才能收回已经投入的资本支出。2万亿美元啊！目前全部生成式AI收入加在一起，大概610亿美元。你自己算算这个缺口有多大。所以这不是一个"AI泡沫会不会破"的问题，而是"什么时候破、以什么方式破"的问题。

好，说完了让人焦虑的，咱们来点不一样的声音。

最近"AI将消灭SaaS"这个说法特别火，但有一个创始人站出来说，等一下，你们说的不对。这个人叫Zeke Gabrielse，他做了一个叫Keygen的许可证管理平台。他的数据很硬，2025年收入增长超过40%，客户流失率只有1.9%。

他的核心论点特别有意思。他说，买家选择SaaS，不是因为他们不能自己造一个，而是因为维护不是他们的核心能力。AI确实让"造"这件事变便宜了，你用AI可以很快搭一个原型出来。但是"维护"呢？维护的成本从来没有变过。你得处理bug，你得做安全更新，你得适配新的环境，你得在半夜三点收到报警然后爬起来修。这些事情AI降低不了多少成本。而且他观察到，真正说"我要自己建"然后取消SaaS订阅的，大部分是独立开发者，企业客户反而更稳定了。这给了我们一个很好的提醒，就是在所有人都在喊"一切都会被颠覆"的时候，冷静看看数据，往往比跟风有价值得多。

再来快速过几条值得关注的消息。

Git里面其实内置了28种语言的差异驱动器，但几乎没有代码托管平台支持这个功能。Andrew Nesbitt写了一篇深度指南，教你怎么用textconv机制把锁文件里200行的噪音变成几行清晰的依赖变更，非常实用。

React核心开发者Cheng Lou发布了一个叫Pretext的浏览器库，不碰DOM就能计算文本高度。他用《了不起的盖茨比》全文做测试，通过离屏Canvas预测量来模拟浏览器换行，效果相当惊艳。

还有一条特别有趣的冷知识。有人提醒说，服务器级的AI加速卡，比如H100，已经把图形处理和视频输出功能去掉了。所以那些等着AI泡沫破裂后捡便宜显卡打游戏的朋友，可能要失望了，因为这些卡根本不能打游戏。

安全方面，微软12月的补丁修复了56个漏洞，其中有一个已经被利用的零日提权漏洞。另外特别值得注意的是，GitHub Copilot的JetBrains插件被发现有远程代码执行漏洞，这属于研究者命名的"IDEsaster"系列，涉及十多款AI编程平台。用AI编程工具的朋友，一定要及时更新。

最后咱们来看看几个值得持续关注的趋势。

今天的内容其实有一条暗线把所有东西串起来了，你发现没有？从斯坦福证明AI的视觉理解是幻觉，到NVIDIA的资金链条脆弱性，再到SaaS创始人说维护才是真正的壁垒，再到软件设计只能由实际开发者完成这个观点。所有这些指向同一个结论，在AI加速一切的时代，真正稀缺的不是速度，不是规模，而是深度的领域知识和判断力。知道该做什么、为什么这样做，这个能力比以往任何时候都更值钱。

所以你看，2026年的关键分水岭，可能不是AI能不能写代码、能不能看图片，而是当AI写错了、看错了的时候，谁来负责，谁能发现，谁有能力纠正。这个问题，值得我们每个人认真想想。

如果你想通过阅读文字版更快地获取每日的AI快送信息，欢迎免费订阅我们的mail list，地址在视频描述里。如果您觉得我们的节目对您有帮助，请帮忙分享、转发给您的朋友。好了，今天就到这里，我们明天见！