推理稀缺性：谁将收获价值？

正文：

2023年，David Cahn提出的问题依然悬而未决，主要体现在推理层面，而非训练层面。市场最近几周才开始将这一差距反映在定价中。随着英伟达围绕「服务token」重组财务报告，以及Cerebras上市时获得20倍超额认购，瓶颈之争已告一段落。接下来需要探讨的关键问题是：当推理成为稀缺资源时，价值将停留在算力栈的哪一层。

Cahn在2023年提出了一个悬而未决的「2000亿美元问题」。每投资1美元购买GPU，几乎需要再投入1美元用于数据中心的电力支持。因此，每年的GPU资本支出意味着这些芯片需要生成约2000亿美元的收入才能收回投资。即使在对AI收入持乐观态度的情况下，他也发现「投资」与「终端客户实际支付」之间依然存在超过1250亿美元的差距。显而易见的担忧是，GPU的建设正在超前于真实需求。

一年过后，这一缺口不仅没有缩小，反而加大。Cahn在2024年的续作中将其重新定义为「6000亿美元问题」。看空逻辑逐渐形成一个熟悉的模式：过度建设导致供给过剩，而过剩将消耗资本。

这两篇文章实际上都在探讨同一个问题：谁将填补这个缺口？答案并不在训练这一侧的账本中，而是在推理这一侧，市场最近几周才开始意识到这一点。

Cerebras于周四成功上市，IPO获得了20倍的超额认购，定价接近周三最终加价的两倍。市场的需求并非仅仅是对「下一个Nvidia杀手」的期望，而是因为市场逐渐认识到，AI真正的瓶颈在于推理，而非训练。

Cerebras的核心竞争力在于其极快的推理芯片架构，而非训练。这正是华尔街关注的焦点。推理市场是持续性的，随着使用量的增加而扩张。每当Claude回答问题或agent执行任务时，算力都在被消耗。训练是一次性的，而推理则是无止境的。

摩根大通预计推理市场的规模是训练市场的10到50倍。当机器开始执行其他机器下达的任务时，推理需求不再随用户数量增长，而是随算力本身增长。

如果说Cerebras是市场觉醒的标志，那么英伟达最新季度的财报则是产业链顶端的确认。在财报电话会上，Jensen Huang明确表示，AI需求正在呈抛物线式增长。原因很简单：智能体AI的时代已经到来。主流AI已经从一次性推理，转向逻辑推理，再进入到能够自主调用工具和编排任务的智能体阶段。Huang提到，「tokens现在是有利可图的。」在AI时代，算力就是收入和利润。

这重新定义了整个行业。训练是构建模型的一次性成本，而推理则是其后续的经常性成本，如今的瓶颈在推理，而非训练。

英伟达在财报中反映了这一判断，目前分为两个平台：数据中心和边缘计算。数据中心的收入（当季约750亿美元，同比增长92%）进一步细分为超大规模客户（约380亿美元，环比增长12%）和AI云、工业与企业（ACIE，约370亿美元，环比增长31%）。新增的边缘计算线条收入为64亿美元，同比增长29%，覆盖智能体AI和物理AI实际运行的终端设备，如PC、工作站、AI-RAN基站、机器人和汽车。

虽然边缘计算目前仍占总收入不到8%，但英伟达已将其提升至与数据中心平行的「第二平台」。这一信号表明：推理正在分化为两条战线，数据中心的云端推理和边缘侧的端点推理，AI需要在物理世界中见到、移动并行动。新推出的Vera Rubin从第三季度开始出货，其推理吞吐量最高可达Blackwell的35倍；Huang还为面向智能体负载设计的Vera CPU提供了一个全新的2000亿美元市场机会，预计所有前沿模型公司将在第一天全面转向它。

随着全球市值最高的公司围绕「服务token」重组财务，瓶颈之争已基本结束。本文接下来的部分将探讨，当推理而非训练成为稀缺资源时，价值将由谁来捕获。

在这两条战线中，本文将讨论的是云端推理，即对外提供API token服务的、租用的数据中心GPU。而端点推理则依赖于设备内部的本地芯片（如Nvidia的Jetson、RTX、Drive、AI-RAN），不经过其下的GPU租赁与聚合层。在此，请将其视为放大整个推理经济、支撑瓶颈论点的顺风，而非Hyperbolic和Venice所在的市场，这两者完全处于云端那条线上。

Anthropic可以被视为煤矿中的金丝雀。其使用量远超预先配置的产能，关于Claude被「脑叶切除」的抱怨遍布网络，包括限流的回复、推理变慢，以及压缩的上下文窗口。解决方案显而易见：算力。2026年5月，Anthropic从SpaceX手中接管了整个Colossus 1数据中心，拥有超过22万张Nvidia GPU和300兆瓦的专用算力，专门用于推理，而非训练。

这一产能的释放引发了一系列限额调整，每一次都是一个信号。5月6日，Anthropic将Claude Code的五小时限额翻倍，取消高峰时段的限流，并大幅提高Opus的API速率限制。5月13日，它又将Claude Code的周限额提高50%。随后，从6月15日起，它采取了与「慷慨」相反的措施：将智能体和程序化使用部分从固定订阅中分离，纳入独立计量的信用池（每月20至200美元，按API价计费）。最后一步浓缩了整个论点：智能体消耗推理的速度远超固定订阅的承载能力，因此定价必须反映其本来的「经常性成本」。

训练是一项一次性的资本支出，而推理则是随每个新用户、新智能体而复利累积的经常性运营成本。

每个AI应用都依赖于一条从TSMC晶圆厂到API端点的供应链：

大多数公司仅拥有其中的一层。Nvidia掌握硅，CoreWeave拥有裸金属，Together AI专注于推理优化，OpenRouter负责模型API路由。

Hyperbolic计划在2025年6月推出按需GPU市场。在最初的几个月里，开发者数量迅速突破20万，覆盖前沿AI实验室、搜索以及大型消费级平台。

Hyperbolic自身并不持有任何GPU。每张卡均来自neocloud和数据中心，包括CoreWeave、Lambda Labs、Nebius，以及其他小型运营商。这看似是弱点，实际上却是其护城河。

通过在GPU供应方与需求方之间架起桥梁，Hyperbolic能够获取实时数据，了解谁在以何种价格、何时购买什么GPU。在供给过剩公开之前，它已能提前发现，并在需求激增冲击市场之前做好准备。

如今，护城河本身就是这一多云聚合。Hyperbolic将来自数十个独立云和数据中心的碎片化产能整合成一个标准化的统一池，使开发者无需与每个运营商谈判，也无需管理多个账户，即可在任何地方租用到最便宜的可用GPU。它接入的云越多，流动性越深，定价数据越丰富。未来，团队还在探索如何利用这些数据建立GPU价格曲线模型，并最终投入自有资本来平滑供需，扮演物理算力的做市商角色；但这一目标仍处于早期阶段，当前的复利效应主要来自聚合层。

目前没有其他公司在尝试这种

来源：Odaily星球日报