![]()
随着AI投资狂潮席卷科技行业,真正限制算力扩张的环节在哪里?SemiAnalysis创始人给出的答案是:瓶颈一直在变。
近日,在一次播客访谈中,半导体研究机构SemiAnalysis创始人Dylan Patel系统解释了AI算力扩张背后的供应链逻辑。他指出,过去几年AI算力的限制因素不断变化,就像打地鼠一样,一个瓶颈被解决,新的瓶颈就会出现。
SemiAnalysis是一家近年来在科技和投资圈迅速走红的半导体研究机构,其研究广泛被AI公司、云计算厂商以及对冲基金使用。
AI算力扩张的瓶颈不断变化
Patel表示,过去几年AI产业链的瓶颈几乎每年都在变化。
他说:“几年前限制AI扩张的是CoWoS封装;去年是电力;再后来是数据中心。”
但随着这些环节逐渐扩产,新的限制又开始出现。
Patel形容这种变化:“算力扩张的瓶颈一直在移动。你解决一个问题,新的问题就会从供应链的另一个位置冒出来。”
这一变化背后,本质是AI需求增长速度远超产业链扩张速度。
瓶颈正在重新回到芯片制造
Patel认为,随着数据中心、电力等基础设施逐步扩张,AI算力的核心限制正在重新回到半导体制造环节。
他说:“最大的瓶颈其实是算力本身,而算力最长期的供应链并不是电力或数据中心,而是半导体供应链。”
具体来看,芯片供应链的关键限制主要包括三部分:
逻辑芯片产能(晶圆厂制造能力)
高带宽存储(HBM)等存储芯片
晶圆厂建设与设备周期
相比之下,数据中心建设速度明显更快。这意味着,当AI需求突然爆发时,芯片供应链往往难以及时跟上。他说道:
在晶圆厂领域,洁净室是今年和明年最大的瓶颈。随着我们进入2028、2029、2030 年,那里仍然会有制约因素。未来瓶颈可能下沉到设备层
如果AI算力继续高速增长,Patel认为供应链瓶颈还可能继续向下游转移。最终限制算力扩张的,可能是半导体设备产能。
他特别提到极紫外光刻机(EUV)。这种设备由ASML制造,是先进芯片生产的核心设备。
要进一步扩展算力,今年和明年有不同的瓶颈,但最终到2028年或2029年,瓶颈会落到供应链的最底层,那就是ASML。
Patel表示,目前全球EUV光刻机年产量大约70台,未来几年可能增加到80台左右。即便供应链扩张,到本十年末也很难超过100台。
在这种情况下,设备产能可能成为AI算力扩张的最终约束。
![]()
12亿美元的光刻机扼住了500亿美元的咽喉
为了直观展现光刻机对全局的控制力,Patel算了一笔极具冲击力的账。
假设以英伟达下一代Rubin芯片建设1 GW(吉瓦)算力的数据中心,整个半导体产业链需要消耗:约5.5万片3nm晶圆、6000片5nm晶圆以及17.0万片DRAM存储晶圆。
这些晶圆制造需要进行约200万次EUV曝光。按照单台EUV光刻机的吞吐量计算,刚好需要3.5台EUV光刻机
这就形成了一个极度扭曲的杠杆效应:建设1 GW数据中心需要投入约500亿美元的庞大资本开支;而支撑这500亿美元产能的,仅仅是价值约12亿美元的3.5台EUV光刻机。
由于EUV光刻机是人类制造的最复杂机械,其核心组件(如卡尔·蔡司的镜头组、Cymer的极紫外光源)供应链极度僵化。即便在最激进的扩产假设下,ASML目前的年产能约为70台,明年增至80台,到2030年也仅能勉强突破100台。这就从物理层面上锁死了全球每年能新增的最高AI算力总盘子。
存储大挤压:消费者将为AI买单
除了逻辑芯片,存储器(Memory)短缺将是未来一两年的核心交易主线。Patel给出了一个令消费电子市场胆寒的预测:到2026年,科技巨头约30%的资本开支将流向存储芯片。
长上下文推理模型需要极大的KV Cache(键值缓存),这彻底引爆了对内存带宽和容量的需求。以HBM(高带宽内存)为例,其占用的晶圆面积是普通DDR内存的四倍。这意味着,为了生产1字节的AI内存,代工厂必须摧毁4字节的消费电子内存产能。
“人们会越来越讨厌AI。因为智能手机和PC不会逐年变得更好,事实上,它们会变得更差。”Patel直言。
随着大量DRAM产能被利润更丰厚、签订长期合同的AI芯片抢占,消费电子的BOM(物料清单)成本将飙升。Patel测算,苹果iPhone的存储成本可能会上涨约150美元。苹果或许能通过品牌溢价消化或转嫁这部分成本,但主打性价比的中低端手机将遭受毁灭性打击。
Patel预计,随着内存价格翻倍甚至飙升,原本每年14亿部的智能手机全球出货量,今年可能降至8亿部,明年甚至可能腰斩至5-6亿部。
电力并非绝对制约,空间数据中心为时尚早
针对市场持续热议的“缺电危机”以及马斯克提出的“太空数据中心”构想,Patel展现出了资本市场的实用主义态度。他认为电力不仅不会成为终极制约,反而是一门好生意。
“显然,世界上只有三家公司能制造联合循环燃气轮机,但我们能做的还有很多。”
Patel指出,通过采用飞机引擎改装(航改微混)、中速往复式发动机(如重卡或船舶引擎)、Bloom Energy的燃料电池以及“太阳能+电池”的组合方案,数据中心完全可以在“电表后”(不依赖主干电网)解决能源问题。
即便这会导致单千瓦时的电价翻倍,分摊到单颗H100每小时1.40美元的总拥有成本(TCO)中,也不过增加了几美分。与AI模型产生的巨大收益相比,完全可以忽略不计。此外,只需配备足够的公用事业规模储能系统,美国电网就能额外释放20%的容量给数据中心使用。
至于马斯克在太空中建立数据中心的设想,Patel直截了当地予以否定。芯片极高的故障率(约15%的Blackwell需要退货或重新插拔)以及昂贵的空间激光通信成本,使得这一构想在经济上毫无逻辑。“至少在这个十年内,太空数据中心不会发生。”
![]()
访谈全文翻译如下:时间戳(00:00:00) – 为什么今天的 H100 比三年前更值钱(00:24:52) – 英伟达早早锁定了台积电的产能;谷歌正面临压力(00:34:34) – 到 2030 年,ASML 将成为 AI 算力扩展的头号制约因素(00:55:47) – 我们不能直接用台积电的老旧晶圆厂吗?(01:16:01) – 即将到来的巨大内存危机(01:42:34) – 在美国扩展电力供应不会成为问题(01:54:44) – 本十年内太空 GPU 不太可能实现(02:14:07) – 为什么没有更多对冲基金参与 AGI 的投资?(02:18:30) – 台积电会把苹果从 N2 工艺上挤走吗?00:00:00 – 为什么今天的 H100 比三年前更值钱德瓦克什·帕特尔好的,本期节目是我的室友教我半导体知识。迪伦·帕特尔这也是对这个当前麦克风的告别。德瓦克什·帕特尔没错。你用完之后,我就想,"我不能再用这个了。我得换个新的。"迪伦·帕特尔德瓦克什不用别人用过的二手货。德瓦克什·帕特尔迪伦是 SemiAnalysis 的 CEO。迪伦,我有一个迫切的问题想问你。如果把四大巨头——亚马逊、Meta、谷歌、微软——加起来,根据你们最近公布的数据,它们今年总的预计资本支出是 6000 亿美元。按照租用这些算力的年度价格来计算,这接近 50 吉瓦。显然,我们今年不可能增加 50 吉瓦的电力容量,所以这笔钱很可能是在为未来几年将上线的算力买单。我们应该如何看待这笔资本支出上线的时间线?对于 AI 实验室来说也是类似的问题。OpenAI 刚刚宣布他们筹集了 1100 亿美元,Anthropic 刚刚宣布筹集了 300 亿美元。如果你看看他们今年将要上线的算力——你应该告诉我具体是多少——但总数是不是也在另一个 4 吉瓦左右?OpenAI 和 Anthropic 今年为维持其算力支出而需要租用的算力成本是每吉瓦 100 到 130 亿美元。单单这些融资额就足以覆盖他们全年的算力支出了。这还不包括他们今年将要赚取的收入。所以请帮我理解一下:首先,这些大型科技公司的资本支出实际上线的时间尺度是怎样的?其次,如果建立一个 1 吉瓦数据中心的年化成本是 130 亿美元,那么这些 AI 实验室筹集这么多资金是为了什么?迪伦·帕特尔所以当我们谈到这些超大规模云服务商的资本支出达到 6000 亿美元的量级,再看看供应链的其他环节,总数会接近一万亿美元。其中一部分是用于今年即将上线的算力:即今年支付的芯片和部分其他资本支出。但其中也有很大一部分是用于前期的建设投入。当我们谈到今年美国将增加 20 吉瓦的容量时,其中一部分并非今年支出。实际上,部分资本支出是在前一年就已经花掉了。看看谷歌的 1800 亿美元资本支出,很大一部分是用于 2028 年和 2029 年的涡轮机预付款。一部分用于 2027 年的数据中心建设。一部分用于电力采购协议、首付款以及他们为未来更长远布局所做的其他事情,以便能够实现这种超快速的扩展。这适用于所有的超大规模云服务商以及供应链上的其他参与者。所以,今年大约部署 20 吉瓦,其中很大一部分来自超大规模云服务商,一部分则不是。对于所有这些公司来说,他们最大的客户是 Anthropic 和 OpenAI。目前 Anthropic 和 OpenAI 大约拥有 2 到 2.5 吉瓦的算力,而且他们正试图扩展到更大的规模。看看 Anthropic 在过去几个月所做的事情,增加了 40 亿或 60 亿美元的收入,我们可以简单地画一条直线,并预测他们每月将再增加 60 亿美元的收入。有人会争辩说这已经是保守估计了,认为他们应该增长得更快。这意味着在未来十个月内,他们将增加 600 亿美元的收入。按照媒体上次报道的 Anthropic 的毛利率,这意味着他们需要为这 600 亿美元的收入,投入大约 400 亿美元用于推理计算。这 400 亿美元的计算成本,按每吉瓦约 100 亿美元的租赁成本计算,意味着他们需要增加 4 吉瓦的推理容量才能仅仅支撑收入的增长。这还是假设他们的研发训练集群保持不变。从某种意义上说,Anthropic 到今年年底需要达到远高于 5 吉瓦的水平。这对他们来说实现起来会非常困难,但有可能。德瓦克什·帕特尔我能不能就此问一个问题?如果 Anthropic 今年年底的目标不是达到 5 吉瓦,但他们需要那么多算力来服务比预期增长得更疯狂的收入——而且可能还会更多——同时还要进行研究和训练,以确保明年的模型足够好,那么这些算力将从哪里来?迪伦·帕特尔达里奥(Anthropic CEO)上次上你播客时非常保守。他说,"我不会在算力上疯狂投入,因为如果我的收入在不同的时间点以不同的速度增长……我不想破产。我想确保我们在扩展规模时负责任。"但事实上,与 OpenAI 相比,他搞砸了。OpenAI 的做法是,"我们就签下这些疯狂的协议。"到今年年底,OpenAI 获得的算力将远远超过 Anthropic。Anthropic 要获得算力必须怎么做?他们必须去找一些质量较低的供应商,那些他们以前不会考虑的供应商。Anthropic 历史上拥有最好的供应商,比如谷歌和亚马逊,都是世界上最大的公司。现在微软正在扩展其供应链,Anthropic 就得去找其他较新的参与者。OpenAI 在与多家参与者合作方面一直更为积极。是的,他们从微软、谷歌和亚马逊那里获得了大量算力,但他们也从 CoreWeave 和甲骨文那里获得了大量算力。他们去找了一些不知名的公司,或者说人们会认为是随机的公司,比如软银能源(SoftBank Energy),这家公司从未建过数据中心,但现在正在为 OpenAI 建设数据中心。他们还找了其他许多公司,比如 NScale,来获取算力。这对 Anthropic 来说是一个难题,因为他们在算力上过于保守,不想疯狂投入。在某种意义上,去年下半年很多金融恐慌是因为,"OpenAI 签了所有这些协议,但他们没有钱来支付……" 好吧,甲骨文的股票会暴跌,CoreWeave 的股票会暴跌。所有这些公司的股票都暴跌了,信贷市场也疯了,因为人们认为最终的买家付不起钱。现在呢,"哦等等,他们筹了一大笔钱。好吧,那他们能付得起。"Anthropic 则要保守得多。他们想的是,"我们会签合同,但要有原则。我们会故意低于我们可能达到的目标,保持保守,因为我们不想可能破产。"德瓦克什·帕特尔我想弄明白的是,"在紧急情况下获取算力"到底意味着什么?是必须去找那些"新云"(neoclouds)吗?他们的算力更差吗?差在哪里?是不是因为最后一刻才进场,所以不得不向云服务商支付更高的毛利率?是谁建立了这些闲置产能,让 Anthropic 和 OpenAI 可以临时调用?OpenAI 如果到 2027 年最终算力规模与 Anthropic 差不多,那他们现在获得的实际优势是什么?他们今年年底的算力(吉瓦数)会有差异吗?如果会,Anthropic 和 OpenAI 到今年年底将分别拥有多少吉瓦?迪伦·帕特尔要获取多余算力,是的,超大规模云服务商那里是有容量的。并非所有的算力合同都是长期的五年期协议。有些算力来自 2023 年或 2024 年签订的合同,或者是 2025 年的 H100 合同,期限较短。OpenAI 的绝大部分算力签的都是五年期合同,但也有很多其他客户签的是 1 年、2 年、3 年或 6 个月的短期合同或按需合同。随着这些合同到期,谁是最愿意出高价的市场参与者?从这个意义上说,我们看到 H100 的价格已经上涨了很多。人们愿意签高于 2 美元(每小时)的长期合同。我看到过一些交易,某些 AI 实验室——我出于原因说得含糊一点——签下了长达 2 到 3 年、价格高达 2.40 美元的 H100 合同。如果你考虑一下利润率,建造 Hopper 的成本(按五年摊销)是 1.40 美元。现在,已经过去两年了,你还签 2-3 年的合同,价格是 2.40 美元?那些利润率高得多。现在你可以挤掉所有其他供应商,无论是亚马逊拥有的,还是 CoreWeave、Together AI、Nebius 等等。这些新云公司通常拥有更高比例的 Hopper,因为他们在 Hopper 上更激进。他们也倾向于签订较短的合同,不是指 CoreWeave,而是其他的。所以,如果有人想要 Hopper,市场上还是有一些容量的。另外,虽然在甲骨文或 CoreWeave 这样的公司,大部分 Blackwell 的容量都是通过长期合同签订的,但任何本季度即将上线的产能都已经售出了。在某些情况下,他们甚至没有达到他们承诺售出的所有数字,因为存在一些数据中心的延迟,不仅是这两家,Nebius、微软、亚马逊和谷歌也有延迟。但是有很多新云公司,以及一些超大规模云服务商,他们要么有正在建设但尚未售出的容量,要么原本打算用于某些并非超级 AGI 重点的内部用途的容量,现在可能反过来出售。或者,就 Anthropic 而言,他们不一定非得直接拥有所有算力。亚马逊可以拥有算力并通过 Bedrock 提供服务,谷歌可以通过 Vertex 提供服务,微软可以通过 Foundry 提供服务,然后与 Anthropic 进行收入分成,反之亦然。德瓦克什·帕特尔基本上,你是说 Anthropic 现在不得不支付要么是 50% 的加价(以收入分成的形式),要么是最后一刻的现货算力价格,而这些是他们如果提前购买算力本可以避免的。迪伦·帕特尔对,这里面有个权衡。但与此同时,在整整四个月的时间里,所有人都在对 OpenAI 说,"我们不会跟你签协议。" 这听起来很疯狂,但原因在于"你没有钱"。现在所有人都在说,"OpenAI,我们一直都相信你。既然你筹到了这么多钱,我们可以签任何协议。" 从这个意义上说,Anthropic 受到了限制。愿意购买算力的新增买家并不多,因为 Anthropic 首先达到了那个收入暴增的能力层级。德瓦克什·帕特尔这很有意思。否则你可能认为拥有最好的模型是一种极度贬值的资产,因为三个月后你可能就不是最好的了。但重要的是,你可以提前锁定算力,获得更好的价格。也许这是个显而易见的观点。但至少直到最近,人们一直在强调 GPU 的折旧周期。看空者,比如迈克尔·伯里(Michael Burry)之类的人会说,"看,人们说这些 GPU 能用四五年。也许是因为技术进步太快,实际上对这些 GPU 采用两年折旧周期是有道理的," 这会增加当年报告的摊销资本支出,使得建设所有这些云服务在经济上不那么划算。但你实际上指出,折旧周期可能比五年更长。如果我们还在用 Hoppers——尤其是如果 AI 真的起飞,到 2030 年我们还在说,"我们得把 7 纳米的晶圆厂开起来,得重新启用 A100,"——那么折旧周期实际上会非常长。我觉得这是你说的一个有趣的财务含义。迪伦·帕特尔这里面有几条线索可以展开。一是 GPU 折旧会怎样?我想我之前没回答你的问题,那就是我认为 Anthropic 到今年年底能够达到 5 吉瓦左右,也许再多一点,这包括他们自己的算力以及通过 Bedrock、Vertex 或 Foundry 提供的服务。我认为他们能达到 5 或 6 吉瓦,这远高于他们最初的计划。根据我们的数据,OpenAI 大致相同,实际上会略高一点。不管怎样,GPU 的折旧周期。迈克尔·伯里说是三年或更短。这是他大概的观点。看待这个问题有两个角度。从机制上讲,有一个 GPU 的 TCO(总拥有成本)模型,我们据此预测 GPU 的定价并计算集群的总成本。这里面有很多成本:你的数据中心成本、网络成本、现场运维人员更换设备的成本。还有备件成本、实际芯片成本、服务器成本。所有这些成本加在一起。它们有各自的折旧周期和信贷成本。最终计算出,"如果折旧期为五年,大规模部署 H100 的成本是每小时 1.40 美元。" 如果你按每小时 2 美元的价格签了五年期合同,你的毛利率大约是 35%,略高一点。如果签的是 1.90 美元,毛利率也大约是 35%。然后假设到了第五年,GPU 就报废了。在某些情况下,人们提出的论点是,如果你没有签长期合同,因为每两年英伟达的算力就会翻三倍或四倍,而价格只增加 50% 或翻倍……那么 H100 的价格……当然,2024 年市场上它的价值可能是 2 美元(对应 35% 毛利率),但到了 2026 年,当 Blackwell 以超高产量部署,每年数百万片时,你实际上可能只值 1 美元/小时。而当 2027 年 Rubin(虽然今年开始出货,但明年才会超高产量)也以每年数百万片的规模部署到云端,性能再翻三倍,价格再涨 50% 或翻倍,那么 Hopper 就只值每小时 0.70 美元了。所以 GPU 的价格会持续下跌。这是一种视角。另一种视角是,你从芯片中能获得多少效用?如果你能建造无限的 Rubin 或最新的芯片,那么是的,情况确实会这样。随着新芯片推出,每单位性能的价格下降,Hopper 的现货或短期合同价格会下跌。但是,由于半导体产能和部署时间表受到极大限制,实际上给这些芯片定价的,不是我今天能买到的替代品的性价比,而是我今天能从这个芯片中获得的实际价值。从这个意义上说,让我们以 GPT-5.4 为例。GPT-5.4 的运行成本比 GPT-4 低得多,激活参数也更少。由于它是更稀疏的 MoE 模型,而 GPT-4 则较稠密,所以它小得多。此外,在训练、强化学习、模型架构和数据质量方面还有诸多其他进步,使得 GPT-5.4 比 GPT-4 好得多。而且它的推理成本更低。当你用 H100 运行时,它能服务的 5.4 的 tokens 数量比运行 GPT-4 要多得多。所以它在以更高质量产出更多的 tokens。GPT-4 tokens 的最大市场总规模(TAM)是多少?也许几十亿美元,也许几百亿美元。市场接受需要时间。对于 GPT-5.4,这个数字可能超过一千亿美元。但存在市场接受滞后、竞争激烈以及其他人持续改进的因素。如果改进就此停止,H100 的价值现在就取决于它能从 GPT-5.4 中产生的价值,而不是从 GPT-4 中产生的价值。这些实验室处于竞争环境中,所以他们的利润率不可能无限高。这就产生了一个非常有趣的动态:今天的 H100 比三年前更值钱。德瓦克什·帕特尔这太疯狂了。从长远来看也很有趣。如果我们真的开发出了 AGI 模型,如果我们拥有了真正的人类级别的智能体……关于人脑能进行多少 flops 的估算数字都很粗略。但按 flops 计算,H100 估计能进行 1e15 次运算,这和一些人对人脑 flops 的估计差不多。显然,在内存方面,人脑要多得多。H100 是 80 GB,而人脑可能有 PB 级。迪伦·帕特尔哦,是的,你有 PB 级?兄弟,你给我列出一个 PB 级的 0 和 1 字符串看看。德瓦克什·帕特尔这恰恰是我想说的点。迪伦·帕特尔不,我们只是有史以来最好的稀疏注意力技术。德瓦克什·帕特尔说真的。按压缩的信息量来算,可能是 PB 级。人脑是一个极其稀疏的 MoE。但无论如何,想象一个人类知识工作者一年能创造六位数的价值。如果一块 H100 能产生接近的价值,如果我们真的拥有了服务器上的人类智能,那么 H100 的价值高到可以在几个月内收回成本。所以当我采访达里奥时,我想表达的观点不是我认为奇点两年后就会到来,因此达里奥迫切需要购买更多算力,尽管他的收入增长确实需要他这么做。我想表达的观点是,鉴于达里奥似乎说过的话——他说我们两年内就能拥有一个由天才组成的数据中心,最多不超过五年,而一个由天才组成的数据中心应该能创造数万亿的收入——那么他不断发表关于在算力上要更保守,或者像你说的,比 OpenAI 更不激进的言论,就完全没有道理。我想这个观点被曲解了,然后人们开始抨击我,"哦,这个播客主想说服这家千亿美元级公司的 CEO 去豪赌一把。" 我只是想说,他内部的言论是不一致的。不管怎样,现在弄清楚这点很好。迪伦·帕特尔我认为回到之前的观点,如果模型如此强大,那么 GPU 的价值会随时间增加。目前只有 OpenAI 和 Anthropic 有这样的看法。但随着我们向前发展,每个人都会看到每个 GPU 的价值在飙升。所以从这个意义上说,你现在就应该锁定算力。有趣的是,以 Anthropic 的风格,有个梗是他们有承诺恐惧症,有点多角恋的味道。不是指达里奥本人,但这是个梗。德瓦克什·帕特尔解释了一切。顺便提一下,经济学上有个有趣的概念叫阿尔钦-艾伦效应(Alchian-Allen effect),大意是如果你提高不同商品的固定成本,其中一种质量较高,一种质量较低,那么边际上人们会更倾向于选择高质量的商品。举个具体的例子,假设味道好的苹果卖 2 美元,味道差的苹果卖 1 美元。现在假设对它们征收进口关税。那么好苹果和中等苹果的价格变成了 3 美元对 2 美元。迪伦·帕特尔这是因为两者都涨了 1 美元,还是应该是 50% 的涨幅?德瓦克什·帕特尔不,因为两者都涨了 1 美元。整个效应在于,如果对两者都施加一个固定的成本增量,那么它们之间的价格差异,即价格比率,就会改变。以前,贵的那一个是便宜的两倍。现在它只是 1.5 倍了。所以我想知道,如果把这个应用到 AI 上,是否意味着如果 GPU 会变得更贵,那么算力的价格也会有一个固定成本的增加。结果,这会促使人们愿意为稍微好一点的模型支付更高的利润率。因为算力反正都要花这么多钱,我可能还不如多付一点点,确保我用的是最好的模型,而不是一个稍差的模型。迪伦·帕特尔所以 Hopper 从 2 美元涨到了 3 美元。如果一块 Hopper 能生成一百万 tokens 的 Opus,或者能生成两百万 tokens 的 Sonnet,那么 Opus 和 Sonnet 之间的价格差就缩小了,因为 GPU 的价格从 2 美元涨到了 3 美元。有趣。我认为这非常有道理。我们看到今天所有的用量都集中在最好的模型上,所有的收入也来自最好的模型。在一个计算资源受限的世界里,会发生两件事。第一,那些没有承诺恐惧症、签了五年期算力合同的公司,已经锁定了巨大的利润率优势。他们以 2、3 或 5 年前的价格锁定了未来五年的算力。而如果你那份五年合同已经执行了三年,别人的两三年合同到期了,现在他们想按当前价格购买,而这个价格是根据模型价值来定的,那价格就会高得多。所以早期承诺的人总体上利润率更高。市场上处于长期合同中的比例远大于可以作为最后时刻灵活增量的短期合同比例。同时,利润率会流向哪里?因为模型变得更有价值,云服务商能在多大程度上灵活定价?看看 CoreWeave,他们目前的平均合同期限超过三年。他们 98% 以上的算力合同都超过三年。所以他们最终面临一个难题,即无法真正灵活定价。但他们每年新增的容量远远超过之前的存量。仅今年一年,Meta 新增的容量就相当于他们在 2022 年为服务 WhatsApp、Instagram 和 Facebook 以及运行 AI 所拥有的全部算力和数据中心的总和。他们今年一年就要增加这么多。同样,Meta 这么做,CoreWeave、谷歌、亚马逊,所有这些公司每年都在增加巨量的算力。这些新增算力是以新价格交易的。从某种意义上说,是的,只要我们在一个起飞阶段,你就锁定了以前的便宜价格。"哦,OpenAI 去年从 600 兆瓦增加到 2 吉瓦,今年从 2 吉瓦增加到 6 吉瓦以上,明年从 6 吉瓦增加到 12 吉瓦。" 新增的算力才是所有成本所在,而不是之前的长期合同。那么谁掌握着定价权?是基础设施提供商。现在云服务商、新云公司或超大规模云服务商可以收取更高的利润。他们可以在一定程度上这么做,但当你往上游看,谁掌握着大部分内存和逻辑产能?主要是英伟达。他们已经签了很多长期合同。如今他们有 900 亿美元的长期合同在手,而且他们正在与内存供应商谈判为期三年的新合同。还有亚马逊和谷歌通过博通(Broadcom)合作,亚马逊直接自己做,还有 AMD。这些公司掌握着所有筹码,因为他们已经锁定了产能。台积电没有大幅提价,但内存供应商正在大幅提价,可能会再次翻倍或三倍,但与此同时他们也在签这些长期合同。谁能够攫取所有利润?可能是云服务商,可能是芯片供应商,也可能是内存供应商,直到台积电或 ASML 打破局面说,"不,我们要收更多钱。" 但与此同时,模型提供商能获得疯狂的高利润吗?至少今年,我们会看到模型供应商的利润率会大幅上升。因为他们如此受算力限制,不得不抑制需求。Anthropic 不可能在目前的速度下继续而不抑制需求。00:24:52 – 英伟达早早锁定了台积电的产能;谷歌正面临压力德瓦克什·帕特尔 1:20:33我们来谈谈逻辑和内存。英伟达具体是如何锁定这么多产能的?我记得根据你的数据,到 2027 年,英伟达将占据 N3 晶圆产能的 70% 以上,大概是这个数字。在 SK 海力士、三星等公司的内存方面,我忘了具体数字是多少。想想新云业务是如何运作的,英伟达是如何与之合作的,或者强化学习环境业务是如何运作的,Anthropic 是如何与之合作的。在这两种情况下,英伟达都在有目的地试图拆分互补行业,以确保他们拥有尽可能多的杠杆。他们把产能分配给各种随机的新云公司,以确保没有单一实体掌握所有算力。同样,Anthropic 或 OpenAI 在与数据提供商合作时也会说,"不,我们要培育一个庞大的行业,这样我们就不会被任何一个数据环境供应商所束缚。"我想知道,在 3 纳米工艺上——这将是 Trainium 3、TPU v7 和其他可能的加速器——为什么台积电要把所有这些都给了英伟达,而不是试图拆分市场?迪伦·帕特尔这里有几点。在 3 纳米上,如果我们回溯到去年,3 纳米的绝大部分产能被苹果占据。苹果正在转向 2 纳米。内存价格上涨,所以苹果的出货量可能会下降。随着内存价格上涨,他们要么削减利润,要么继续推进。由于他们有长期合同,会有一些时间延迟,但苹果可能会减少需求,或者更快地转向 2 纳米,而 2 纳米目前只能用于移动芯片。未来 AI 芯片也会转向那里。所以苹果有这个情况。苹果也正在与第三方供应商谈判,因为他们有点被挤出台积电的产能。台积电在高性能计算(HPC,即 AI 芯片)上的利润率高于移动芯片,因为他们在 HPC 领域的优势比在移动领域更大。看看台积电的计算逻辑,他们实际上为做 CPU 的公司提供了相当好的产能分配。想想亚马逊有 Trainium 和 Graviton,两者都在 3 纳米上,Graviton 是他们的 CPU,Trainium 是他们的 AI 芯片。台积电更愿意把产能分配给 Graviton 而不是 Trainium,因为他们认为 CPU 业务更稳定,有长期增长潜力。作为一家保守的公司,不想过度追随增长周期,你实际上会优先把产能分配给增长较慢但更稳定的市场,然后才是把所有新增产能分配给快速增长的市场。通常情况就是这样。同样对于 AMD,台积电对他们 CPU 的产能分配比对 GPU 要热情得多。亚马逊也是如此。英伟达有点独特,因为是的,他们有 CPU,他们制造交换机、网络设备、NVLink、InfiniBand、以太网、NIC。总的来说,随着今年 Rubin 及其系列芯片的发布(GPU 是最重要的),这些东西大部分将在年底前转向 3 纳米。然而,英伟达仍将获得大部分供应。部分原因在于,你看市场,台积电和其他公司在很多方面预测市场需求,但这也是市场信号。市场信号是,"嘿,我们明年需要这么多产能。我们需要这么多。我们会签不可取消、不可退货的合同。我们甚至可能支付定金。" 英伟达只是比谷歌或亚马逊早得多地行动了。在某些情况下,谷歌和亚马逊遇到了绊脚石。他们的一些芯片延迟了几个季度。Trainium 这类芯片都发生了延迟。在这种情况下,情况变成了,"嗯,这些家伙在延迟,但英伟达想要更多、更多、更多。我们还要检查供应链的其他部分,是否有足够的产能?"他们要去问所有的 PCB 供应商,"你们有足够的 PCB 产能吗?" 所有的 PCB 都来自亚洲一家公司,或者很多来自亚洲一家公司。他们会问,"你们有足够的 PCB 产能吗?好的。嘿,内存供应商,谁有所有内存产能?好的,英伟达有。太好了。"当你看看谁才是真正"被 AGI 忽悠"(AGI-pilled)到愿意在长周期上购买算力,其水平在那些没被忽悠的人看来很荒谬——但尽管如此,他们愿意支付相当高的利润率,现在就签合同,因为他们认为未来的比率会搞砸——同样的情况也发生在半导体供应链上。我不认为英伟达完全被 AGI 忽悠了。黄仁勳并不相信软件会被完全自动化等等。德瓦克什·帕特尔是加速计算,不是 AI 芯片,对吧?迪伦·帕特尔就是 AI 芯片。德瓦克什·帕特尔但他是这么称呼的,对吗?迪伦·帕特尔是的。我认为这是个更广泛的术语,AI 包含在其中,但也包括物理建模和模拟。德瓦克什·帕特尔但这好像他并没有拥抱主要的用例。迪伦·帕特尔我认为他在拥抱它,但我只是不认为他像达里奥或山姆那样被 AGI 忽悠了。但他仍然比去年第三季度的谷歌或亚马逊被忽悠的程度要深得多,他看到了更多的需求。原因很简单。你可以看到所有的数据中心建设。他会想,"好吧,我想要这个市场份额。" 我们跟踪了所有数据中心,有很多数据中心可能是这个或那个的。在某种程度上,谷歌和亚马逊,尤其是谷歌,即使他们的 TPU 对他们来说部署起来更好,他们也不得不在数据中心里塞进大量的 GPU,因为他们没有足够的 TPU 来填满他们的数据中心。他们没法生产出来那么多。德瓦克什·帕特尔我对此有个问题。谷歌卖了一百万片,是 v7 吗?迪伦·帕特尔是的。德瓦克什·帕特尔——就是卖给 Anthropic 的 Ironwoods,而你现在说,今年或明年,我想从现在开始永远都是,最大的瓶颈将是制造这些芯片所需的逻辑和内存。谷歌有 DeepMind,第三大 AI 实验室。如果这是个大瓶颈,他们为什么不直接给 DeepMind 用,而要卖掉呢?迪伦·帕特尔这又是…… DeepMind 的人会想,"这太疯狂了。我们为什么要这么做?" 但谷歌云的人和谷歌高管有不同的想法。你我认识 Anthropic 的算力团队。两个主要人员都来自谷歌。他们看到了这种错配,谈判达成了一笔交易,他们能够在谷歌意识到之前就拿到了这批算力。至少从我们发现的数据来看,事件的过程是,在第三季度初,大约六周的时间里,我们看到 TPU 的容量显著增加。在那六周内增加了好几次。他们提出了多个请求。谷歌甚至不得不去找台积电,解释为什么他们需要增加这么多产能,因为这太突然了。那增加的产能很大一部分就是为了卖给 Anthropic。因为 Anthropic 比谷歌更早看到了机会。然后谷歌有了"香蕉小娜"(Nano Banana)和 Gemini 3,这让他们的用户指标飙升。然后谷歌的领导层才意识到,"哦。" 然后他们开始发表声明,说我们必须每六个月将算力翻倍,或者不管具体数字是多少。他们真的醒悟了很多,然后他们去找台积电说,"我们想要更多。我们想要更多。" 台积电回答,"抱歉,伙计们,我们已经卖完了。2026 年我们可能能再增加 5-10%,但真的,我们得为 2027 年做打算了。"在我看来,实验室之间存在这种信息不对称。我不确定具体细节。这是我根据看到的所有关于晶圆订单的供应链数据,以及 Anthropic 和 Fluidstack 签署的数据中心的情况,自己构建的叙述。对我来说很明显,谷歌搞砸了。你可以从谷歌的 Gemini ARR 看出这一点。他们从 Q1 到 Q3 几乎什么都没有——Q3 开始有一点增长。但在 Q4,他们的 ARR 达到了 50 亿美元。很明显,谷歌一开始并没有看到收入暴增。从某种意义上说,Anthropic 在他们的 ARR 爆炸之前就有点承诺恐惧症,即使他们有更多的信息不对称,看到了未来会发生什么。谷歌比 Anthropic 更保守,而且谷歌的 ARR 甚至更低。所以他们就是不愿意做,然后他们意识到他们应该做。自那以后,谷歌在行动上变得荒谬地"AGI 忽悠"。他们收购了一家能源公司。他们为涡轮机支付定金。他们购买了惊人数量的配套电网土地。他们去找公用事业公司谈判长期协议。他们在数据中心和电力方面行动非常积极。我认为谷歌在去年年底觉醒了,但花了一些时间。德瓦克什·帕特尔你认为到明年年底谷歌会有多少吉瓦?迪伦·帕特尔买我的数据吧。德瓦克什·帕特尔这类信息你是收费的。迪伦·帕特尔是的,是的。00:34:34 – 到 2030 年,ASML 将成为 AI 算力扩展的头号制约因素我感觉每年阻碍我们扩展 AI 算力的瓶颈都在变。几年前是 CoWoS 封装。去年是电力。你会告诉我今年的瓶颈是什么。但我想了解五年后,什么将制约我们部署"奇点"?迪伦·帕特尔最大的瓶颈是算力本身。为此,交付周期最长的供应链不是电力或数据中心。它们实际上是半导体供应链本身。瓶颈从电力和数据中心又转回到芯片。在芯片供应链中,有许多不同的瓶颈。有内存,有台积电的逻辑晶圆,还有晶圆厂本身。建设晶圆厂需要两到三年,而数据中心只需不到一年。我们已经看到亚马逊能在短短八个月内建成数据中心。由于制造芯片的晶圆厂本身极其复杂,其交付周期有很大不同。制造晶圆厂所需的设备也有很长的交货时间。随着我们不断扩展,瓶颈会根据供应链目前无法满足的部分而转移。之前是 CoWoS、电力和数据中心,但这些都是交付周期较短的项目。CoWoS 是将芯片封装在一起的更简单流程。电力和数据中心最终也比实际制造芯片简单得多。移动或 PC 芯片的产能可以部分转移到数据中心芯片,这种转移在某种程度上是可行的。而 CoWoS、电力和数据中心则不得不作为新的供应链从头开始建设。但现在,移动和 PC 行业——它们曾是半导体行业的大头——已经没有多余的产能可以转移给 AI 了。英伟达现在是台积电和最大的内存制造商 SK 海力士的最大客户。将资源从普通人的 PC 和智能手机上转移到 AI 芯片上,这种可能性基本上已经不存在了。所以现在的问题是,我们如何扩大 AI 芯片的生产?这是到 2030 年我们面临的最大瓶颈。德瓦克什·帕特尔如果能仅仅基于"我们无法生产超过这个数量的 EUV 光刻机"就预测出到 2030 年的绝对吉瓦上限,那将是非常有趣的。迪伦·帕特尔要进一步扩展算力,今年和明年有不同的瓶颈,但最终到 2028 年或 2029 年,瓶颈会落到供应链的最底层,那就是 ASML。ASML 制造着世界上最复杂的机器:EUV 光刻工具。它们的售价是 3-4 亿美元一台。目前,他们每年能生产大约 70 台。明年,他们将达到 80 台。即使在非常激进的供应链扩张计划下,到本十年末,他们也只能勉强超过 100 台。这意味着什么?到本十年末,他们能生产大约 100 台这样的工具,而现在有 70 台。这如何转化为 AI 算力?我们看到 Sam Altman 和供应链上许多人提到的数字:吉瓦、吉瓦、吉瓦。我们每年增加多少吉瓦?我们看到埃隆说要在太空建一百吉瓦。德瓦克什·帕特尔每年。迪伦·帕特尔每年。这些数字面临的任何问题,或者对这些数字的挑战,实际上不在于电力或数据中心。我们可以深入探讨这一点,但关键在于制造芯片。拿一吉瓦的英伟达 Rubin 芯片来说。Rubin 将在 GTC 大会上发布,我相信就在本期播客发布的那一周。要制造一吉瓦(数据中心容量)的英伟达最新芯片(将在今年年底发布),你需要几种不同的晶圆技术。你需要大约 55,000 片 3 纳米晶圆。你需要大约 6,000 片 5 纳米晶圆。然后你需要大约 170,000 片 DRAM 内存晶圆。这三个不同的类别,每个都需要不同数量的 EUV 处理。制造一片晶圆,有成千上万道工序,你需要沉积材料然后移除。但关键的步骤——至少对于先进逻辑芯片来说,这占芯片成本的 30%——实际上并不是在晶圆上添加任何东西。你取来晶圆,在上面涂上光刻胶,这是一种化学物质,暴露在光下会发生化学变化。然后把它放进 EUV 工具,用特定方式照射。这叫图形化。有一个所谓的掩模版,它就像是设计的模板。看看一片领先的 3 纳米晶圆,它有大约 70 层光刻,70 层左右,但其中 20 层是最先进的 EUV。如果你需要 55,000 片晶圆来制造一吉瓦,每片晶圆需要 20 次 EUV 处理,你可以算一下。一吉瓦就需要 110 万次 EUV 处理。加上其他部分(5 纳米和所有内存),最终总数是 200 万次。所以一吉瓦大约需要 200 万次 EUV 处理。这些工具非常复杂。想想它在晶圆上做什么,它移动、扫描、步进。在整个晶圆上,这个过程要重复几十次。当我们说 EUV 处理次数时,指的是整个晶圆以一定速率被曝光。一个 EUV 工具每小时大约能处理 75 片晶圆,设备正常运行时间约为 90%。最终,你大约需要 3.5 个 EUV 工具来完成一吉瓦所需的 200 万次 EUV 晶圆处理。所以 3.5 个 EUV 工具就能满足一吉瓦的需求。想想这个数字很有意思。一吉瓦的成本是多少?大约是 500 亿美元。而 3.5 个 EUV 工具的成本是多少?那是 12 亿美元。实际上这个数字小得多,这很有趣。500 亿美元的经济资本支出用于数据中心,而在其之上产生的 tokens 价值更大。可能价值 1000 亿美元的 AI 价值会注入供应链,却被这区区 12 亿美元的工具所支撑,而这些工具本身根本无法快速扩展其供应链。德瓦克什·帕特尔你最近写了一篇文章,说过去三年台积电的资本支出是 1000 亿美元,也就是每年 300/300/400 亿美元。其中一小部分被英伟达用于其芯片的 3 纳米或之前的 4 纳米工艺。英伟达上个季度的利润是多少?是 400 亿美元。所以 400 亿乘以 4 是 1600 亿美元。英伟达一家公司,将台积电 1000 亿资本支出的一小部分(这部分支出要折旧很多年,而不是仅仅这一年)转化为了单年 1600 亿美元的利润。当你沿着供应链往下到 ASML 时,这种情况变得更加极端,他们用价值 10 亿美元的机器来生产一吉瓦的算力。当然,这些机器能用不止一年,所以它们贡献的产量不止这些。现在我想了解,到 2030 年,将会有多少这样的机器,包括前几年累积下来的,而不仅仅是当年新卖的?这意味着什么?Sam Altman 说他想在 2030 年每周实现一吉瓦。当你把这些数字加起来,和他的目标兼容吗?迪伦·帕特尔如果你仔细想想,这完全是兼容的。台积电和整个生态系统已经有大约 250 到 300 台 EUV 工具。然后今年增加 70 台,明年 80 台,到 2030 年增长到 100 台。到本十年末,你将拥有 700 台 EUV 工具。700 台 EUV 工具,按每吉瓦需要 3.5 台计算——假设全部用于 AI,但事实并非如此——可以制造出 200 吉瓦的 AI 芯片供数据中心部署。Sam 想要每年 52 吉瓦。那么他只需要占 25% 的份额。显然,有一部分要分给移动和 PC,假设我们还能拥有消费品,并且不被挤出市场。但大致上,他的意思是占全球芯片总产量的 25%。这非常合理,因为仅今年一年,我认为他就能获得 25% 的已部署 Blackwell GPU。这并不疯狂。德瓦克什·帕特尔ASML 是什么时候开始出货 EUV 工具的?大概是 7 纳米开始的时候?我不知道具体时间。你是说在 2030 年,他们还将使用最初在 2020 年出货的机器?所以在这十年里,你将一直使用这个世界上最先进技术行业里最重要的同一台机器?我觉得这很令人惊讶。迪伦·帕特尔ASML 出货 EUV 工具已经差不多十年了,但真正进入大规模量产是在 2020 年左右。这些工具并不是一成不变的。那时候,工具的吞吐量更低。它们有各种规格要求,比如套刻精度(overlay)。我之前提到过,你要一层一层往上堆叠。你会做一些 EUV 处理,然后进行许多不同的工艺步骤——沉积材料、蚀刻、清洗晶圆——在下一个 EUV 层之前要做几十个这样的步骤。有一个规格叫套刻精度,意思是:你做了所有这些工作,在晶圆上画好了线,现在我想画一些点。假设我想画一些点来连接这些金属线和通孔,然后上一层是另一组垂直方向的线,所以现在你要连接相互垂直的导线。你必须让它们精确地对准。这就叫套刻。套刻精度是 ASML 一直在快速改进的一项指标。晶圆吞吐量也由 ASML 快速改进。工具的价格上涨了,但不如工具性能提升的幅度大。最初,EUV 工具是 1.5 亿美元。随着时间的推移,展望 2028 年,它们现在是 4 亿美元。但工具的性能也翻了一倍多,尤其是在吞吐量和套刻精度方面。套刻精度是指,即使你在各次处理之间做了大量步骤,也能精确地将后续的层对准到之前的层上的能力。ASML 正在超快速地改进。还值得注意的是,ASML 可能是世界上最慷慨的公司之一。他们掌握着这个关键环节。没有其他公司能与之竞争。你去问问我们经常聊的其他一些人,比如利奥波德(Leopold),他们会说,"让价格上涨吧。" 因为他们可以。利润率就在那里。你可以获取利润率。英伟达获取了利润率。内存厂商正在获取利润率。但 ASML 从未以超过工具性能提升的幅度来提价。从某种意义上说,他们总是给客户带来净收益。不是说工具停滞不前了,只是这些工具旧了。是的,你可以对它们进行一些升级,新的工具也在不断推出。为简单起见,在这次播客中,我们忽略了每台工具在套刻精度或吞吐量上的进步。德瓦克什·帕特尔你说今年我们生产 60 台这种机器,随后几年是 70、80 台。如果 ASML 决定将其资本支出翻倍或三倍,会发生什么?是什么阻止他们在 2030 年生产超过 100 台?为什么你如此确信,即使是五年后,你也能相对肯定他们的产量?迪伦·帕特尔我认为这里有几个因素。ASML 并没有决定要"豁出去",尽可能快地扩张产能。总的来说,半导体供应链都没有这么做。他们经历过繁荣与萧条,我们可以多聊一点。基本上,一些厂商最近才醒悟过来,但总的来说,没有人真正看到每年 200 吉瓦 AI 芯片的需求,或者每年数万亿美元的半导体供应链支出。他们没有被 AI 忽悠。他们没有被 AGI 忽悠。德瓦克什·帕特尔我们今年就要达到一万亿美元了。迪伦·帕特尔是的,我明白你的意思,但我是说供应链里没人真正明白这一点。我们不断地被告知,我们的数字太高了,而当我们的数字被证明正确时,他们又会说,"哦,好吧,但你明年的数字还是太高了。"ASML 的工具主要由四个部分组成。它有光源,由圣地亚哥的 Cymer 制造。它有掩模版台,由康涅狄格州威尔明顿制造。它有晶圆台。它有光学系统,即透镜等。最后这两部分是在欧洲制造的。看看这四个部分中的每一个,它们的供应链都极其复杂,首先,它们没有试图大规模扩张;其次,当它们试图扩张时,时间延迟会非常长。再说一次,这是人类制造的、以任何规模生产的最复杂的机器。具体谈谈光源。光源是做什么的?它滴下锡滴。然后用激光完美地连续轰击它三次。第一次击中这个锡滴,它扩散开来。再次击中,它扩散成完美的形状,然后以超高功率轰击它。锡滴获得足够的能量,从而释放出 EUV 光,波长为 13.5 纳米,然后这些光被收集并导向透镜组。然后是透镜组,由卡尔蔡司(Carl Zeiss)和其他一些厂商制造,但蔡司是最重要的部分。他们也没有试图扩张产能,因为他们看不到……他们会说,"因为 AI,我们增长了很多。我们从 60 增长到 100。" 而实际情况是,"不,不,不。我们需要增长到几百台,但没关系。随便吧。"这些工具中的每一个,我想,都有 18 个这样的透镜,实际上是多层反射镜,由钼和钌(如果我没记错的话)一层层完美地堆叠而成,然后光线完美地从上面反射。当我们想到透镜时,它是有形状的,用来聚焦光线。这就像一个同时也是透镜的镜子,所以非常复杂。这些超薄沉积层中的任何缺陷都会搞砸。任何曲率问题都会搞砸。扩大生产规模有很多挑战。从某种意义上说,这相当具有手工艺性质,因为你每年不是生产数万个这样的透镜,而是数百个,数千个。每年 60 台工具,每台 18 个这样的透镜,你仍然只涉及数百个,或者对于这些透镜和投影光学器件来说,大致是数千个的数量级。然后向前看,掩模版台,也是一些非常疯狂的东西。这个东西的移动速度,我想说,是 9 个 G。它会以 9G 的加速度移动,因为当你在晶圆上步进时,工具会移动……晶圆台是互补的,是晶圆部分。你让这两样东西对齐。你把所有光线通过透镜聚焦,这是掩模版,这是晶圆。掩模版向一个方向移动,晶圆向相反方向移动,同时扫描晶圆上 26x33 毫米的区域,然后停止。它移动到晶圆的另一部分,再次扫描。这过程在几秒钟内完成。每个都在以 9G 的加速度向相反方向移动。这些东西每一个都是化学、制造、机械工程和光学工程的奇迹,因为你必须让所有这些对齐,并确保它们完美无缺。所有这些都有大量的计量环节,因为你必须完美地测试一切。如果有任何东西出错,良率就会归零,因为这是一个如此精密调整的系统。顺便说一下,它体积巨大,你需要在荷兰埃因霍温的工厂里建造它,然后拆解,用多架飞机运送到客户现场,然后在那里重新组装并再次测试。这个过程需要很多很多个月。供应链中有这么多环节,无论是蔡司制造他们的透镜和投影光学器件,还是 ASML 旗下的 Cymer 制造 EUV 光源。每个环节都有自己的复杂供应链。ASML 曾评论说,他们的供应链中有超过一万人。德瓦克什·帕特尔指的是单个供应商?迪伦·帕特尔是的。可能不是直接的。可能是通过蔡司拥有那么多供应商,某某公司又拥有那么多供应商。如果你只是想一想,你讨论的是两个物理移动的物体,大小和晶圆差不多,它的精度必须达到个位数纳米甚至更高,因为整个系统,层与层之间的套刻误差,必须控制在 3 纳米左右。如果套刻误差是 3 纳米,那就意味着每个单独部件,其物理运动的精度必须甚至低于这个值。在大多数情况下,它必须低于 1 纳米,因为这些误差会累积起来。没有办法只是打个响指就增加产量。像电力这样简单的事情。美国从零功率增长到 2% 的功率增长,这对美国来说已经非常困难了。而这是一个非常简单的供应链,做困难事情的人很少。美国可能有 10 万名电工和在电力供应链工作的人,或者更多?当你看看 ASML,他们雇佣的人这么少。卡尔蔡司可能只有不到一千人从事这项工作,而且这些人都是超级、超级专业的。你不能在眨眼间把随便什么人训练出来做这个。你不能让你整个供应链都立刻"镀锌"(比喻快速动员)起来。英伟达已经做了很多工作,才让整个供应链能够交付他们今年要生产的产能。当你去和 Anthropic 谈,他们会说,"我们缺少 TPU,我们缺少训练算力,我们缺少 GPU。" 当你去和 OpenAI 谈,他们会说,"我们缺少这些东西。"OpenAI 和 Anthropic 知道他们需要 X。英伟达没有那么被 AGI 忽悠。他们在建造 X - 1。你往下到供应链,每个人都在做 X - 1。在某些情况下,他们在做 X ÷ 2,因为他们没有被 AGI 忽悠。最终,鞭子反应过来需要时间。这种"被 AI 忽悠"的程度和增加产量的愿望需要很长时间才能传导。一旦他们终于明白需要快速增加产量……他们认为他们明白了。他们认为 AI 意味着我们必须从 60 增加到 100,此外工具变得更好更快,光源功率从 500 瓦增加到 1000 瓦,以及供应链在技术进步和产量增加的所有其他方面。他们认为他们实际上在大幅增加产量。但如果你算一下数字……埃隆想要什么?他想在 2028 年或 2029 年在太空实现每年 100 吉瓦。Sam Altman 想在本十年末实现每年 52 吉瓦。Anthropic 可能也需要同样多,谷歌也需要。你纵观整个供应链,然后会发现,等等,不,供应链不可能为每个人在算力方面都建造出他们想要的东西。00:55:47 – 我们不能直接用台积电的老旧晶圆厂吗?德瓦克什·帕特尔我觉得在数据中心供应链上,过去几年人们一直在说类似的话,"我们被这个特定东西卡住了,所以 AI 算力不能扩展到超过 X。" 但正如你所写,如果电网是瓶颈,那我们就在站点上搞自发电,用燃气轮机等等。如果那也不行,还有很多其他备选方案可以依靠。我想问问,我们能否想象半导体供应链也发生类似的情况。如果 EUV 成为瓶颈,我们能不能干脆回到 7 纳米。看看像 A100 这样的 7 纳米芯片,从 A100 到 B100 或 B200,显然进步很大。这其中有多少进步仅仅是因为数值精度(numerics)的优化?如果你把 FP16 精度从 A100 到 B100 保持不变。B100 的算力略高于 1 petaflop,而 A100 大约是 300 teraflops。迪伦·帕特尔是的,312。德瓦克什·帕特尔保持数值精度不变,从 A100 到 B100 有大约 3 倍的提升。一部分是工艺进步,一部分就是加速器设计本身的改进,这在未来可以复制。似乎从 7nm 到 4nm 的工艺改进实际影响很小。我不知道具体数字,但假设 3nm 每月有 15 万片晶圆的产能,最终 2nm 也会有类似数量。但 7nm 也有类似数量的产能。如果你有所有这些旧晶圆,也许因为每片晶圆的比特数少了 50%,需要打个 50% 的折扣,但启用 7nm 晶圆来额外获得 50 或 100 吉瓦,似乎也不是那么糟糕。告诉我为什么这个想法很天真。迪伦·帕特尔我们可能会疯狂到一定程度,以至于这种情况真的发生,因为我们就是需要更多的算力,而且这些算力的价值远高于这些芯片更高的成本和功耗。但在很大程度上,这也不太可能,因为有些比较是不公平的。例如,从 A100(312 teraflops)到 Blackwell(1000 或 2000 FP16),再到 Rubin(大约 5000 FP16)……这不是一个公平的比较,因为这些芯片的设计目标大相径庭。A100 时代,英伟达优化的是 FP16 和 BF16 数值精度。到了 Hopper,他们不那么关心这些了,他们关心的是 FP8。到了 Rubin,他们不关心 FP16 和 BF16,主要关心 FP4 和 FP6。数值精度是他们设计芯片时考虑的核心。假设我们基于现代数值精度,在 7nm 上设计一个新的芯片。性能差距仍然会比你说的 FLOPS 差距大得多。人们常常容易归结为每瓦 FLOPS 或每美元 FLOPS,但这并不是一个公平的比较。看看 Kimi K2.5 和 DeepSeek。当你观察这两个模型在 Hopper 与 Blackwell 上、经过高度优化的软件运行时的性能,你会得到截然不同的性能数据。这大部分并不归因于 FLOPS 或数值精度,因为这些模型实际上是 8 位的。所以并不是说 Blackwell 和 Hopper 都为 8 位优化,而 Blackwell 在那里无法利用其 4 位能力。性能差距实际上大得多。当然,缩小工艺技术、让晶体管变小,让每个芯片拥有 X 数量的 FLOPS,这是一回事,但你忘记了主要的制约因素。这些模型不是跑在单个芯片上,而是同时跑在数百个芯片上。看看 DeepSeek 的生产部署,已经有一年多了,他们运行在 160 个 GPU 上。他们就是用这么多 GPU 来处理生产流量的。他们把模型拆分到 160 个 GPU 上。每次你从一个芯片跨越到另一个芯片,都会有效率损失。你必须通过高速电信号 SerDes 传输,这会产生延迟成本和功耗成本。所有这些动态因素都会损害性能。随着你不断缩小工艺节点,单个芯片内的计算量增加了。现在芯片内部的数据移动速度至少是每秒几十 TB,如果不是几百 TB 的话。而芯片之间,速度大约是每秒 1 TB。然后,你需要在物理上非常接近的芯片之间移动数据。你只能把这么多芯片放在物理上靠近的地方,所以你必须把芯片放在不同的机架里。机架之间的数据移动速度是每秒几百 Gbps,400G 或 800G,也就是大约每秒 100 GB。所以你就有了这个巨大的阶梯:芯片内通信超快,机架内慢一个数量级,机架外又慢一个数量级。随着你突破芯片的界限,你就会遭受性能损失。我解释这个的原因是,当你比较 Hopper 和 Blackwell 时,即使两者都使用一机架的芯片,Hopper 也明显慢得多。在每个域内,你拥有的性能相对于任务而言——处理单元之间每秒几十 TB 的通信,对比这些处理单元之间每秒 TB 的通信——要高得多,因此性能也高得多。当你看 DeepSeek 和 Kimi K2.5 每秒 100 tokens 的推理时,Hopper 和 Blackwell 之间的性能差距大约是 20 倍。这不是 FLOPS 性能差异所暗示的 2 倍或 3 倍,即使它们在同一工艺节点上。这只是因为网络技术的差异以及他们所研究的东西不同。你可以把其中一些移植回去,但当你看他们在 3nm 上用 Rubin 做的事情时,有些东西根本不可能在 A100 上实现,即使你为 7nm 造一个新芯片。有些架构上的改进你可以移植,有些则不能。性能差距不仅仅是 FLOPS 的差异。在某种意义上,它是每芯片 FLOPS 差异、芯片间网络速度差异、单个芯片与整个系统的 FLOPS 比、单个芯片与整个系统的内存带宽之间的累积。所有这些因素叠加在一起。德瓦克什·帕特尔我能问一个非常天真的问题吗?现在的 B200 在一个芯片上有两个 die,所以你可以在不经过 NVLink 或 InfiniBand 的情况下获得那种带宽。明年,Rubin Ultra 将在一个芯片上有四个 die。是什么阻止我们直接用老旧的……一个芯片上可以放多少个 die,同时还能获得每秒几十 TB 的带宽?迪伦·帕特尔即使在 Blackwell 内部,在芯片内部通信和跨芯片通信之间也存在性能差异。这些界限显然比离开整个芯片要小得多。当你增加芯片数量时,会有一些性能损失。它不是完美的,但比不同的整个封装要好得多。先进封装能扩展到多大?英伟达做的方式是 CoWoS。谷歌、博通、联发科和亚马逊的 Trainium 都在做 CoWoS。但实际上,你可以回头看看特斯拉用 Dojo 做了什么,他们后来取消又重新启动了。Dojo 是一个有整个晶圆那么大的芯片。上面有 25 个芯片。有一些权衡。他们不能在上面放 HBM。但积极的一面是,他们有 25 个芯片在上面。到目前为止,它可能仍然是运行卷积神经网络最好的芯片。它只是在 transformer 上表现不佳,因为芯片的形状、内存、算术和所有这些规格都不太适合 transformer。它们更适合 CNN。Dojo 芯片就是围绕 CNN 优化的,他们做了一个更大的封装。但随着你让封装越来越大,会有其他限制:网络速度、内存带宽和冷却能力。所有这些都开始显现出来。这不简单。但是,是的,你会看到一个趋势,即每个封装上的芯片越来越多,而且是的,你可以在 7nm 上做到这一点。事实上,华为用他们的 Ascend 910C 或 D 就是这么做的。他们最初放一个,然后放两个。他们专注于扩大封装规模,因为这是一个他们可以在工艺技术无法缩小的情况下更快进步的领域。但归根结底,你在 7nm 上能做的事,在 3nm 的封装上也很可能能做到。01:05:37 – 亚洲何时能在半导体领域超越西方?德瓦克什·帕特尔如果我们最终在 2030 年处于这样一个世界:西方拥有最先进的工艺技术,但没有大规模提升产能,而亚洲……我不知道你是否认为到 2030 年他们会有 EUV 和 2 纳米或其他。但他们对半导体很执着,并且在大规模生产。基本上,我想知道在哪一年会出现一个交叉点,我们在工艺技术上的优势已经减弱到足够多,而他们在规模上的优势已经增加到足够大。还有,如果他们有整个供应链国产化的优势——而不是依赖于德国和荷兰的随机供应商——这是否意味着亚洲在生产大规模 flops 方面会领先?迪伦·帕特尔迄今为止,亚洲仍然没有完全国产化的半导体供应链。德瓦克什·帕特尔但他们 2030 年会有吗?迪伦·帕特尔到 2030 年,他们有可能做到。他们能从 ASML 进口的数量是很大的。但 ASML 收入的绝大部分,尤其是在 EUV 方面。规模优势仍然在西方加日本、韩国等这一边。德瓦克什·帕特尔但他们也在尝试制造自己的 DUV 和 EUV 工具,对吧?迪伦·帕特尔他们正在尝试做所有这些事情。问题是他们能以多快的速度取得进步并扩大生产规模,同时保证质量。迄今为止,我们还没看到。现在我非常看好他们在未来五到十年内能够做到这些事情。他们会真正扩大生产规模并高速运转。他们有更多的工程师在从事这项工作,有更大的意愿投入资金来解决这个问题。德瓦克什·帕特尔那么到 2030 年,他们会拥有完全国产化的 DUV 吗?迪伦·帕特尔我认为肯定。DUV,是的。德瓦克什·帕特尔到 2030 年,完全国产化的 EUV 呢?迪伦·帕特尔我认为他们会有能用的工具。但我认为他们还无法大量制造。能运行和生产是两码事,后者是量产的地狱。ASML 在 2010 年代初期就有能用的 EUV 工具了,但精度不够,也没有为大规模量产做好准备或不够可靠。他们必须逐步提高产量,这都需要时间。量产的地狱需要时间。这就是为什么从实验室能用到在晶圆厂大规模量产,又花了五到七年时间。德瓦克什·帕特尔你认为到 2030 年,他们能制造多少 DUV 工具?迪伦·帕特尔ASML?迪伦·帕特尔这是个好问题。要审视这个供应链,特别是亚洲,有点挑战性。我们非常努力。在某些情况下,他们从日本供应商那里购买东西。如果他们想要完全国产化的供应链,他们就不能从日本供应商那里购买这些透镜、投影光学器件或工件台。他们必须内部制造。真的很难说他们能达到什么水平。老实说,我认为这是瞎猜。但他们每年可能能生产大约 100 台 DUV 工具,而 ASML 目前每年生产数百台 DUV 工具。没有一家公司有一个每月生产一百万片晶圆的工艺节点。埃隆说他想要做到,亚洲一个大国显然也会努力做到。中国台积电也在尝试做到这一点。内存制造商也可能达到每月一百万片晶圆,但不是在单个晶圆厂内。想想这种规模是令人难以置信的,也很难看到供应链为此动员起来。迪伦·帕特尔当你把时间线推到那么远时,真的很有挑战性。我们倾向于关注的是跟踪每一个数据中心、每一个晶圆厂和所有的工具。我们追踪它们去向何方,但这些事情的滞后时间相对较短。我们只能基于土地购买、许可证和涡轮机采购,对数据中心容量做出相当准确的估计。我们知道这些东西的去向,这是我们销售的数据。当你进入 2035 年,情况会变得如此不同。你的误差范围会变得如此之大,以至于很难做出估计。但归根结底,如果起飞或时间线足够慢,我看不出中国为什么不能大幅赶上来。从某种意义上说,我们有一个低谷期,三到六个月前,甚至可能现在,中国模型和以前一样有竞争力。我认为 Opus 4.6 和 GPT 5.4 已经真正拉开了差距,让差距变大了一点,但我相信会有新的中国模型出现。当我们从销售完整的推理链 token,转向销售自动化白领工作——一个自动化软件工程师,你发送请求,他们返回结果,背后有一大堆你看不见的思考——从美国模型中提炼知识到中国模型会变得更难。第二,看看这些实验室拥有的算力规模。OpenAI 去年年底大约有 2 吉瓦。Anthropic 今年将达到 2 吉瓦以上。到明年年底,他们都将拥有 10 吉瓦的容量。再看看所有这些花在数据中心上的资本支出。亚马逊花 2000 亿美元,谷歌 1800 亿美元。所有这些公司都花数千亿美元在资本支出上。今年美国投入数据中心的资本支出接近一万亿美元,大致上。这里的投资资本回报率是多少?你我会认为数据中心资本支出的投资资本回报率非常高。看看 Anthropic 的收入,一月份增加了 40 亿美元。二月,一个较短的月份,他们增加了 60 亿美元。我们将看到他们在三月和四月能做什么,因为算力限制是他们增长的瓶颈。克劳德的可靠性相当低,因为他们太受算力限制了。但如果这种情况持续下去,那么这些数据中心的 ROIC 就非常高。在某个时候,由于所有这些资本支出,这些模型产生的所有收入,以及下游供应链,美国经济今年和明年将开始越来越快地增长。看看 Anthropic,他们现在的 ARR 是 200 亿美元。至少据《The Information》上次报道,利润率低于 50%。所以那是 130 或 140 亿美元的租赁成本,实际上相当于有人为 Anthropic 投入了 500 亿美元的资本支出来产生他们当前的收入。所以从某种意义上说,我们正处于快速起飞阶段。我们不是在谈论某个日期之前建造戴森球,而是收入正以如此速度增长,以至于它确实影响了经济增长。这些实验室聚集的资源增长如此之快。另一方面,这些基础设施投资的回报可能是平庸的。也许不像希望的那样好。也许谷歌想把自由现金流降到零,明年花 3000 亿资本支出,是错的。也许他们就是错了,华尔街那些看空者和不懂 AI 的人是对的。在这种情况下,美国建了这么多产能,但没有获得很好的回报。与此同时,中国能够建立一个完全垂直整合、国产化的供应链,而不是像美国/日本/韩国/东南亚/欧洲各国那样一起建立这个垂直整合度较低的供应链。从某种意义上说,如果 AI 达到某些能力水平所需的时间比你这个播客的绝大多数嘉宾所相信的要长,那么中国最终有可能超越我们。德瓦克什·帕特尔所以是:时间线短,美国赢;时间线长,中国赢。迪伦·帕特尔是的,但我不知道"短时间线"是什么意思。我不认为你必须相信 AGI 才能拥有美国获胜的时间线。01:16:01 – 即将到来的巨大内存危机德瓦克什·帕特尔让我们回到内存话题。我认为华尔街和行业内的人们正在理解这有多重要,但也许一般人还不明白这是多么大的一笔交易。所以我们正面临这场内存危机,正如你所说。早些时候我问过,哦,我们能否通过回到 7 纳米来解决 EUV 工具短缺的问题?那么让我问一个关于内存的类似问题。HBM 是由 DRAM 制成的,但每片晶圆的比特数比它所使用的 DRAM 少三到四倍。未来的加速器有没有可能直接使用普通的 DRAM 而不是 HBM,这样我们就可以从现有的 DRAM 中获得更多的容量?我之所以认为这可能,是因为如果我们要有能够自主工作的智能体,而不是同步的聊天机器人应用,那么你可能不一定需要极快的延迟。也许你可以接受较低的带宽,因为将 DRAM 堆叠成 HBM 就是为了更高的带宽。我们是否可能走向 HBM 加速器的反面,基本上就像"克劳德代码快"的反面,搞个"克劳德慢"?迪伦·帕特尔归根结底,愿意为 tokens 支付最高价格的增量买家,也是对价格不那么敏感的买家。在一个资本主义社会里,计算资源应该被分配给具有最高价值的商品,而私人市场通过支付意愿来决定。在某种程度上,Anthropic 实际上可以发布一个慢速模式。他们可以发布"克劳德慢速模式",将每美元的 tokens 数量大幅提高。他们可能能把 Opus 4.6 的价格降低 4-5 倍,而速度可能只降低 2 倍。基于 HBM 的推理吞吐量与速度的曲线已经存在了。然而他们不这么做,因为实际上没人想用慢速模型。此外,在这些代理任务上,模型能以小时级别的时间运行固然很好。但如果模型运行得慢,那些小时就会变成一天。反过来,如果模型运行得快,那些小时就变成一个小时。没人真的想等上一天,因为最高价值的任务也有一定的时间敏感性。我很难想象……是的,你可以用普通的 DRAM。但这有几个挑战。芯片的一个核心限制是,芯片有一定尺寸,所有的输入/输出(I/O)都在边缘引出。通常,芯片左右两侧是 HBM——所以从芯片到 HBM 的 I/O 在侧面——然后顶部和底部是到其他芯片的 I/O。如果你从 HBM 换成 DDR,突然间,边缘的 I/O 带宽会显著降低,但每个芯片的容量会显著增加。但你真正关心的指标是每片晶圆的带宽,而不是每片晶圆的比特数。德瓦克什·帕特尔因为限制 FLOPS 的就是进出下一个矩阵的速度,为此你只需要更多的带宽。迪伦·帕特尔是的,读取权重,以及读写 KV 缓存。在很多情况下,这些 GPU 并没有跑满内存容量。这显然是一个系统设计问题:模型、硬件和软件协同设计。你必须计算出需要多少 KV 缓存,多少留在芯片上,多少卸载到其他芯片并在需要时调用(用于工具调用),以及并行使用多少芯片。显然,这个搜索空间非常广阔,这就是为什么我们有 InferenceX,一个开源的模型,可以搜索不同芯片和模型在各种推理任务上的最优配置点。关键是,你并不总是受内存容量限制。你可能受限于 FLOPS、网络带宽、内存带宽或内存容量。如果你简化一下,就是这四种约束,每个还可以细分。如果你改用 DDR,是的,每片 DRAM 晶圆能产生 4 倍的比特数,但突然间约束条件发生了很大变化,你的系统设计也要改变。你变慢了。市场可能变小了?但同时,所有这些 FLOPS 都被浪费了,因为它们只能干等着内存。你不需要那么大容量,因为你无法真正增加批处理大小,否则读取 KV 缓存的时间会更长。德瓦克什·帕特尔有道理。HBM 和普通 DRAM 之间的带宽差异是多少?迪伦·帕特尔一个 HBM4 堆栈——让我们谈谈 Rubin 里面的东西,因为我们一直在拿它做基准——有 2048 位宽,连接在一个 13 毫米宽的区域上。它的内存传输速度大约为每秒 10 Giga-transfers。所以一个 HBM4 堆栈,在芯片上占据的 shoreline 大约是 11 到 13 毫米宽。在这段 shoreline 上,有 2048 位以每秒 10 Giga-transfers 的速度传输。把它们乘起来,除以 8(位到字节),你大约得到每个 HBM 堆栈每秒 2.5 TB 的带宽。当你看看 DDR,在同样面积的 shoreline 上,它可能是 64 或 128 位宽。那个 DDR5 的传输速度在每秒 6.4 到 8,000 Giga-transfers 之间。所以你的带宽要低得多。64 乘以 8000 除以 8,得到每秒 64 GB。即使你采用宽松的估计,128 乘以 8 Giga-transfers,对于同样的 shoreline,你也只有每秒 128 GB,而 HBM 是 2.5 TB。每单位边缘面积的带宽有一个数量级的差异。如果你的芯片是方形的,或者尺寸是 26x33 毫米——这是单个 die 的最大尺寸——你只有这么多边缘面积。在芯片内部,你放上所有的计算单元。你可以尝试通过增加 SRAM 或缓存来改变这一点。但归根结底,你会受到带宽的极大限制。德瓦克什·帕特尔那么问题就在于,你能在哪些地方摧毁需求,从而为 AI 释放足够的资源?我想情况尤其糟糕,因为如你所说,如果 HBM 需要 4 倍的晶圆面积才能获得同样的字节数,那么为了给 AI 释放一个字节,你必须摧毁四倍的来自笔记本电脑和手机的消费需求。这对未来一两年意味着什么?抱歉问题有点长,在你的新闻通讯中,你说 2026 年大型科技公司 30% 的资本支出将用于内存?迪伦·帕特尔是的。德瓦克什·帕特尔这太疯狂了,对吧?在 6000 亿美元或其他数字中,30% 仅仅用于内存。迪伦·帕特尔是的。显然,英伟达会加一些利润,所以你必须把英伟达的利润从内存和逻辑中分离出来。但归根结底,他们资本支出的三分之一将用于内存。德瓦克什·帕特尔这太疯狂了。随着内存危机的到来,我们在未来一两年应该期待什么?迪伦·帕特尔内存危机会继续加剧,价格会继续上涨。这会以不同方式影响市场的不同部分。人们会不会越来越讨厌 AI?是的,因为智能手机和 PC 不会逐年变得更好。事实上,它们会逐年变得更差。德瓦克什·帕特尔如果你看一部 iPhone 的物料清单,内存占多少比例?如果内存价格翻倍,iPhone 会贵多少?迪伦·帕特尔我相信一部 iPhone 有 12GB 内存。过去每 GB 大约 3-4 美元,那就是 50 美元。但现在内存价格已经涨了三倍。假设是每 GB 12 美元。那么你就在谈论 150 美元对比 50 美元。这对苹果来说是 100 美元的成本增加。苹果有一定利润,他们不会仅仅吃掉这个利润。NAND 也有同样的市场动态,所以实际上,iPhone 的成本可能会增加 150 美元。所以这是 100 美元的成本增加,而这仅仅是 DRAM。NAND 也有同样的市场情况。所以事实上,iPhone 的成本可能会增加 150 美元。苹果要么把这转嫁给消费者,要么自己吃掉。我不认为苹果会大幅降低自己的利润率,也许他们会消化一点。但归根结底,这意味着最终消费者要多付 250 美元买一部 iPhone。这只是基于去年的价格和今天的价格对比。苹果感受到压力会有一些延迟,因为他们倾向于签几个季度到一年的内存长期合同。但归根结底,苹果会受到很大冲击。他们要等到下一代 iPhone 发布才会调整。但那是市场的高端,每年只有几亿部手机。苹果每年卖出 2 到 3 亿部手机。市场的大头是中低端。以前每年售出 14 亿部智能手机。现在大约是 11 亿部。我们的预测是,今年可能会降到 8 亿部,明年降到 5 或 6 亿部。是的,对于 1000 美元的 iPhone,物料清单只增加了 150 美元,而苹果利润空间较大。但对于更便宜的手机,内存和存储占物料清单的百分比要大得多。而且利润率更低,所以甚至没有多少能力消化利润率。而且他们通常也不签内存的长期协议。这之所以是件大事,是因为如果智能手机销量减半,这种下降将发生在中低端,而不是高端。所以并不是说释放出来的比特数减半了。目前,消费设备占内存需求的一半以上。即使你让智能手机销量减半,由于下降的形状,低端被削减得超过一半,而高端被削减得少一些,因为你我还是会买那些售价超过 1000 美元的高端手机。即使它们稍微贵一点,我们也会买。苹果的销量不会像低端智能手机供应商那样下降得那么多。PC 也是如此。这对市场的影响是相当大的。DRAM 被释放出来,流向愿意签长期合同、支付更高利润率的 AI 芯片,因为归根结底他们从最终用户那里榨取的利润要大得多。这可能会导致人们更加讨厌 AI。今天,你已经能看到 PC subreddits 和游戏 PC Twitter 上所有的 meme。有猫跳舞的视频,标题是"这就是为什么内存价格翻倍,你买不到新的游戏 GPU 或台式机的原因"。当内存价格再次翻倍,尤其是 DRAM 时,情况会更糟。另一个有趣的动态是,不仅仅是 DRAM,NAND 也是。NAND 的价格也在上涨。这两个市场在过去几年里产能扩张都非常缓慢,NAND 几乎为零。用于手机和 PC 的 NAND 比例高于用于手机和 PC 的 DRAM 比例。当你摧毁需求时,主要是为了 DRAM 目的,你释放了更多的 NAND,这些 NAND 可以被分配到其他市场。DRAM 的价格涨幅将超过 NAND,因为你从消费端释放了更多资源,而且实际上,你为 AI 生产了更多的内存。德瓦克什·帕特尔抱歉,可能你刚解释过而我漏掉了。是因为数据中心大量使用 SSD 吗?迪伦·帕特尔是的,但用量没有 DRAM 那么大。德瓦克什·帕特尔好的,所以它们的价格也会上涨,因为会用到一些,但对 HBM 的需求没有那么迫切。有道理。有一点我在读你的新闻通讯之前没有意识到,那就是未来几年限制逻辑扩展的制约因素与限制我们生产更多内存晶圆的因素非常相似。事实上,正是同一台机器,EUV 工具,也是内存生产所需的。所以我想现在有人可能会问,为什么我们不能生产更多的内存?迪伦·帕特尔正如我之前提到的,制约因素在今天或明年并不一定是 EUV 工具。它们会在本十年后期成为制约因素。目前,制约因素更多是他们根本没有建晶圆厂。在过去三四年里,这些内存制造商没有建新晶圆厂,因为内存价格非常低。他们的利润率很低,事实上,他们在 2023 年在内存上是亏损的。所以他们决定不建新晶圆厂。市场随着时间的推移缓慢复苏,但直到去年才真正好起来。在 2024 年,我们一直在敲鼓,说推理意味着长上下文,长上下文意味着大的 KV 缓存,这意味着你需要大量的内存需求。我们已经谈论这个一年半、两年了。懂 AI 的人当时就大量买入内存。所以你已经看到了那个动态,但现在它终于体现在价格上了。这花了很长时间,尽管长上下文意味着 KV 缓存变大,需要更多内存,这是显而易见的。加速器的一半成本是内存。他们当然会开始疯狂投入。花了整整一年时间才真正反映在内存价格上。一旦内存价格反映了这一点,内存制造商又花了三到六个月才开始建晶圆厂。这些晶圆厂需要两年时间才能建成。所以我们直到 2027 年底或 2028 年才会有真正像样的晶圆厂来放置这些工具。相反,你看到了一些相当疯狂的事情来获取产能。美光从一家台湾公司买下了一个生产落后芯片的晶圆厂。海力士和三星正在做一些相当疯狂的事情,试图在现有晶圆厂扩大产能,这也会在经济中产生巨大的连锁反应。那么为什么我们不能建更多产能?没有地方放工具。不仅仅是 EUV,DRAM 和逻辑制造中还有其他工具。在逻辑上,对于 N3,最终晶圆成本的约 28% 是 EUV。当你看到 DRAM,它在百分之十几。它在上升,但它占成本的比例要小得多。这些其他工具也是瓶颈,尽管它们的供应链没有 ASML 那么复杂。你会看到应用材料、泛林研究和所有其他公司也在大力扩张产能。但你没有地方放工具,因为人类建造的最复杂的建筑就是晶圆厂,而晶圆厂需要两年才能建成。德瓦克什·帕特尔我最近采访了埃隆,他的整个计划是他们要建造这个 TeraFab,他们要建造洁净室。我甚至不会问你关于脏房间的事,但假设他们建了洁净室。我有几个问题。一,你认为这是埃隆公司能以比传统方式快得多的速度建造的东西吗?这不是制造最终的工具。这只是建造设施本身。以极快的速度建造洁净室有多复杂?这是否是埃隆和他的"快速行动"方法能做得快得多的事情,如果这是今年或明年的瓶颈?二,如果如你所说,两年后我们瓶颈不再是洁净室空间,而是工具,那这还重要吗?迪伦·帕特尔与任何复杂的供应链一样,这需要时间,制约因素会随着时间推移而变化。即使某样东西不再是制约因素,也不意味着那个市场不再有利润。例如,几年后能源不会成为大瓶颈,但这并不意味着能源不会快速增长,没有利润空间。只是它不是关键瓶颈了。在晶圆厂领域,洁净室是今年和明年最大的瓶颈。随着我们进入 2028、2029、2030 年,那里仍然会有制约因素。关于埃隆,他有巨大的能力来获取物理资源和非常聪明的人来建造东西。他招募优秀人才的方式是试图建造最疯狂的东西。在 AI 的情况下,这并没有真正奏效,因为每个人都在试图建造 AGI。每个人都非常有雄心。但在去火星、制造可自行着陆的火箭、全自动驾驶汽车或人形机器人的情况下,这些都是招募那些认为这是世界上最重要问题的人来研究这个问题的方法,因为他是唯一真正努力的人。在半导体领域,他表示要建造一个月产一百万片晶圆的晶圆厂。没有一家晶圆厂有这么大。他有可能招募到很多非常棒的人,让他们投入到这个疯狂的任务中,即每月建造一百万片晶圆。第一步是建造洁净室,我认为他很可能能做到。他关于删除不必要的东西、可以脏一点也没事的想法,可能是不对的。实际上我认为 100% 不对。晶圆厂需要非常干净。晶圆厂里的空气每三秒就更换一次,这么快。必须只有极少的颗粒物。但我认为他能建造洁净室。需要一两年时间。起初不会超快,但随着时间的推移,他会做得更快。真正复杂的部分是开发工艺技术并制造晶圆。我不认为他能很快做到这一点。这需要大量的知识积累。最复杂的、整合了非常昂贵的工具和供应链的工作是由台积电、英特尔或三星完成的。另外两家公司甚至都不擅长这个,而且这已经极其复杂了。德瓦克什·帕特尔如果在 2030 年,碰巧出现了一种颠覆性的技术,我们不再使用 EUV,你会感到多惊讶?如果我们使用的东西效果更好,生产起来更简单,而且可以更大规模地生产?我确信作为业内人士,这听起来像个完全天真的问题,但你明白我在问什么吗?我们应该给某种完全出乎意料、让所有这些变得无关紧要的事物出现分配多大的概率?迪伦·帕特尔对于非常简单且易于扩展的东西,我分配的概率非常、非常低。有相当多的公司正在研究有效的粒子加速器或同步加速器,它们产生的光要么是 13.5 纳米(如 EUV),要么是更窄的波长,如 7 纳米的 X 射线,然后用于光刻工具。但这些东西是巨大的粒子加速器,产生这种光。建造它非常复杂。有几家公司在做这个,我认为这可能成为 EUV 之外的行业大颠覆。但我不认为我们会神奇地建造出新的、直接写入的、超级简单、可以大规模制造的东西,尽管有一些尝试在做这类事情。德瓦克什·帕特尔我问是因为如果你想想埃隆过去的公司,火箭技术曾经是——现在也是——被认为极其复杂的东西。迪伦·帕特尔听着,与埃隆相比,我只是个天真的碎嘴子。我造过什么?所以也许是有可能的。德瓦克什·帕特尔为了将来制造更多内存,我们能否像做 3D NAND 那样做 3D DRAM,然后回到 DUV?迪伦·帕特尔这是目前的希望。每个人对 3D DRAM 的路线图都是,你仍将使用 EUV,因为你想要更紧密的套刻精度。当你做这些后续的处理步骤时,所有东西都垂直堆叠,你有更多层堆叠在一起。你希望间距更紧密。所以总的来说,人们仍然试图用 EUV 来做。但 3D 所做的是改变单次 EUV 处理能产生的比特数的计算。如果你转向 3D DRAM,这个数字会急剧上升。这是希望所在。目前,每个人的路线图都是从当前的 6F 单元,到 4F 单元,最后到本十年末或下个十年初的 3D DRAM。仍然有很多研发、制造和集成工作要做。我不会说这不可能。我认为它非常可能会发生。这也将需要对晶圆厂进行大规模重组。晶圆厂中的工具构成将非常不同。光刻工具实际上是唯一没有太大不同的东西。但它们的数量,相对于不同类型的化学气相沉积、原子层沉积、干法蚀刻,或者具有不同化学性质的各类蚀刻腔……对于不同的工艺节点,你有所有这些不同的工具。你不能在短时间内把逻辑晶圆厂改成 DRAM 晶圆厂,反之亦然,或者把 NAND 晶圆厂改成 DRAM 晶圆厂。同样,现有的 DRAM 晶圆厂需要大量重组,仅仅是为了从 1-alpha 到 1-beta 到 1-gamma 工艺节点,因为他们必须增加 DUV,并在使用 EUV 时改变沉积和蚀刻的化学材料堆栈。而且必须有 EUV 工具。此外,当你转向 3D DRAM 时,还会有更大的转变,所以这些晶圆厂需要进行大量的重组。那将是一个巨大的颠覆。那将普遍降低对 EUV 的需求。但正如我们长期以来所见,光刻需求占晶圆成本的比例一直在上升。大约在 2014 年,它占晶圆成本的 17%,而在过去的十五年里,它已经上升到 30%。对于 DRAM,它处于低到中百分之十几,现在趋向于高百分之十几。在我们达到 3D DRAM 之前,它可能会跨过 20% 的区间。但然后,如果我们达到 3D DRAM,最终的晶圆成本中 EUV 的比例会再次下降。德瓦克什·帕特尔我想你更关心的是它如何制约生产,而不是成本百分比。迪伦·帕特尔对,但成本百分比——德瓦克什·帕特尔它是一个代理指标,是的。如果你是黄仁勳或 Sam Altman,或者其他能从 AI 算力扩展中大大受益的人,他们可能会去找台积电说,"为什么我们不能得到 Y 和 Z?" 但我认为你的观点是,从某种意义上说,台积电做什么并不重要。事实上,即使英特尔和三星建造更多的晶圆厂,从长远来看,你还是会被 ASML 和其他工具及材料制造商卡住。首先,这个理解对吗?其次,硅谷的人现在是否应该去荷兰,试图说服 ASML 制造更多的工具,以便在 2030 年获得更多的 AI 算力?迪伦·帕特尔我们在 2023、2024 和 2025 年看到了一个有趣的动态。那些比其他人更早看到能源瓶颈的人,不对称地去找了西门子、三菱,当然还有 GE Vernova,买断了涡轮机产能。现在他们可以因为能源问题,以高价部署这些涡轮机。同样,这也可能发生在 EUV 上,只是 ASML 不会轻易相信任何想买 EUV 工具的随机笨蛋。这些涡轮机比 EUV 工具便宜得多,而且生产数量也多得多。特别是当你进入工业燃气轮机,不仅仅是联合循环,还有更便宜、更小、效率较低的型号,人们会为它们付定金。有人可以这样做。有人应该去荷兰,说:"我给你十亿美元。你给我两年后购买十台 EUV 工具的权利,而且我要排在第一个。" 然后在接下来的两年里,你到处走动,等着大家意识到,"哦,糟糕,我没有足够的 EUV 工具," 然后你试图以一定的溢价出售你的期权。你所做的无非是说:"ASML,你们真笨。你们在这些工具上没赚够利润。我要赚这个利润。" 问题是,ASML 会同意吗?我不这么认为。德瓦克什·帕特尔有一种可能性是,他们至少可以从中得到需求信号,从而增加产量。迪伦·帕特尔有可能。我同意。德瓦克什·帕特尔但听起来你是说,即使他们想增加产量,考虑到供应链,他们也做不到。迪伦·帕特尔对。但这正是市场所在……如果他们无法增加产量,就像台积电无法那么快增加产量一样,而需求却在飙升,那么显而易见的解决方案就是套利。你我知道需求远高于他们预测的和他们能建造的能力。你可以通过锁定产能、做远期合约,然后等其他人意识到一切都完蛋了、我们没有足够产能时再试图高价卖出,来套利。然后你就会获得 ASML 和台积电本应收取的超高利润。但问题是,我不知道 ASML 和台积电是否会同意这样做。01:42:34 – 在美国扩展电力供应不会成为问题德瓦克什·帕特尔现在让我问你关于电力的问题。听起来你认为电力可以任意扩展。迪伦·帕特尔不是任意,但可以。德瓦克什·帕特尔但可以超出这些数字。如果我记得没错,你的博文关于 AI 实验室如何增加电力供应的观点暗示,GE Vernova、三菱和西门子每年能生产 60 吉瓦的燃气轮机。然后还有其他来源,但它们不如涡轮机重要。其中只有一部分会用于 AI,我猜。如果到 2030 年我们有足够的逻辑和内存来每年做 200 吉瓦,你是否认为这些东西会以某种方式增加到每年超过 200 吉瓦,或者你有什么看法?迪伦·帕特尔现在我们处于 20 或 30。顺便说一句,这是关键的 IT 容量,这是需要提到的重要一点。当我谈论这些吉瓦时,我指的是关键的 IT 容量。即服务器插电后消耗的功率。但整个链条上有损耗。传输、转换、冷却等都有损耗。所以你应该将今年的 20 吉瓦,或本十年末的 200 吉瓦,乘以一个 20-30% 的系数,得到实际需要的总电力。然后还有容量因子。涡轮机不是 100% 时间运行。如果你看看 PJM,我认为它是美国最大的电网——覆盖中西部和部分东北地区——在他们模型中,他们希望有大约 20% 的过剩容量。在这 20% 的过剩容量中,所有涡轮机以 90% 的容量运行,因为出于可靠性、维护等原因,它们会降额使用。实际上,能源的铭牌容量总是远高于最终的 IT 关键容量,因为所有这些因素。但这不仅仅是涡轮机。如果你仅仅用涡轮机发电,那很简单、无聊且容易。人类和资本主义要有效得多。那篇博文的全部要点是,是的,只有三家公司制造联合循环燃气轮机,但我们能做的还有很多。我们可以用航改机。我们可以把飞机发动机变成涡轮机。甚至市场有新进入者,比如 Boom Supersonic 试图这样做,并与 Crusoe 合作。还有市场上已有的其他类似产品。还有中速往复式发动机:像柴油发动机那样旋转的发动机。有十家公司这样制造发动机。我来自乔治亚州,人们过去常说,"哦,伙计,你那 RAM 卡车里装的是康明斯发动机。" 汽车制造业正在下滑,所以这些公司都有产能,可以调整用于数据中心供电。你可以把所有这些往复式发动机放进去。它不像联合循环那么干净,但如果你愿意,可以把它们从柴油改成燃气。船用发动机呢?所有这些用于大型货船的发动机都很棒。Nebius 正在为新泽西的一个微软数据中心做这个。他们用船用发动机发电。Bloom Energy 在做燃料电池。一年半以来,我们一直非常看好他们,因为他们提高产量的能力非常强。即使成本比联合循环(在成本和效率上是最好的)略高,他们增加产量的投资回收期也非常快。还有太阳能加电池,随着成本曲线继续下降,它们可以上线。还有风能,你可能只能达到最大功率的 15%,因为风在波动,但你可以加电池。有所有这些选择。另一件事是,电网的规模是为了在最热的夏日高峰不切断电源。但实际上,那是一个比平均水平高 10-20% 的负荷峰值。如果你只安装足够多的公用事业级电池,或者只在一年中一小部分时间运行的调峰电厂——那些可以是燃气、工业燃气轮机、联合循环、电池或我提到的任何其他来源——那么突然间,你就为数据中心释放了美国电网 20% 的容量。大部分时间,这些容量是闲置的。它只是为了一年那几天的几个小时的峰值。如果你有足够的容量来吸收那个峰值负荷,那么突然间你就把它全部转移了。今天,数据中心只占美国电网电力的 3-4%,到 2028 年将达到 10%。但如果你能这样释放美国电网 20% 的容量,那并非疯狂。美国电网是太瓦级的,而不是几百吉瓦级的。所以我们可以增加更多的能源。我不是说这很容易。这些事情会很难。有很多艰难的工程问题,人们必须承担风险,必须使用新技术。但埃隆是第一个做这种自备燃气发电的,从那时起,我们看到人们为了获得电力而做的各种事情激增。它们不容易,但人们会能够做到。供应链比芯片简单多了。德瓦克什·帕特尔有趣。他在采访中提到,对于他正在看的特定涡轮机的特定叶片,交货时间已经排到了 2030 年以后。你的观点是——迪伦·帕特尔那很好。还有很多其他方法可以产生能源。就效率低点,没关系。德瓦克什·帕特尔目前,联合循环燃气轮机的资本支出是每千瓦 1500 美元。你是说使用比这贵得多的技术,或者其他东西变得足够便宜,从而使其具有竞争力,是合理的?迪伦·帕特尔完全正确。可能高达每千瓦 3500 美元。可能是联合循环成本的两倍,而 GPU 的 TCO 只增加了每小时几美分。因为我们一直在谈论 Hopper 定价 1.40 美元,假设电价翻倍。那 Hopper 的成本从 1.40 美元变成了 1.50 美元。我不在乎,因为模型改进得如此之快,它们的边际效用远大于那 10 美分的能源成本增加。德瓦克什·帕特尔所以你是说电网的 20%——电网大约是 1 太瓦——可以通过公用事业级电池、提高你愿意放在电网上的容量等方式上线。迪伦·帕特尔那里的监管机制不容易,顺便说一句。德瓦克什·帕特尔但如果这假设发生,那就是 200 吉瓦。仅从你提到的不同天然气发电来源——各种发动机和涡轮机——加起来,到本十年末,它们总共能释放多少吉瓦?迪伦·帕特尔我们正在我们的数据中跟踪这个。仅天然气发电设备就有超过 16 家不同的制造商。是的,只有三家制造联合循环涡轮机,但我们正在跟踪 16 家不同的供应商,我们有他们所有的订单。事实证明,有数百吉瓦的订单流向各种数据中心。随着我们进入本十年末,我们认为新增容量中大约有一半将是自备电厂。自备电厂几乎总是比并网贵,但并网有很多问题:许可证、互联排队等等。所以尽管它更贵,人们还是选择自备。他们自备的方式多种多样。可能是往复式发动机、船用发动机、航改机。可能是联合循环,尽管联合循环不太适合自备。可能是 Bloom Energy 的燃料电池,或者太阳能加电池。可能是任何这些。德瓦克什·帕特尔而你说这些中的任何一个都能单独做几十吉瓦?迪伦·帕特尔这些中的任何一个单独都能做几十吉瓦,而作为一个整体,它们能做几百吉瓦。德瓦克什·帕特尔好的。所以仅这一点就应该足以——迪伦·帕特尔电工的工资可能会再次翻倍或三倍。会有很多人进入这个领域,很多人赚钱,但我不认为这是主要瓶颈。德瓦克什·帕特尔现在在阿比林,Crusoe 正在为 OpenAI 建造的 1.2 吉瓦数据中心,我想他们有 5000 人在那里工作,或者高峰时期有。如果你把它变成 100 吉瓦——而且我确信随着时间的推移事情会变得更高效——那将需要 40 万人来建造 100 吉瓦。如果你想想美国的劳动力,有多少电工,有多少建筑工人……我想有 80 万电工。我不知道他们是否都能以这种方式替代。有数百万建筑工人。但如果我们在一个每年增加 200 吉瓦的世界里,我们最终会受到劳动力的限制吗?或者你认为这实际上不是一个真正的制约因素?迪伦·帕特尔劳动力是一个很大的制约因素。这是一个巨大的制约因素。人们必须接受培训。同样,我们可能会开始进口高技能劳动力。一个在欧洲参与拆除发电厂的高技能电工现在来美国,建造将高压电输送到数据中心的设施,这是合理的。人形机器人或至少机器人技术可能会开始有所帮助,但减少人数的主要因素将是模块化,并在亚洲的工厂里制造。不幸的是,对美国来说,像韩国、东南亚,将越来越多地运送预制的数据中心模块。这些将被运进来。现在,你通常运进服务器或一个机架,然后把它连接到从不同地方运来的不同部件上。但现在,你会把它运到一个工厂,把整个东西集成起来。也许这是一个 2 兆瓦的模块,这个模块从高压交流电转换为你输送给机架的直流电压,或者类似的东西。或者对于冷却,你运进一个完全集成的单元,里面已经组装好了很多冷却子系统,因为管道工也是一个很大的制约因素。此外,代替单个机架(需要人们用电缆连接所有这些机架),你可以用一个滑橇,把整排服务器放在上面,直接从工厂运来。今天,一个机架可能是 120 或 140 千瓦,但随着我们进入下一代英伟达 Kyber 之类的东西,它几乎是 1 兆瓦。此外,如果你做一整排,它将包含机架、网络、冷却和电源,全部集成在一起。现在当你进场时,你需要铺设的电缆就少得多。网络光纤更少,电源连接更少,管道连接更少。这可以大幅减少数据中心工作的人数,因此我们建造它们的能力会大得多。在此过程中,有些人会更快地转向新事物,有些人会更慢。Crusoe 和谷歌一直在谈论这种模块化,Meta 和其他许多公司也是。那些更快转向新事物的人可能会遇到延迟,而较慢的人会遇到劳动力问题。市场中总会存在错位,因为这是一个非常复杂的供应链。归根结底,它仍然足够简单,我们将能够通过资本主义和人类的聪明才智,在所需的时间尺度内解决它。01:54:44 –本十年内太空 GPU 不太可能实现德瓦克什·帕特尔说到要解决的重大问题,埃隆·马斯克非常看好太空 GPU。如果你是对的,地球上的电力不是问题……我想他们还有其他理由认为这是有意义的,即使地球上会有足够的燃气轮机或其他东西,埃隆的下一个论点是,你无法在地球上获得建造数百吉瓦的许可。你接受这个论点吗?迪伦·帕特尔从土地来看,美国很大。数据中心实际上并不占用那么多空间,所以你可以解决这个问题。从许可来看,空气污染许可证是一个挑战,但特朗普政府让它变得容易多了。你去德克萨斯州,可以跳过很多这样的繁文缛节。埃隆在孟菲斯不得不处理很多这种复杂的事情,然后为 Colossus 1 和 2 在边界对面建了一个发电厂。但归根结底,在德克萨斯州中部,你能侥幸逃脱的事情要多得多。德瓦克什·帕特尔鉴于埃隆住在德克萨斯州,他为什么不去德克萨斯州?迪伦·帕特尔我认为部分原因是他们在某个时间段过度依赖了电网供电。那只是他们当时认为需要更多的东西。德瓦克什·帕特尔因为那里有一个与电网相连的铝精炼厂。迪伦·帕特尔它实际上是一个闲置的家电工厂。但我认为他们可能更看重电网供电、水资源和天然气资源。我认为他们买下那个地方时知道天然气管道就在那里,他们打算接入。水资源也是。有一堆不同的限制因素。这可能也是一个更容易找到电工的地方。归根结底,我不确切知道他们为什么选择那个地点。我打赌,如果埃隆能重新选择,考虑到他面临的监管挑战,他会选择德克萨斯州的某个地方。最终,许可是一个挑战,但美国有 50 个州,地方很大,事情总能办成。有很多小辖区,你可以把所有需要的工人暂时运进去三到十二个月,取决于合同。你可以把他们安置在临时住房里,支付高额工资,因为与 GPU、网络以及最终将产生的 tokens 的价值相比,劳动力非常便宜。所以有足够的空间来支付所有这些。此外,人们现在也在多元化。澳大利亚、马来西亚、印度尼西亚和印度,都是数据中心建设速度更快的地方。但目前,超过 70% 的 AI 数据中心仍然在美国,而且这一趋势还在继续。人们正在弄清楚如何建造这些东西。最终,在德克萨斯州、怀俄明州或新墨西哥州的偏僻地区处理许可和繁文缛节,可能比把东西送上太空要容易得多。德瓦克什·帕特尔除了考虑到能源只占数据中心总拥有成本的一小部分,使得太空数据中心的经济论点不那么有力之外,你持怀疑态度的其他原因是什么?迪伦·帕特尔显然,太空中的电力基本上是免费的。德瓦克什·帕特尔这就是这么做的原因。迪伦·帕特尔是的,这就是原因。但还有其他所有反对的理由。即使地球上的电力成本翻倍,它仍然是 GPU 总成本的一小部分。主要的挑战是……我们有 ClusterMAX,它对所有新云公司进行评级。我们测试了包括超大规模云服务商和新云公司在内的 40 多家云公司。除了软件之外,这些云服务商最大的区别在于他们部署和管理故障的能力。GPU 的可靠性非常差。即使在今天,大约 15% 的已部署 Blackwell 需要退货(RMA)。你必须把它们取出来。有时你只需要重新插拔,但有时你必须把它们拿出来,运回英伟达或他们的 RMA 合作伙伴那里。德瓦克什·帕特尔你怎么看埃隆的论点,即经过初始阶段后,它们实际上不会故障那么多?迪伦·帕特尔当然,但现在你已经做了这些,测试了它们全部,拆解,装上宇宙飞船,发射到太空,然后再把它们上线。这需要几个月。如果你的论点是 GPU 有五年使用寿命,而这需要额外六个月,那相当于你集群使用寿命的 10%。因为我们如此受算力限制,这些算力在头六个月理论上是最有价值的。我们现在比将来更受限制。这些算力可以有助于将来构建更好的模型,或者今天产生收入,让你筹集更多资金。所有这些使得现在是最重要的时刻,但你却可能将算力部署延迟了六个月。区分这些云服务商的是……我们看到有些云服务商在地球上部署 GPU 就需要六个月。我们看到有些云服务商需要的时间远少于六个月。所以问题是,太空部署能排在哪?我看不出你怎么可能在地球上测试它们全部,拆解,然后运到太空,而不比把它们留在测试设施里花费长得多的时间。德瓦克什·帕特尔我想问的问题是关于太空通信的拓扑结构。现在,星链卫星之间以 100 Gbps 的速度通信。你可以想象,通过为此优化的光学星间激光链路,这个速度可以高得多。这实际上非常接近 InfiniBand 的带宽,后者是 400 GB/秒。迪伦·帕特尔但那是每个 GPU,而不是每个机架。所以那要乘以 72。另外,那是 Hopper。当你到 Blackwell 和 Rubin,这个数字会翻倍再翻倍。德瓦克什·帕特尔但在推理过程中,有多少计算是……不同的 scale-up 域之间仍在协同工作,还是推理只是在一个单一的 scale-up 域内作为一批进行?迪伦·帕特尔很多模型可以放在一个 scale-up 域内,但很多时候你会把它们拆分到多个 scale-up 域上。随着模型变得越来越稀疏(这是普遍趋势),你希望每个 GPU 只查询几个专家。如果今天的领先模型有数百个,甚至上千个专家,那么你可能希望在数百或数千个芯片上运行这个模型,即使我们进入未来也是如此。所以最终你会遇到需要将所有这些卫星连接起来进行通信的问题。德瓦克什·帕特尔那会很难。如果有一个世界,你可以在一个单一的 scale-up 域内对一批请求进行推理,那么它可能更可行。但如果不是,那就是另一回事了。迪伦·帕特尔将这些芯片联网是一个问题,你不能让卫星无限大。有很多物理上的挑战让卫星变得非常大。这就是为什么你需要卫星之间的这些互联。这些互联更昂贵。在一个集群中,15-20% 的成本是网络。突然间,你使用的是太空激光器,而不是用数百万量级制造的、带有可插拔收发器的简单激光器。而且这些东西也非常不可靠,顺便说一句,比 GPU 更不可靠。在集群的整个生命周期中,你经常需要拔下它们并清洁它们。你出于各种随机原因需要拔下再插上。这些东西就是没那么可靠。所以你也遇到了那个问题。你有了一个更昂贵、更复杂的太空激光器来进行通信,而不是这种超高产量生产的可插拔光收发器。德瓦克什·帕特尔那么总的来说,这对太空数据中心意味着什么?迪伦·帕特尔太空数据中心实际上并不受其能源优势的限制。它们受制于相同的受限资源。到本十年末,我们每年只能制造两百吉瓦的芯片。我们该怎么做才能获得那两百吉瓦?无论是在陆地上还是在太空中,都无关紧要。因为你可以建造那种电力。人类的产能和能力可以发展到我们每年在全球增加各种类型电力太瓦级的阶段。在某个时刻,我们确实会跨过鸿沟,让太空数据中心变得有意义,但不是在十年内。那要远得多,一旦能源约束真正成为大瓶颈,土地许可在它占据更多经济份额时成为更大的瓶颈。而且至关重要的是,一旦芯片不再是瓶颈。现在,芯片是最大的瓶颈。你希望它们一制造出来就部署并用于 AI。人们正在做很多事情来加快这个速度。他们在模块化数据中心,甚至模块化机架,你只把芯片放进数据中心,而其他一切都已布好线并准备就绪。人们正在做诸如此类的事情来缩短这个时间,而你在太空无法做到这些。归根结底,在一个芯片受限的世界里,所有重要的是尽快让这些芯片产生 tokens。也许到 2035 年,半导体行业、ASML、蔡司以及像泛林、应用材料和其他晶圆厂制造商等供应商会赶上进度,一旦钟摆摆回来,我们能够制造足够的芯片。然后我们将优化每一个参数,优化 10-15% 的能源成本就有意义了。随着我们可能转向 ASIC,如果英伟达的利润率不是 +70%,也许能源成本会变成集群成本的 30%。这些都是值得优化的东西。但埃隆不是通过做 20% 的改进获胜的。他从来不那样赢。埃隆只有在全力冲刺、做 10 倍改进时才赢。这就是 SpaceX 的宗旨。这就是特斯拉的宗旨。他所有的成功都与此相关,而不是追逐那 20% 的改进。我认为随着地球资源越来越紧张,太空数据中心最终会成为一个 10 倍的改进,但这不是本十年内的事。德瓦克什·帕特尔为了让大家对地球上有多少土地有点概念……显然,对于芯片本身,特别是如果你进入一个有机架(每个机架有兆瓦级功耗)的世界——迪伦·帕特尔那是另一回事。如果制造是制约因素,现在 AI 芯片大约是每平方毫米 1 瓦。一个简单的改进方法是将它提高到每平方毫米 2 瓦。你可能得不到 2 倍的性能,可能只得到 20% 的性能提升,而这需要更奇特的冷却方式。它需要更复杂的冷板、复杂的液冷,或者甚至可能像浸没式冷却那样。在太空中,更高的瓦特每毫米是很难实现的,而在地球上,这些都是已经解决的问题。这些事情之一能让你获得更多的 tokens,也许每片制造的晶圆多产出 20% 的 tokens,这是一个巨大的胜利。德瓦克什·帕特尔平方毫米,你指的是 die 的面积?迪伦·帕特尔是的,die 的面积。德瓦克什·帕特尔在太空会更有利,因为更高的瓦特每毫米意味着芯片运行更热。我想这是计算机芯片工程的问题,但根据斯特藩-玻尔兹曼定律,冷却与温度的四次方成正比。如果你能让芯片运行得非常热,那就可以允许很多——迪伦·帕特尔不,你不能让它更热。你只能让它在单位面积上功率更高。问题在于,从那个密集区域导出热量意味着你必须从标准空气和液冷转向更奇特的液冷形式,甚至浸没式冷却,才能达到更高的功率密度。这在太空中比在地球上更难。德瓦克什·帕特尔也许在这一点上值得解释一下 scale-up 究竟是什么,以及它在英伟达、Trainium 和 TPU 上分别是什么样子。迪伦·帕特尔早些时候我提到过,芯片内的通信超快。同一机架内芯片之间的通信也很快,但没那么快。大约是 TB 级别。距离很远的地方,比如跨国家,通信量级是 GB 级别。scale-up 域就是这样一个紧密的域,其中芯片以每秒 TB 级的速率通信。对于英伟达,以前这意味着一个 H100 服务器有 8 个 GPU,这 8 个 GPU 可以以每秒 TB 级的速度相互通信。通过 Blackwell NVL72,他们实现了机架级的 scale-up。这意味着机架中的所有 72 个 GPU 都可以以每秒 TB 级的速度相互连接。速度代代翻倍,但最重要的创新是将域内的 GPU 数量从 8 个增加到 72 个。当我们看谷歌时,他们的 scale-up 域完全不同。它一直是在数千的量级。对于 TPU v4,他们有 4000 个芯片的 pod。对于 v8 或 v7,他们的 pod 在 8000 或 9000 的范围。这里值得注意的是,这和英伟达的不一样。它们不是同类的。谷歌有一个环状(torus)拓扑。每个芯片连接到六个邻居。英伟达的 72 个 GPU 是全互联(all-to-all)。它们可以以每秒 TB 级的速度向那个 scale-up pod 中的任意其他芯片发送数据。而谷歌,你必须通过其他芯片中转。如果 TPU 1 需要与 TPU 76 通信,它必须通过各种芯片中转,当你这样做时,总会有一些资源阻塞,因为那个 TPU 只连接到其他六个 TPU。所以在拓扑结构和带宽上存在差异,两者各有优缺点和优势。谷歌可以获得大规模的 scale-up 域,但他们的代价是必须通过其他芯片中转才能从一个芯片到另一个芯片。你只能与六个直接邻居通信。亚马逊已经改变了他们的 scale-up 域。他们介于英伟达和谷歌之间。他们正试图制造更大的 scale-up 域。他们试图在一定程度上做英伟达那样的全互联,用交换机实现,但他们在某种程度上也使用谷歌那样的环状拓扑。随着我们向下一代推进,这三家公司都在更多地转向蜻蜓(dragonfly)拓扑。这意味着有一些是全连接的元件,有些则不是全连接的。你可以让 scale-up 达到数百或数千个芯片,同时在中转时不会竞争资源。德瓦克什·帕特尔相关的问题:我听到有人声称,参数规模扩展缓慢的原因——直到现在我们才从 OpenAI 和 Anthropic 看到更大的模型——是因为……最初的 GPT-4 有超过一万亿参数,直到现在模型才开始再次接近这个规模。我听到一个理论认为,原因是英伟达的 scale-up 域一直没有那么大的内存容量。假设你有一个 5T 参数的模型,以 FP8 运行,那就是五万亿 GB。然后还有 KV 缓存,假设大小相同。迪伦·帕特尔就叫它同样大小吧。德瓦克什·帕特尔好的,假设对于一批请求,它是相同大小。所以你需要 10 TB 才能运行一次前向传播。迪伦·帕特尔一次前向传播,是的。德瓦克什·帕特尔然后只有到了 GB200 和 NVL72,英伟达的 scale-up 域才有 20 TB,而在此之前它们小得多。而谷歌,另一方面,一直有这些巨大的 TPU pod,虽然不是全互联,但单个 scale-up 域内就有数百 TB 的容量。这是否解释了为什么参数规模扩展缓慢?迪伦·帕特尔我认为部分原因是容量和带宽,但也因为构建更大的模型,部署速度会更慢。就最终用户的推理速度而言,这有点无关紧要。真正关键的是强化学习(RL)。我们在这些模型以及实验室的算力分配上看到的是……分配算力主要有几种方式。你可以分配给推理,即收入。你可以分配给开发,即制造下一个模型。你可以分配给研究。在开发中,具体分为预训练和强化学习。当你思考正在发生的事情时,从研究中获得的计算效率提升是如此之大,以至于你实际上希望大部分算力都用于研究,而不是开发。所有这些研究者都在产生新想法,尝试它们,测试它们,并不断推动扩展定律的帕累托最优曲线向前。根据经验,我们看到模型成本每年下降 10 倍,甚至更多。同等规模下成本下降 10 倍,而要达到新前沿,成本相同或更高。所以你不会想把太多资源分配给预训练和强化学习。你实际上想分配大部分资源给研究。中间是开发阶段。如果你预训练一个五万亿参数的模型,在强化学习中需要做多少次 rollout?一个五万亿参数模型的 rollout 比一万亿参数模型大五倍。如果你想做同样多的 rollout——也许更大的模型样本效率高两倍——现在你需要 2.5 倍的时间进行强化学习才能让模型更智能。或者你可以对较小的模型进行 2 倍时间的强化学习。在大模型上,如果它样本效率高两倍,做了 X 次 rollout,仍会有 25% 的差异。但较小的模型(一万亿参数)虽然样本效率较低,但做了两倍的 rollout,而且仍然完成得更快。你更早得到模型,你做了更多的强化学习,然后你可以用那个模型来帮助构建下一个模型,帮助你的工程师训练,并进行所有这些研究想法。这个反馈循环在任何情况下都倾向于较小的模型,无论你的硬件是什么。当你看看谷歌,他们确实部署了所有主要实验室中最大的生产模型,Gemini Pro。它比 GPT-5.4 大。它比 Opus 大。谷歌这样做是因为他们有一个单极化的计算集群。它几乎全是 TPU。而 Anthropic 则要处理 H100、H200、Blackwell、Trainium 和各种世代的 TPU。OpenAI 目前主要使用 Nvidia,但也开始使用 AMD 和 Trainium。像谷歌这样的计算集群可以围绕一个更大的模型进行优化。他们可以利用一个 scale-up 域中的一千个芯片来大大加快强化学习速度,使这个反馈循环更快。但归根结底,孤立来看,你几乎总是会选择较小的模型,它能更快地进行强化学习,并更早地部署到研究和开发中。你可以构建下一个东西,获得更多的效率提升。你有一种复合效应,让一个较小的模型能更早地部署到研究和开发中。我在训练上花费更少的算力,因为我可以分配更多的算力给研究。这种能够越来越快地进行研究的复合效应,可能是更快的起飞。这是所有这些公司想要的:最快的可能起飞速度。02:14:07 – 为什么没有更多对冲基金参与 AGI 的投资?德瓦克什·帕特尔好的,一个尖锐的问题。你已经解释了 SemiAnalysis 销售这些电子表格。你总是指出,六个月或一年前,你就警告过人们内存危机。现在你告诉人们洁净室危机,未来还有工具危机。为什么利奥波德(Leopold)是唯一用你的电子表格赚得盆满钵满的人?其他人在干什么?迪伦·帕特尔我认为有很多人以很多方式赚钱。利奥波德开玩笑说,他是我唯一一个告诉我我们的数字太低的客户。其他所有人都告诉我我们的数字太高了,几乎令人作呕。无论是某个超大规模云服务商说,"嘿,那个其他超大规模云服务商,他们的数字太高了," 我们回答,"不,就是这样。" 他们说,"不,不,不,这不可能," 等等等等。当我们与超大规模云服务商或 AI 实验室合作时,你最终必须用所有这些事实和数据说服他们,实际上,不,那个数字并不高,那是正确的。最终,有时需要他们六个月才能意识到,或者一年后。其他客户,在交易方面,也使用我们的数据。大约 60% 的业务来自行业。所以是 AI 实验室、数据中心公司、超大规模云服务商、半导体公司,整个 AI 基础设施供应链。但我们 40% 的收入来自对冲基金。我不会评论我们的客户是谁,但很多人使用这些数据。问题在于你如何解读它,然后你如何看待它之外的未来。我会说利奥波德几乎是唯一一个总是告诉我我的数字太低的人。有时他太高了,有时我太低了。但总的来说,我认为其他人也在这么做。你可以看看整个领域的对冲基金,看看他们的 13F 表格,看到他们持有,也许不完全是利奥波德持有的那些,因为你总在问什么是最受限制的东西。什么是最超出预期的东西?那才是你真正想利用的东西:市场中的低效率。从某种意义上说,我们的数据通过使正在发生的事情的基础数据更准确,让市场变得更高效。许多基金确实基于已有的信息进行交易……我不认为利奥波德是唯一的人。我认为他对 AGI 起飞最有信念,不过。德瓦克什·帕特尔对,但这些赌注不是关于 2035 年会发生什么。你正在做的这些赌注——至少可以通过我们能看到的不同基金(包括利奥波德的基金)的公开回报来体现——是关于过去一年发生的事情。过去一年的事情可以用你的电子表格来预测。关键是购买下一年的电子表格。迪伦·帕特尔它们不仅仅是电子表格。还有报告。有 API 访问数据。有大量数据。德瓦克什·帕特尔但你明白我的意思吗?这不是关于一些疯狂的奇点事件。而是关于,你相信内存危机吗?迪伦·帕特尔只有当你相信 AI 会大规模起飞时,你才会相信内存危机。内存危机,很大一部分是基于……至少对湾区的思考基础设施的人来说,是显而易见的。随着上下文长度变长,KV 缓存爆炸,所以你需要更多内存。然后你进行计算。你还必须对正在建造哪些晶圆厂、正在建造哪些数据中心、有多少芯片等等有大量的供应链理解。我们非常紧密地跟踪所有这些不同的数据集,但归根结底,需要有人完全相信这会发生。一年前,如果你告诉某人内存价格会翻两番,智能手机销量会在之后一两年下降 40%,人们会说,"你疯了。那永远不会发生。" 除了一些人确实相信这一点,而那些人确实交易了内存。而且确实有人这么做。我不认为利奥波德是唯一购买内存公司的人。他当然在规模、头寸和操作方式上比某些人、也许比大多数人做得更好。我不想评论谁的回报如何,但他确实做得很好。其他人也做得非常好。哇,你让我有史以来第一次变得外交起来。不,不,你没事。我觉得这很好笑。我表现得像个外交官,而我通常是很辛辣的。02:18:30 – 台积电会把苹果从 N2 工艺上挤走吗?德瓦克什·帕特尔好的,最后来几个快问快答。如果你说在内存、逻辑等方面,N3 将主要用于 AI 加速器,但还有 N2,目前主要是苹果在用……未来,我想 AI 也会想要用 N2。如果英伟达、亚马逊和谷歌说,"嘿,我们愿意为 N2 产能付很多钱," 台积电能踢走苹果吗?迪伦·帕特尔我认为这方面的挑战在于,芯片设计的时间线很长,所以那是超过一年以后的事情,而使用 2 纳米的设计更是一年以后的事情。真正会发生的是,英伟达和其他所有公司会说,"嘿,我们要预付款买产能,你要为我们扩大产能。" 也许台积电能赚一点利润,但不是很多。他们不会完全踢走苹果。他们要做的是,当苹果订购 X 时,他们可能会说,"嘿,我们预计你只需要 X 减一,所以我们将给你 X 减一。" 然后那部分灵活产能,苹果就有点被坑了。传统上,苹果总是超额预订 10%,并在一年中减少 10%。有些年份他们用满了那 10%。销量根据季节和宏观经济而变化。我不认为台积电会踢走苹果。我认为苹果将成为台积电收入中越来越小的一部分,因此台积电满足他们需求的相关性降低。台积电最终可能会开始说,"嘿,你必须提前预订明年、后年的产能,而且你必须预付资本支出," 因为英伟达、亚马逊和谷歌就是这么做的。德瓦克什·帕特尔我想知道是否值得深入探讨具体数字。我手头没有。未来几年,苹果在 N2 上占据的份额与 AI 相比是多少?迪伦·帕特尔今年苹果拥有将生产的 N2 产能的大部分。AMD 有一点。他们正试图早点制造一些 AI 芯片和 CPU 芯片。有一点,但大部分是苹果。随着我们进入后一年,随着其他人开始量产,苹果仍然拥有接近一半的份额,但之后会急剧下降,就像 N3 一样,他们曾经占一半。当我说 N2 时,这包括 A16,它是 N2 的一个变种。随着时间的推移,这些节点将成为主流。同样有趣的是,传统上苹果是第一个进入新工艺节点的。2nm 实际上是他们第一次不是第一个。嗯,除了华为。华为在 2020 年及之前,曾和苹果同时成为第一个,但他们都在做智能手机。现在,到了 2nm,有 AMD 试图在同一时间框架内制造 CPU 和 GPU 芯片组,他们使用先进封装将它们封装在一起。这对 AMD 来说是一个很大的风险,可能会导致延迟,因为这是一个全新的工艺技术,很难。但归根结底,这是一个赌注,他们想比英伟达更快扩展并试图击败他们。随着我们向前发展,当我们转向 A16 节点时,那里的第一个客户甚至不是苹果。是 AI。随着我们前进,这将变得越来越普遍。苹果不仅不会是第一个进入新节点的,也不会是新节点的主要用量方。他们就会变成像任何老客户一样。因为台积电的资本支出规模不断膨胀,而苹果的业务增长速度没有那么快,他们成为一个越来越不重要的客户。他们也会因为供应链中的各种因素削减订单,无论是封装、材料、DRAM 还是 NAND。这些东西的成本在增加。他们可能无法将所有成本转嫁给客户,因为消费者没那么强大。你最终会陷入这个困境,他们不再像历史上那样是台积电最好的朋友了。德瓦克什·帕特尔你认为如果华为能用上 3nm,他们会造出比 Rubin 更好的加速器吗?迪伦·帕特尔有可能,是的。华为也是第一个有 7nm AI 芯片的公司。他们是第一个有 5nm 移动芯片的公司,但他们也是第一个有 7nm AI 芯片的公司。华为 Ascend 比 TPU 早两个月,比英伟达的 A100 早四个月,我想。那只是转移到新工艺节点。这并不意味着软件或硬件设计,或所有其他方面。但华为可以说是世界上唯一拥有所有腿的公司。华为已经破解了软件工程。华为已经破解了网络技术。事实上,那是他们历史上最大的业务。他们已经破解了 AI 人才。此外,除了英伟达,他们实际上拥有更好的 AI 研究人员。除了英伟达,他们有自己的晶圆厂。除了英伟达,他们有销售 tokens 等最终市场。华为能够获得顶级人才。英伟达也能,但没那么集中,而且华为在中国有更大的人才库。非常有争议的是,如果华为能用上台积电,他们会比英伟达更好。在某些领域,中国具有英伟达不容易获得的优势。不仅仅是规模,某些光学技术中国确实很擅长。我认为很合理的是,如果 2019 年华为没有被禁止使用台积电,华为可能已经超过苹果成为台积电最大的客户。华为在网络、计算、CPU 和所有这些领域都有很大的份额。他们会不断获得份额,他们很可能是台积电最大的客户。02:24:16 – 机器人德瓦克什·帕特尔哇。那太疯狂了。我有个随机的最后问题给你。埃隆访谈的另一部分是机器人。如果人形机器人的普及速度超出人们的预期,如果到 2030 年有数百万个人形机器人跑来跑去,每个都需要本地算力,你对这意味着什么有什么想法?那需要什么?迪伦·帕特尔对于人们在机器人上部署的 VLM 和 VLA,有很多困难。但在某种程度上,你不需要把所有的智能都放在机器人上。更有效率的做法是不那样做。因为在云端,你可以进行批处理等等。你可能想做的是,让一个能力更强的模型在云端以非常高的批处理大小运行,处理大部分的规划和更长周期的任务。然后它把这些指令推给机器人,机器人在每个后续动作之间进行插值。或者它被给予一个命令,比如,"嘿,拿起那个杯子," 然后机器人上的模型可以拿起杯子。当它拿起杯子时,重量和力量等因素可能需要由机器人上的模型来决定,但不是所有事情都需要。它可以说,"嘿,那是个耳机," 而云端的超级模型可以说,"我知道这些耳机是索尼 XM6s," 这不是一个德瓦克什的广告位,但是……德瓦克什·帕特尔我当时想,为什么这家伙这么用力地推销这个东西。它就在桌子上。我们采访萨提亚(Satya Nadella)时,它就在他脖子上。索尼给他钱了吗?迪伦·帕特尔不幸的是,没有。但不管怎样,它可能会说,"嘿,头带是软的,重量是这个," 等等。然后机器人上的模型可以智能程度低一些,接受这些输入,并执行动作。它可能每秒从云端模型接收一次指令,或者每秒十次,取决于动作的频率。但很多可以卸载到云端。否则,如果你在设备上做所有的处理,我相信会更昂贵,因为你不能批处理。第二,你不能像在云端那样拥有那么高的智能,因为云端的模型只会更大。第三,我们处于半导体短缺的世界,你部署的任何机器人都需要领先的芯片,因为机器人的电源真的很差。你需要它低功耗、高效,然后突然间,你把本应用于 AI 数据中心的电力和芯片,放到了机器人里。所以如果你部署数百万个人形机器人,那 200 吉瓦就会变少。德瓦克什·帕特尔我认为这非常有趣,因为人们可能没有意识到未来的一个特点,那就是从物理意义上讲,智能将是多么集中。现在,有 80 亿人类,他们的计算在他们的头脑中,在他们身上。在未来,即使有机器人在外面物理世界中活动——显然,知识工作将在数据中心以集中的方式完成,有数十万甚至数百万个实例——你所暗示的未来是一个更集中的思考和计算驱动着世界上数百万机器人的未来。这是一个关于未来的有趣事实,人们可能没有意识到。迪伦·帕特尔我认为埃隆认识到了这一点,这就是为什么他到处为他的芯片寻找不同的地点。他签了这个与三星的巨额协议,在德克萨斯州制造他的机器人芯片。除了英伟达新推出的 LPU,没有人在三星上真正做 AI 芯片。他们下周就要发布了,但我们是在那之前一周录制的。德瓦克什·帕特尔本期节目周五播出。迪伦·帕特尔哦,这期节目会在那之前播出。爽。他们下周要发布这个新的 AI 芯片,是在三星上制造的,但这是英伟达最近的发展。那是那里唯一的其他 AI 需求,而在台积电上,一切都在竞争。他为他的机器人获得了地缘政治多样化和供应链多样性,而且他不会像那些数据中心里的"天才们"那样面临无限的支付意愿。德瓦克什·帕特尔好的,迪伦。这太棒了。非常感谢你来做客播客。迪伦·帕特尔谢谢你邀请我。今晚见。