面向 AI 的数据中心:Blackwell GPU、液冷与 Aethir 的 DePIN

了解面向 AI 的数据中心如何运作,并探究 Aethir 的 DePIN 模式为何已经做好准备,以支撑未来企业级 AI 算力需求。

Featured | 
Community
  |  
May 14, 2026

核心要点

  • Blackwell 改写了散热方程: NVIDIA GB200 NVL72 机柜的功耗高达 120 至 132 kW,这是任何密度下的风冷都无法处理的水平。
  • 芯片级直冷成为新的基线: 到 2026 年,芯片级直冷(DTC)在液冷市场的占比已经接近 65%。
  • AI 工厂的 CapEx 形成结构性锁定: 在单机柜 120 kW 及以上的密度下,运营方仅冷却基础设施一项的资本支出就达到每兆瓦 50 万至 200 万美元。这种锁定让超大规模厂商占据优势,也对企业和开发者构成了实实在在的接入壁垒。
  • DePIN 绕开 CapEx 高墙: Aethir 的分布式 GPU 网络在全球节点间汇聚企业级硬件,包括 Blackwell 级 GPU。客户无需自行承担液冷、CDU 和高密度机柜建设所需的基础设施投入,即可获得这些算力。

Blackwell 的密度难题:风冷时代为何已经终结

NVIDIA Blackwell 架构已经推翻了人们对数据中心散热管理的所有既有假设。GB200 NVL72 配置在单机柜内集成了 72 颗 Blackwell GPU 和 36 颗 Grace CPU,带来 120 至 132 kW 的热负荷。这个数字宣告了将热通道封闭作为主要散热策略的时代终结。在这种密度下,空气根本带不走热量。

热设计功耗重新定义了整套基础设施

单颗 Blackwell GPU 的热设计功耗(TDP)最高可达 1,000 瓦,是仅仅七年前 GPU 世代的三倍以上。在 120 kW 及以上的机柜密度下,传统的热通道封闭方案无法以足够快的速度排出热量,导致热点出现,进而触发性能降频并损伤硬件。NVIDIA 针对 GB200 和 GB300 部署的参考架构,将芯片级液冷明确列为规范要求。

热通道封闭代表的是只靠风冷的过去

在运行 15 至 30 kW 机柜的数据中心,热通道封闭一度是占绝对主导地位的散热方案。到了 Blackwell 的密度,那套曾经用来管理热量的相同结构,如今反而把热量困在里面。仅靠风冷架构运行的设施,在当前任何技术口径下都无法被视为面向 AI 的数据中心;任何在没有液冷规划的情况下推进 Blackwell 部署的运营方,实际上就是在为失败买单。

GB300 NVL72 把散热门槛进一步抬高

作为 Blackwell 平台的下一代产品,GB300 NVL72 在施耐德电气与 NVIDIA 联合开发的参考设计中支持单机柜最高 142 kW。AI 工厂架构每升级一代,机柜密度都会被拉高,散热要求也随之收紧。把液冷基础设施升级一推再推的运营方,不仅在能效层面落后,也将彻底失去承接 Blackwell 及后续世代部署的资格。

芯片级直冷:面向 AI 的基础设施栈

2026 年面向 AI 的数据中心,其架构由冷却栈来定义。芯片级直冷(DTC)通过安装在每颗芯片上的冷板,把冷却液直接送到发热部件。冷却液分配单元(CDU)管理整个回路,分液歧管在机柜内分配流量。冷板、CDU 与分液歧管这一整套组合,已经成为所有运行 AI 工厂规模高密度 GPU 算力的设施的标准配置。

冷板技术是热界面的核心

冷板是直接装在 GPU 或 CPU 上的金属块,冷却液在其中流动,从热源处吸热。冷板冷却的 PUE(能源使用效率)可达 1.10 至 1.25,而传统风冷设施则在 1.50 至 1.80 之间;对有可持续性指标的运营方而言,水资源使用效率(WUE)也会得到相应提升。芯片级直冷已经是当前最主流的液冷方案,在 2026 年的液冷市场中占据大约 65% 的份额。

单相浸没式冷却与两相浸没式冷却

在芯片级直冷之外,单相浸没式冷却将整台服务器浸入不导电液体中,可将 PUE 压低至 1.02 至 1.10。两相浸没式冷却让冷却液在闭环中沸腾并重新冷凝,可达到 1.01 至 1.05 的 PUE,在高于 140 kW 的极端机柜密度场景下属于刚需。这两种方案都需要专门的设施设计,资本投入也明显高于芯片级直冷,因此更适合从零搭建面向 AI 的全新数据中心,而不是改造既有基础设施。

后门换热器作为混合过渡方案

后门换热器(RDHx)安装在既有服务器机柜的背面,在排出的热空气重新进入设施之前对其进行冷却。RDHx 是一种过渡技术,适用于从风冷向全液冷基础设施迁移、又不希望整体推翻重建的运营方。在 Blackwell 的密度下,单靠 RDHx 已经不够,但它可以在分阶段的冷却迁移中,把部分风冷设施承载混合负载的可用区间延长一段时间。

建设面向 AI 的数据中心:CapEx 的现实

建设一座面向 AI 的数据中心,从来都不是一个软件问题。液冷基础设施会增加每兆瓦 50 万至 200 万美元的资本支出。一座 10 MW 的 GPU 集群,在第一颗 GPU 上电之前,就需要 500 万至 2,000 万美元的冷却基础设施投入。再叠加电网接入周期、硬件采购前置期和较低的利用率,这笔开销还会进一步放大。

电网接入周期已经变成结构性壁垒

在某些地区,新数据中心接入电网现在需要长达七年的时间,这还不包括审批、施工和硬件采购。对于任何不是一线超大规模厂商的组织而言,从投资决策到面向 AI 的基础设施真正可用之间的时间差,使得集中式自建变得不切实际。在德勤 2025 年调研中,79% 的数据中心高管把电网压力列为首要挑战,并预计 AI 将持续推动用电需求上升,直至 2035 年。

GPU 供应链紧张让 CapEx 问题雪上加霜

NVIDIA H100 和 H200 芯片单价超过 4 万美元,而且供应依旧极度紧张。希望使用 Blackwell 级硬件的企业,在主流云服务商处获取高端 GPU 实例需要等待 18 至 24 个月。这意味着即便组织愿意承担面向 AI 的数据中心建设的资本支出,也无法在任何可预测的时间表内保证硬件供应。

GPU 利用率偏低拖垮商业模型

传统数据中心的 GPU 利用率徘徊在 30% 至 50% 之间,意味着运营方一半以上的时间是在为闲置的硬件买单。这一利用率差距,既反映了采购方式与负载调度的低效,也折射出集中式数据中心容量与AI 推理需求"突发—停歇"特征之间的结构性错配。对任何规模未达超大规模厂商的组织而言,集中式面向 AI 的数据中心建设的财务模型已经走不通了。

DePIN 数据中心:Aethir 开创的分布式替代方案

分布式物理基础设施网络(DePIN)以一种根本不同的方式来构建面向 AI 的基础设施。Aethir 正是面向企业级场景的分布式 GPU 云计算开拓者。DePIN 网络不再去新建集中式液冷设施,而是在全球分布的节点之间,汇聚企业级 GPU 硬件。

其结果是一层算力底座:用户可以获取高密度 GPU 基础设施,而无需任何单一运营方独自承担 Blackwell 部署或面向 AI 的数据中心建设所需的全部CapEx。Aethir 的 DePIN 栈在全球 94 个国家、200 多个地点部署了 430,000 多个 GPU 容器,合作伙伴和企业客户超过 150 家,他们都在使用这套分布式云算力。

Aethir 的资源池包括数以千计的 H100、H200、GB200和 B200,并将在近期上线超过 2,300 块 B300

分布式节点绕开冷却 CapEx 要求

在 DePIN 数据中心模式下,各个节点运营方将既有硬件贡献到一张共享网络中。每位运营方负责管理自有硬件的冷却需求,这些设备可能已经配备了芯片级直冷系统。网络在更上一层汇聚这些容量,并通过统一的算力层对外提供服务,从而省去了任何单一企业在数据中心规模上投入 CDU、分液歧管或机柜密度升级的需要。

对比超大规模厂商,Aethir 大幅降低成本

Aethir 的分布式 GPU 网络可提供包括 Blackwell 级 GPU 在内的企业级算力,在同等推理工作负载上,价格相较 AWS 有明显折扣。这种价格结构来自于去除了集中式数据中心的整体开销,而不是促销活动。

按需访问消除 18 个月的采购前置期

集中式面向 AI 的数据中心,最致命的约束之一就是采购前置期。通过主要云服务商等待 H100 或 Blackwell 实例的企业,要排上 18 至 24 个月的队。Aethir 提供分布式 GPU 基础设施的按需访问,企业和开发者无需进入长达数年的采购周期,也不必承担面向 AI 的数据中心的资本支出,就可以运行推理任务、微调模型并执行 AI Agent 任务。

AI 工厂时代,以及它对算力获取的意义

NVIDIA 提出了"AI 工厂"一词,用以描述数据中心从被动存储设施,转变为主动算力生产系统的过程。在这种框架下,数据中心成为一座生产车间——原始数据进入,智能输出。GPU 云上的液冷不是一次锦上添花的功能升级,而是以 AI 工厂吞吐量运行的前提条件。对大多数企业而言,问题不是是否拥抱这一范式,而是如何在不从零搭建一座液冷面向 AI 的数据中心的前提下接入它。

推理需求贡献了 GPU 总负载的 70%

到 2026 年,70% 的 GPU 需求来自推理,而不是训练。推理天然具有可并行、单次执行时间短、对延迟敏感的特性,这种画像更适合分布式算力,而不是集中式数据中心的排队等候。DePIN 网络在结构上就是为推理工作负载优化的,而大型集中式设施主要是为训练任务设计的。

Aethir 的分布式 GPU 云专为支持各种规模开发团队、初创公司以及大型企业的推理工作负载而打造。

AI 工厂的产出优势,通过分布式访问得以释放

NVIDIA 表示,GB300 NVL72 的 AI 工厂产出比 Hopper 世代平台高 50 倍,这一提升来自延迟降低 10 倍与单兆瓦吞吐量提升 5 倍的叠加。只有当企业真正能拿到这套硬件时,这些收益才能落地。分布式算力网络把 AI 工厂级别的性能,延伸到那些根本无力承担面向 AI 的数据中心建设投入的组织。

Aethir 把 DePIN 放在三大趋势的交汇点上

Aethir 同时处在 Blackwell 时代的 GPU 需求、液冷转型与 DePIN 基础设施模式的交汇之处。Aethir 的分布式 GPU 云,可以提供企业级 GPU 算力,在规模化场景下支撑 AI 推理工作负载,并且不需要任何参与方自行搭建或维护一座液冷的面向 AI 的数据中心。

对开发者、企业团队和 AI 实践者而言,这种交汇就是分布式 GPU 云基础设施最核心的价值主张。

常见问题

2026 年怎样算"面向 AI"的数据中心?

2026 年的面向 AI 数据中心,其标志是能够在每机柜 60 kW 或更高密度下支撑 GPU 算力,并依托芯片级液冷基础设施。仅靠风冷或热通道封闭的设施,无法满足像 NVIDIA GB200 NVL72 或 GB300 这类当代硬件的散热要求。

什么是芯片级直冷,Blackwell GPU 为什么离不开它?

芯片级直冷通过装在 GPU 或 CPU 上的冷板,把液体冷却剂送到发热源处直接吸热,而不是先去冷却环境空气。Blackwell GPU 的单颗芯片热设计功耗最高可达 1,000 瓦,在 Blackwell 部署所需的机柜密度下,基于空气的散热在物理上根本不够用。NVIDIA 针对 GB200 和 GB300 系统的参考架构,把芯片级直冷列为强制性规范。

什么是机柜密度,它如何影响数据中心设计?

机柜密度是指每个服务器机柜的功率消耗,以千瓦(kW)为单位。15 kW 的机柜可以用标准风冷应对,而 120 至 132 kW 的 Blackwell 机柜则需要专用液冷回路,包括 CDU、分液歧管以及每颗 GPU 对应的冷板。随着 AI 工作负载越来越苛刻,机柜密度已经成为任何打算建设或升级面向 AI 的数据中心的运营方的首要设计约束。

DePIN 基础设施与传统面向 AI 的数据中心相比有什么不同?

传统面向 AI 的数据中心,在第一颗 GPU 上线之前,就要在冷却、电力基础设施和不动产上投入巨额资本。像 Aethir 这样的 DePIN 基础设施,把全球节点运营方贡献的分布式 GPU 硬件汇聚起来,从而免去了由单一组织出资建设集中式设施的必要。

企业可以在不自建液冷数据中心的前提下,使用 Blackwell 级 GPU 吗?

可以。Aethir 让企业能够使用 Blackwell 级的 GB200、B200 和 B300 企业级算力,而无需任何一家企业自行搭建或维护液冷基础设施。Aethir 的 DePIN 模式意味着,已经在运行 Blackwell 硬件的 Cloud Host 运营方,会将这部分算力贡献到网络中,企业和开发者则按需调用。Aethir 以规模化的方式运行这一模式,通过统一平台对外提供分布式算力,免去了多年期的采购周期,也不必投入冷却基础设施。

Resources

Keep Reading