#图文动态同步大赛#事实阐发,要是绝对改动当年 10 年数据中心的开导容颜,势必会碰到一些成长的烦懑。天然头条新闻都是对于东说念主工智能的崛起,但本色情况却有好多令东说念主头疼的问题。在与系统集成商和其他蔓延大型计较系统的东说念主员交谈时,咱们听到收敛的挟恨,说大型 GPU 集群难以运行。主要问题是液体冷却。GPU 系统运行时会发烧,机架滥用数万瓦的电力。传统的空气冷却不及,导致液体冷却系统被粗浅摄取。这种弯曲推高了部署这些系统的 Vertiv 等公司的股价。但是,液体冷却对于数据中心来说仍然相对较新,端庄安设液体冷却的东说念主还不够多。因此,液体冷却已成为数据中心故障的主要原因。变成这种情况的原因有好多,但归根结底都是因为水和电子设备不成很好地夹杂。行业最终会惩处这个问题,但这是数据中心正在资格的成长烦懑的一个典型例子。竖立 GPU 也靠近许多挑战。这并不奇怪——大多数数据中心专科东说念主员在竖立 CPU 方面领有丰富的教化,但对于他们中的许多东说念主来说,GPU 是一个生疏的领域。除此除外,Nvidia 倾向于销售完好的规画,这带来了一系列新的复杂身分。举例,Nvidia 的固件和 BIOS 系统并非全新,但它们存在各异且开发不及,导致蔓延和极度多的造作。再加上 Nvidia 的网罗层,很容易看出这个过程变得何等令东说念主衰颓。专科东说念主士需要在很短的时老实掌执大都新本事。从总体上看,这些仅仅延缓带。这些问题都还不及以阻遏东说念主工智能的发展,但在短期内,它们可能会变得愈加彰着和引东说念主防御。咱们预测超大规模企业将推迟或降速 GPU 的推出速率,以搪塞这些挑战。更准确地说,咱们可能会听到更多对于这些蔓延的音尘,因为它们照旧运转了。
AMD 最近斥资 50 亿好意思元进军数据中心
最近咱们被问到AMD 收购 ZT Systems背后的逻辑,因为这和安设 AI 集群的日益复杂性密切联系,咱们可以用 ZT 动作镜头来不雅察行业中更粗浅的问题。假定 Acme Semiconductor 思要进入数据中心商场。他们破耗数亿好意思元规画一款处理器。然后他们试图将其出售给超大规模客户j9九游会官方,但超大规模客户不思要一块芯片——他们思要一个可以运行的系统来测试他们的软件。因此,Acme 找了一家 ODM(原始规画制造商),花了几十万好意思元规画了一台可以运行的干事器,包括存储、电源、冷却、网罗和其他统统东西。Acme 制造了几十台这么的干事器,并将它们分发给他们最有但愿的销售东说念主员。此时,Acme 的损背信为 100 万好意思元,他们发现他们的芯片只占系统老本的 20%。然后,超大规模干事器将破耗几个月的时分测试该系统。其中一家公司对 Acme 的性能相称舒适,风物对其进行更严格的测试,但他们不思要圭臬干事器;他们思要专诚为数据中心运营规画的干事器。这意味着干事器规画将摄取皆备不同的存储、网罗、冷却等竖立。超大规模干事器还但愿 Acme 与他们首选的 ODM 通盘构建这些测试系统。为了竣事走动,Acme 为这个新规画买单,不外至少超大规模提供商支付了测试系统的用度——Acme 终于有了一些收入,可能是 10 万好意思元。当第一个超大规模提供商进活动期数月的评估时,第二个客户暗示了趣味趣味。天然,他们但愿领有我方的干事器竖立和我方可爱的 ODM。Acme 需要这项业务,因此也承担了这项规画的用度。Acme 斗殴了统统 OEM,看是否有东说念主风物规画目次系统来简化进程。OEM 都相称友好,对 Acme 正在作念的事情很感趣味趣味。干得好,但惟一 Acme 赢得更多业务后,他们才会承诺进行规画。临了,客户思要批量购买——这对 Acme 来说是一个弘大的顺利。这一次,由于波及到着实的批量,ODM 欢跃进行规画。但是,新干事器将使用超大规模干事器里面规画的网罗和安全芯片,这些芯片是掩盖的。Acme 从未见过它们,对新干事器知之甚少,该干事器是客户和 ODM 顺利规画的。ODM 构建了一堆干事器,然后在超大规模干事器的数据中心内将它们畅达起来,掀开电源开关,事情立即运转出现问题。这是预感之中的事,因为造作无处不在。但很快,每个东说念主都运转将问题沮丧于 Acme,而忽略了 Acme 在很猛进度上被吊销在规画过程除外的事实。他们的芯片是 ODM 和客户最不端庄的组件。Acme 在评估周期内与客户合营惩处造作,但此次不同。该系统的大部分都是新的,风险更高,因此每个东说念主都在压力下职责。Acme 将其现场工程师派往超汉典数据中心躬行操作该系统。三个团队奋发惩处这些造作,并在此过程中发现了更多造作。最终,事实阐发,Acme 的处理器在与超大规模干事器的安全芯片交互时进入了一种暗昧的造作款式,网罗组件很脆弱,性能远低于规格,天然,每个芯片都运行不同的固件,与其他固件不兼容。最厄运的是,液体冷却(调试团队中莫得东说念主斗殴过的东西)可能导致了 50% 的问题。跟着团队惩处问题,部署过程被拖延了。在某个时候,一些进击的东西需要皆备更换,这会增多更多的延误和老本。但经过数月的奋发,系统终于过问坐褥。然后 Acme 的第二个客户决定他们思要进行更长远的评估,整个过程又重新运转。要是这听起来还不够祸害的话,咱们致使还莫得提到讼师。为了启动该神情,Acme 不得不破耗九个月的时分,从相称劣势的地位与超大规模提供商商酌尖刻的条目。在规画定制干事器时,三家公司(Acme、ODM 和客户)可能花了六周时分商酌掩盖公约。多年来,干事器一直都是这么构建的。自后,Nvidia 进入商场,带来了我方的干事器规画。不仅如斯,他们还带来了整个机架的规画。Nvidia 从事系统规画已有 25 年,最早可以纪念到他们在显卡方面的职责。他们的团队还构建了我方的数据中心,因此他们领有一支教化丰富的里面团队来处理统统这些问题。为了与 Nvidia 竞争,AMD 可以花五年时分复制 Nvidia 的团队,也可以收购 ZT。表面上,ZT 可以匡助 AMD 摒除上述果真统统摩擦。现时判断这在履行中后果若何还为时过早,但 AMD 在吞并整合方面照旧作念得绝顶可以了。汲引说,咱们很乐意支付 50 亿好意思元,以幸免再次商酌三方掩盖公约和主干事公约。 ☟☟☟☞东说念主工智能产业链定约经营组搜集公告☜☝