谷歌芯片市占全球第三紧追英特尔、辉达
尽管谷歌是无晶圆厂设计公司,不向第三方公司出售芯片,但却是数据中心处理器业务中真正的巨头,拥有重要的市占且由于最近人工智能的爆炸式增长,其市占预计将进一步扩大。
半导体调研公司Tech Insights发布的新研究报告,将谷歌评为数据中心领域最大的芯片设计公司之一。 Tech Insights表示,凭借其在半导体供应链和ASIC市场等多个领域的独特专业知识,谷歌的市占可与英特尔和AMD等更知名的芯片制造商相媲美。
Tech Insights强调,谷歌在2015年推出的张量处理单元开创了定制人工智能加速器的先河,这使得该公司超越了云端竞争对手微软和亚马逊。 就市占而言,只有英伟达和英特尔超越谷歌。
Tech Insights指出,谷歌去年向其全球数据中心运送了200万个TPU。 随着TPU v4的推出,该业务在2021年实现了显著增长,恰逢大型语言模型的兴起。 博通是谷歌在ASIC设计方面的主要合作伙伴,它可能从TPU v4的推出中受益最多。
谷歌使用TPU来加速内部工作负载,而英伟达GPU则处理云计算任务。 Tech Insights报告称,到2023年,谷歌将拥有最大的AI加速器安装基数和最大的AI计算基础设施。 该公司最近推出了第六代TPU,称为Trillium,旨在增强AI超级计算机架构。
TI 也指出,随着云超大规模企业投资新的加速器和英伟达 AI GPU,去年服务器市场的库存出现了重大调整。 微软和亚马逊也分别使用 Azure Cobalt 和 Graviton 开发定制人工智能加速器。
Azure Cobalt 和 Graviton 都是以 Arm 为基础的定制处理器。 谷歌最近推出了基于Arm的Axion处理器来补充其TPU。 根据Bernstein Research的报告,Arm架构目前已用于全球10%的服务器,其中超过50%安装在亚马逊的AWS数据中心。
谷歌的第六代TPU
5月14日星期二,谷歌发布了名为Trillium的第六代TPU(张量处理单元)。
该芯片本质上是TPU v6.是该公司在与GPU制造商英伟达以及云提供商微软和亚马逊(拥有自己的人工智能芯片)的人工智能战斗中的最新武器。
TPU v6 将继承 TPUv5 芯片,TPUv5 芯片有两种版本:TPUv5e 和 TPUv5p。 该公司表示,Trillium 芯片是迄今为止性能最高、最节能的 TPU 。
谷歌在其IO会议上表示,Trillium芯片将运行的人工智能模型将取代目前的Gemini大语言模型。
谷歌对该芯片进行了全方位的改进,令其峰值算力提高4.7倍并加快其高带宽内存、内部带宽和芯片间的互连速度。
谷歌发言人表示:「通过比较Trillium TPU与Cloud TPU v5e的每芯片峰值算力,我们得到了4.7倍的数字。」
BF16在TPU v5e上的表现为197 teraflops,如果提高4.7倍,BF16在Trillium上的峰值效能将达到925.9 teraflops。
谷歌的TPU早就应该有大幅的效能提升,TPU v5e的197万亿次浮点BF16效能实际上比TPU v4的275万亿次浮点有所下降。
Trillium 芯片具有下一代 HBM 内存,但没有具体说明它是 HBM3 还是 HBM3e,英伟达在其 H200 和 Blackwell GPU 中使用了 HBM3e。
TPU v5e 上的HBM2容量为16GB,因此Trillium将拥有32GB的容量,HBM3和HBM3e均有提供。 HBM3e 提供最大的带宽。
服务器Pod中最多可配对256个Trillium芯片,与TPU v5e相比,芯片间通讯提高了一倍。 谷歌并未透露芯片间通讯速度,但可能是3200 Gbps,是TPU v5e 1600 Gbps的两倍。
谷歌表示,Trillium TPU的节能效果也比TPU v5e高出67%。
Trillium 正在取代 TPU 品牌名称,并将成为未来几代芯片背后的品牌。 Trillium 是根据花的名字命名的,不要与 AWS 的 Trainium 混淆,Trainium 是一种人工智能训练芯片。
谷歌很快就发布了其第六代TPU——距离该公司发布TPU v5芯片还不到一年。
TPU v4 于 2020 年推出 ,拖了 三年才发布 TPU v5.因 TPU v5 本身的开发也陷入了争议,根据《自然》杂志的调查,与 TPU v5 AI 设计项目相关的研究人员相继被解雇或离职,该说法正验证中。
谷歌声称,人工智能代理帮助TPU v5芯片进行平面规划,速度比人类专家快约六个小时。
服务器Pod将托管256个Trillium芯片,AI芯片的通讯速度是类似TPU v5 Pod设定的两倍。
这些Pod可以组合成更大的集群, 并透过光纤网络进行通讯。 舱体之间的通信速度也将提高两倍,从而提供更大的 AI 模型所需的可扩展性 。
谷歌表示:「Trillium TPU 可以扩展到数百个Pod,透过每秒数拍比特的数据中心网络互连建筑级超级计算机中的数万个芯片。」
一项名为 Multislice 的技术将大型 AI 工作负载串联到大型丛集中的数千个 TPU 上。 这确保了TPU的高正常运作时间和能源效率。
该芯片具有第三代 SparseCores,这是一种更接近高带宽记忆体的中间芯片, 大多数 AI 运算都在这里进行。
SparseCores 让处理更接近内存中的数据, 支持 AMD、英特尔和高通正在研究的新兴计算架构。
通常,数据必须从内存移动到处理单元,这会消耗带宽并产生阻塞点。 稀疏计算模型试图通过将处理单元移近存储器集群来释放网络带宽。
谷歌表示:「Trillium TPU 可以更快地训练下一波基础模型,并以更少的延迟和更低的成本为这些模型提供服务。」
Trillium 还具有用于矩阵数学的 TensorCore。 Trillium 芯片是为人工智能设计的,不会运行科学应用程序。
该公司最近发布了首款CPU Axion,它将与Trillium搭配使用。
Trillium 芯片将成为谷歌自主研发的 Hypercomputer AI 超级计算机设计的一部分,该设计针对其 TPU 进行了最佳化。
该设计融合了运算、网络、存储和软件,以满足不同的 AI 消费和调度模型。 「日历」系统满足任务何时开始的严格期限,而「弹性启动」模型则保证任务何时结束并交付结果。
超级计算机包含一个软件堆栈和其他工具,用于开发、优化、部署和编排用于推理和训练的 AI 模型。 其中 包括 JAX、PyTorch/XLA 和 Kubernetes。
超级计算机将继续使用针对GPU优化的互连技术,例如基于英伟达H100 GPU的Titanium卸载系统和技术。
预计Trillium芯片将在谷歌云端中提供,但谷歌没有公布提供日期,预计Trillium将成为顶级产品,成本高于TPU v5产品。
云中GPU的高价可能会让Trillium对客户有吸引力。 已经使用 Vertex(Google Cloud 中的 AI 平台)中提供的 AI 模型的客户也可能会转向 Trillium。
AWS 的 Trainium 芯片也可用,而微软的 Azure Maia 芯片主要用于推理。
谷歌一直将其TPU作为英伟达GPU的AI替代品,并发布研究论文,将TPU的效能与同类英伟达GPU进行比较。
谷歌最近宣布将搭载英伟达的新 GPU、B200 和带有 Blackwell GPU 的专用 DGX 盒。
英伟达最近也宣布将以7亿美元收购 Run.ai。 收购 Run.ai 将使英伟达在运行 AI 模型时能够使其软件堆叠独立于谷歌的堆叠。
TPU最初是为谷歌的本土模型设计的,但该公司正在努力更好地映射到开源模型,其中包括Gemini的分支Gemma。