英伟达都有哪些对手?
*当然是amd和英特尔,前者本身就有ai加速卡的业务,集cpu和gpu设计能力与一身,而后者呢,作为x86架构的奠基人,如今也涉足ai加速卡领域,可以见到它们所推出的产品不仅在参数上对标英伟达,还在定位与售价等方面发动了一轮又一轮的攻势。
而英伟达的客户与博通和marvell组成统一战线后,也成了它的对手,不断推陈出新的自研定制芯片,开始取代传统的通用ai加速卡,让英伟达感受到了另一种压力。
而在网络领域,英伟达也迎来了自己的对手。
1、英伟达独占ai网络
进入21世纪以来,随着云计算、大数据的日益普及,数据中心得到了快速发展。而infiniband在其中发挥了很大的作用,尤其是从2023年开始,以chatgpt为代表的大型ai模型依赖于infiniband,让这一网络技术的关注度进一步提升。
众所周知,现代数字计算机自诞生以来就一直采用冯·诺依曼体系结构,该体系结构中有cpu、内存(ram、硬盘)和i/o(输入/输出)设备。20世纪90年代初,为了支持越来越多的外部设备,intel率先在标准pc架构中引入了外围组件互连(pci)总线设计。
随后,互联网进入快速发展阶段,在线业务和用户规模的不断增长对it系统容量提出了巨大挑战。在摩尔定律的支持下,cpu、内存、硬盘等部件都在飞速进步,而pci总线的更新换代速度却比较慢,大大限制了i/o性能,成为了整个系统的瓶颈。
为了解决这个问题,intel、微软和sun牵头制定了“下一代i/o”技术标准,而ibm、康柏和惠普则牵头制定了“未来i/o(fio)”,并于1998年联合制定了pci-x标准。
1999 年,fio 开发者论坛和 ngio 论坛合并成立了infiniband 贸易协会 。很快,在2000年,infiniband架构规范1.0版本正式发布。infiniband诞生的目的就是为了取代pci总线,它引入了rdma协议,提供更低的延迟、更高的带宽、更高的可靠性,从而实现更强大的i/o性能。
同样在1999年5月,几位从英特尔和伽利略科技公司出走的员工在以色列成立了一家叫mellanox的芯片公司, mellanox 成立后加入了 ngio,后来 ngio 与 fio 合并,mellanox 也加入了 infiniband阵营,并于 2001 年推出了*款 infiniband 产品。
而随着英特尔转向pci express,以及微软退出infiniband,该网络技术开始转向计算机集群互联的应用领域,而新成立的mellanox开始走上舞台,逐渐成为infiniband发展过程中的中坚力量。
infiniband虽然同时被英特尔和微软放弃,但它在新的领域中找到了增长点。2012年以后,随着高性能计算需求的不断增长,infiniband技术不断取得长足进步,市场份额不断提升。2015年,infiniband技术在top500榜单中的份额首次突破50%,达到51.4%(257个系统)。这标志着infiniband技术首次成功挑战以太网技术,成为超级计算机*的内部互连技术。
而mellanox也在不断成长:2010年,mellanox与voltaire合并,mellanox和qlogic成为infiniband的主要供应商;2013年,mellanox 进一步进军网络领域,收购硅光技术公司 kotura 和并行光互连芯片制造商 iptronics,进一步巩固其行业地位;到 2015 年,mellanox 已占据全球 infiniband 市场80% 的份额。k8凯发真人的业务范围从芯片扩展到网卡、交换机/网关、远程通信系统、线缆和模块,成为世界级网络供应商。
随着ai的持续发展,infiniband的价值也日益显现,mellanox也因其在该技术上近乎垄断的地位而成为厂商眼里的香饽饽。
为什么infiniband对于ai如此重要?对于ai超级计算机来说,我们可以把它看作一个由许多图形处理单元组成的集群,这些单元进行大量复杂的计算。此外,还有一些中央处理单元(cpus)负责指挥计算机的操作,再加上一些dram芯片和nand芯片,成本大约分配为:50-60%用于gpus,10-15%用于cpus和dram芯片,5-10%用于nand芯片。
缆来实现,也就是所谓的“网络”,它们占硬件成本的10-15%,而目的就是提供尽可能高的带宽,让数据能快速传输,倘若不能实现更高的带宽,那么无论在gpus上花费多少成本,最后都会变得毫无意义。
英伟达作为ai领域最早的探索者之一,很敏锐地察觉到了这一点,同时决定将其关注点从游戏转向ai。2019 年,英伟达以69 亿美元收购 mellanox,超过了竞争对手英特尔和微软的出价,后两者的出价分别为 60 亿美元和 55 亿美元,这笔数额庞大的收购,为英伟达进入网络技术市场铺平了道路。
当时英伟达的ceo黄仁勋解释称,收购mellanox的原因是:“这是两家全球*的高性能计算公司的合并,我们专注于加速计算,而mellanox则专注于互连和存储。”
英伟达将自身的 gpu 算力与 mellanox 的网络技术相结合,打造出了一个强大的“计算引擎”,在计算基础设施方面,英伟达无疑占据着*优势,
2、英伟达的大威胁
过去,业界一直在使用英伟达配套的 infiniband 网络k8凯发真人的解决方案来部署人工智能和机器学习技术,原因很简单,它是目前最成熟的支持大规模部署的网络技术,但infiniband并非*,一方面由于收购,它变成了英伟达的*产品,另一方面,它的成本昂贵,绝非普通企业可以轻松承担得起的。
英伟达的ceo黄仁勋曾调侃道,infiniband只占集群成本的20%,而它能将人工智能训练的性能提高20%,某种程度上已经收回了成本,因而infiniband实际上是免费的。但这样的论断显然是有失偏颇的,客户必须首先拿出集群成本的20%,才能真正榨取出集群的性能,这就意味着用120%的成本创造120%的性能。
相对比之下,基于以太网的集群通常只需要额外的10% 甚至更低的成本,尽管后者在性能上往往难以与infiniband匹敌,但它凭着自己的低廉价格也争取到了一部分用户。事实上,如今高性能网络的竞争,是infiniband与高速以太网的较量,资源充足的厂商会更倾向于选择infiniband,而注重性价比的厂商则可能倾向于高速以太网。
但这样的情况并非一成不变,即便是那些具备雄厚财力的大企业,也在寻找更廉价更合适的网络方案,英伟达与infiniband正在不断受到挑战。
2023年7月,linux基金会宣布,将监督成立一个超级以太网联盟,该联盟的创始成员包括amd、arista、broadcom、思科、eviden、hpe、英特尔、meta 和微软的支持下,超以太网联盟表示将致力于改进以太网,以满足高性能计算和人工智能系统所需的低延迟和可扩展性要求。
该联盟创立的首要任务是定义和开发他们所称的超以太网传输协议,这是一种新的以太网传输层协议,能更好地满足人工智能和 hpc 工作负载的需求。
在高层次上,超以太网联盟希望以外科手术的方式完善以太网,只对实现目标所必需的部分进行改进和改动。从一开始,该联盟就着眼于改进以太网技术的软件层和物理层,但不改变其基本结构,以确保成本效益和互操作性。
联盟的技术目标包括开发规范、应用程序接口和源代码,以定义超以太网通信的协议、接口和数据结构。此外,联盟还致力于更新现有的链路和传输协议,创建新的遥测、信令、安全和拥塞机制,以更好地满足大型人工智能和高性能计算集群的需求。同时,由于人工智能和高性能计算工作负载有许多不同之处,uet 将为适当的部署提供单独的配置文件。
得益于这个超级以太网联盟,过去以太网运行 ai 工作负载的几个问题正在解决,也推动了以太网在传统 hpc 工作负载中的更广泛采用,这也让以太网网络公司找到了反攻infiniband的机会。
“arista声称其以太网在任务完成速度上比infiniband快约10%,这一点令我们感到意外,特别是考虑到infiniband在当前gpu集群中的深度渗透。”jefferies分析师george notter在会议后表示。
他指出,英伟达将gpus与infiniband简单捆绑销售是该技术成功的关键原因,换句话说,infiniband受欢迎的部分原因是因为它与英伟达的gpu一起销售,但这现在gpu的积压订单减少了,使用infiniband的动机可能也会减少,这对arista以及另一家以太网网络公司博通来说是个好消息。
“我们在四个主要的ai以太网集群中取得了进展,这些集群都是我们战胜infiniband的案例。在所有四个案例中,我们现在正从试验转向试点,每年连接数千个gpu,”arista首席执行官jayshree ullal解释道。
arista在上季度业绩表现也非常不错,截至3月的三个月中,arista的收入同比增长了16%,每股收益增长了44%,分析师预计随着ai基础设施支出的增加,这一增长将会加速。arista约40%的业务来自微软和meta,这两家公司都宣布明年将再次增加资本支出。jefferies分析师george notter最近还将arista的评级从持有上调至买入,他表示:“现在,部署基于gpu的基础设施的热潮将会持久。”
对网络硬件的需求比博通预期的还要快,“超大规模客户以及部署ai数据中心的大型企业的强劲需求”推动了这一增长。因此,博通将其网络业务的全年增长预期从30%上调至35%。整体而言,博通今年的收入预计为500亿美元,比去年增长40%。
国外媒体nextplatform提出了一个有趣的数学问题:arista networks 在 ai 集群互连销售中每赚取 7.5 亿美元,英伟达可能会损失 15 亿至 22.5 亿美元。在过去的 12 个月中,粗略估计英伟达在 infiniband 网络方面的销售额为 64.7 亿美元,而数据中心的 gpu 计算销售额为 397.8 亿美元,在四比一的分红率和稳定的市场条件下,英伟达可以保留约 13 亿美元,而超级以太网联盟可以保留 17 亿至 26 亿美元,如果一切保持不变,infiniband 的销售目标将达到 120 亿美元。
该媒体指出,超级以太网联盟的成员可以抢占的市场份额很大,但他们将通过从系统中移除收入来抢占,就像 linux 对 unix 所做的那样,而不是将收入从一种技术转换为另一种技术,其中节省下来的资金将重新投入到 gpu 中。
3、挑战英伟达
英伟达不止是在网络领域受到挑战,正如我们前文中提到的,它的*依仗——gpu正在受到amd、英特尔、博通等公司的围剿,尽管它坐拥3万亿美元市值,但依然会倍感压力。
在网络市场,arista现在无疑还是非常弱小的一家公司,相较于英伟达infiniband动辄数十亿美元的营收,短期内它还难以挑战,但巨头们对于ai集群网络垄断的不满,让arista获得快速发展的宝贵机会,假以时日,它很有可能成为英伟达新的心腹大患。
免责声明:该文章系本站转载,旨在为读者提供更多信息资讯。所涉内容不构成投资、消费建议,仅供读者参考。