尽管仅在5月30日短暂突破万亿美元市值便再次下跌,但由chatgpt引发的“英伟达”旋风,在ai业界却越刮越猛。
6月1日,多个独立信源告诉华尔街见闻,英伟达ceo黄仁勋将于6月5日至6月11日期间抵达中国大陆。但英伟达没有向华尔街见闻正面确认此则消息。
(资料图)
眼下,a股但凡和“英伟达”或“黄仁勋”三字沾边,个股都受到市场热捧。5月29日,黄仁勋在参加computex 2023中国台北国际电脑展会时,演示英伟达新平台isaac amr(自主移动机器人)。这个平台的底盘采用了科创板公司的rmp系列产品,该公司盘中立即涨停。
在“超级ai应用”chatgpt的指引下,英伟达第二季度营收预测值超出市场预期竟高达惊人的50%,至110亿美元。
谁还能阻挡英伟达称霸ai赛道?
英伟达的ai gpu强在何处?
英特尔已不再是当年那家占据统治地位的科技公司。
原本cpu是pc或服务器最重要的核心部件。但是现在,加速计算芯片通过杀手级应用chatgpt正在加速取代cpu的地位。算力成为以idc为基础条件的ai应用发展核心驱动力,gpu成为关键部件。
“生成式人工智能将是(英伟达业绩)引爆点。”黄仁勋说,“与cpu相比,未来idc更需要gpu,因为数据都将通过生成式llm自动生成,而非主要用于数据检索。”生成数据需要更多的gpu,而检索数据,只需要cpu。
目前,性能愈发强悍的pc系统配置了超过8个服务器gpu和1个cpu的算力硬件,英伟达占据了全球超过八成(84%)的服务器(idc:数据中心)gpu市场份额。
比如,英伟达dgx系统,这是用于数据训练的idc核心算力来源,搭载了8颗英伟达高端h100 gpu,还有两颗cpu;谷歌的a3超级计算机,同样用了8颗英伟达h100 gpu,但只用了1颗英特尔制造的高端至强处理器。
据英伟达公示的技术资料显示,h100于2022年三季度发布,训练速度比a100快9倍,推理速度比上代产品a100快30倍。5月29日,黄仁勋发布了gh200超级芯片,这是英伟达开发的基于arm架构的cpu gpu集成方案,用于开发聊天机器人、互联网推荐系统算法等大模型ai应用。
这个趋势随着agi在产业的持续落地,产生的影响日益显著。英伟达idc业务在第一季度增长了14%,但英特尔的ai和idc业务部门业绩下降了39%。
另一项因素也在加强英伟达超越英特尔的优势。英伟达服务器gpu售价极高,单颗英伟达h100售价高达4万美元(ebay平台加急售价),而英特尔最新一代至强cpu的单颗标价虽然也很高,但“只有”1.7万美元。
当然英伟达也不是全无对手,当年英特尔的上游ag凯发k8国际的合作伙伴amd,也在发力服务器gpu,包括高通、苹果、谷歌和亚马逊在内的众多巨头,都在设计开发移动ai算力芯片,而非服务器gpu;甚至是英特尔,在游戏领域的gpu技术实力,同样不容小觑。
但是在眼下,英伟达确实一家独大。但凡提及agi算力,无不将英伟达服务器gpu列为首选。这主要是因为agi目前对算力极为渴求,要处理处理tb级数据,训练性能要求极高,而在需要“推理”的过程中使用模型生成文本、图像或预测,也不是移动ai gpu能达成的。
更重要的还不在于英伟达的gpu硬件性能,而是——英伟达的ai软件系统:英伟达的ai专有软件,能轻松聚合gpu的硬件功能用于ai应用程序。
黄仁勋在英伟达财报电话会议上也说,“我们的软件不易复制,(竞对)必须设计所有的软件、库和算法,将它们集成到框架中并做持续优化;同时,软件架构也同样需要优化迭代。”
也就是说,要做到和英伟达一样,实现gpu与ai应用的无缝衔接,要做的不仅仅是优化芯片的设计和性能,还需要对软硬件的技术架构和整体框架做同步优化,这是一项系统工程。要超越单品性能虽然不易,但并非全无可能,但面对系统级能力,谈超越,难度不言而喻。
英伟达也在持续增加对idc的资本投入。据英伟达最新财报显示,其整体收入中,idc资本支出的份额占比已增至8.4%,而之前根据其上一年的固定比率预测为6.5%。
初创公司和巨头的现实威胁
看上去似乎无人能阻挡英伟达在ai技术领域的统治地位,但ai前景的无限空间,仍在吸引无数挑战者。
除了上文提及的多家巨头,初创ai公司成为英伟达ai挑战者大军不容忽视的一部分。当然,这种技术要求的初创公司很难出自无名之辈。
有一则极具戏剧性的传闻,出自在前沿技术和应用领域极为活跃的特斯拉公司首席执行官埃隆·马斯克(elon musk)之口。这位持续让世人惊叹的科技巨子说,“就连狗都在抢gpu”。
有鉴于此,所以马斯克虽然在口头上叫停研究ai技术,但他的身体却很诚实:这位老兄在今年3月9日建立了一家取名为“x.ai”的ai公司,还偷偷摸摸买了10000颗英伟达gpu。
想分英伟达一杯羹的还有来自英特尔公司架构、图形和软件(iags)部门的副总裁、首席架构师raja koduri,这位技术大拿已于今年3月底离职。接下来,raja koduri将创办一家ai技术公司,主要研发新一代生成式ai工具,目的是削弱英伟达对数字电影和视频游戏市场的控制力。
与马斯克的x.ai公司不知道要干嘛相比,raja koduri的计划更清晰。他这家尚未命名的ai初创公司,第一个项目,是要创建一套ai工具,以便让包括电影和游戏艺术家在内的消费群体,无论用pc、mac、ipad还是其他设备,都无需深入研究软件代码而直接生成自己想要的工作结果。
尽管这些ai赛道新手看上去很想大干一场,但真正对英伟达有现实挑战能力的还是amd、微软和谷歌此类巨头。其中,amd在游戏领域的gpu对英伟达有些许威胁,但idc需要的服务器专用gpu性能无法望其项背。
至于微软、谷歌甚至云服务商比如亚马逊,都一面和英伟达保持良好的业务合作,一面又在下大本钱研发自己的ai专用gpu。
比如微软,这个桌面pc时代的超级霸主,正是openai的背后金主(2019年微软给openai投了10亿美元),同时也是英伟达h100芯片最大的采购方。今年3月,微软用数万颗英伟达gpu帮openai组装了一台ai超级计算机。
但微软也在推进自己的ai芯片研发计划,代号“雅典娜”。这项计划始于2019年,目标是为训练llm(大语言模型)等软件而设计,同时可支持推理,能为chatgpt背后的所有ai软件提供算力支持,初代雅典娜gpu量产时间表被定于2024年。
与微软相比,谷歌对英伟达的威胁可能更显著。目前谷歌的ai处理芯片是专为ai研究开发机器学习(machine learning)的专属芯片tpu(张量处理单元),能同时处理“云上”训练和推理,并设计了基准测试工具mlperf。
谷歌tpu如今已迭代到v4版。据谷歌4月6日披露,得益于互连技术和领域特定加速器(dsa)方面的关键创新,谷歌云tpu v4在扩展机器学习系统性能方面比其前代版本有了近10倍的飞跃。
tpu v4是谷歌于2021年推出的、专门用于执行机器学习的ai芯片,是谷歌第5代特殊领域加速器(dsa:domain specific accelerator)及第3代用于ml模型的超级计算机平台,其性能与英伟达a100相比,速度快1.2-1.7倍,功耗低1.3-1.9倍。
尽管如此,就眼下看,对英伟达具有商业层面现实威胁的公司,还不存在。这些威胁,现在还处于水面之下。
编辑/jeffrey