与今年年初相比,英伟达的股价已经增长了70.3%,反映了资本市场对英伟达的认可和追捧。5年以来,英伟达股价飙升2268%(截至7月17日收盘)。甚至在美国时间7月8日收盘后,英伟达以2513.1亿美元市值首超英特尔,一度成为美国市值最高芯片制造商、全球市值第三的半导体公司。英伟达为何被资本市场寄以厚望,它做对了什么?

推动GPU从专用领域走向通用领域

如何更好地解决计算问题,是计算机软硬件开发者的永恒主题。从3D加速卡开发商,到GPU的发明者,再到“AI芯片第一股”,英伟达惊人的成长速度,正是来自于对算力痛点的精准突击。

20世纪90年代,随着Play Station等游戏主机的发布,以及计算机性能的提升和彩色显示器的出现,3D游戏开始萌芽。而英伟达也正是在这一时期成立,主要面向图形显示市场。但在这一时期,3D图像处理主要以3D加速卡的形式进行,T&L(光影转换)运算仍需占据CPU的算力,也限制了游戏画质的发展。

英伟达的GeForce 256,将“GPU”这一概念推向市场。GeForce将T&L能力集成到图形处理芯片,将CPU从图形处理的任务中解放出来,在提升3D画质的同时,也提升了计算机的整体效能。在三年的时间里,英伟达的GPU出货量突破100万颗,成为美国成长最快的半导体公司。

虽然在GPU的技术研发和专利积累取得了先发优势,但是英伟达首席科学家David Kirk认为,GPU的能力不应该局限于图像渲染,如何将GPU的浮点运算和并行计算资源释放给更多领域的从业人员使用,成为英伟达的研发重点。

之后,英伟达开始对“通用GPU”的研究,让本身为图形图像处理而生的GPU能够运行图形渲染之外的通用计算任务。但是,通用GPU编程门槛极高且难以调试。2006年,英伟达推出并行计算程序开发环境“CUDA”,开发者可以用C、C++、FORTRAN等常用的编程语言在CUDA编写程序。借由CUDA的软硬件生态,不用领域的开发者可以根据本领域的需求,编写GPU加速应用,从而更有效率地利用英伟达GPU处理计算任务。

随着深度学习的浪潮兴起,擅长串行运算的CPU,无法高效执行矩阵乘法和卷积计算任务。2012年,基于英伟达GPU加速的卷积神经网络AlexNet参加了ImageNet大规模视觉识别挑战赛,以低于第二名10.8%的错误率拔得头筹,引起了科研领域对于GPU的关注。自此,GPU被越来越多地运用于机器学习和深度学习领域,并迅速崛起为AI计算的主流芯片。

在AI计算平台方面,英伟达面向从云端到边缘端的需求,构建了面向训练的DGX平台、超大规模云计算和HPC服务器的HGX平台、面向边缘计算的EGX平台和适用于自主系统的AGX平台。2018年,英伟达推出专为深度学习设计的Tensor Core,进一步提升了针对常用深度学习模型的浮点运算速度。今年以来,浪潮AI服务器、谷歌云相继采用Tensor Core。采用“CUDA Core + Tensor Core”的英伟达GPU,已经在AI算力市场占据一席之地。

数据中心将成为最大收入来源

长期以来,游戏业务是英伟达最大的收入来源,但目前来看,这一局面有可能被改变。英伟达2021财年第一季度财报显示,其数据中心收入达到11.4亿美元,较去年同期增长80%。而本季度游戏业务收入为13.4亿美元,同比增长27%。数据中心业务已经成为英伟达增速最快的业务,而且收入占比与游戏业务的差距持续缩小。

英伟达在股价和市值上的突飞猛进,与其采用多点开花战略,持续降低对游戏市场的依赖程度息息相关。

“英伟达主要深耕于GPU芯片,早期主要应用在游戏领域,是其收入的主要来源。随着AI和数据中心的兴起,市场对GPU的需求的暴增,给英伟达带来巨大机遇。从2016年起,数据中心领域成为英伟达增长的重要动力。随着今年收购了Mellanox,英伟达在云端和数据中心领域进一步壮大,业务收入将超过游戏成为收入来源的第一位。AI和数据中心是未来十年热点,会有巨大的市场空间,英伟达的高股价也是人们对于英伟达在AI领域前景的反应。” 分析师吕芃浩向《中国电子报》记者声称。

计算机视觉是当前AI前景最为广阔、商用条件最为成熟的领域。清华大学数据显示,在AI技术层面上,计算机视觉的应用在整个人工智能应用领域中占比达34.9%,已成为各行业发展的重要支撑。无论是安防监控、人脸识别,还是自动驾驶根据摄像头判断环境和路况,其本质都是代替人眼去识别、追踪目标物体,而图形图像处理正是GPU加速器的优势所在。

而“挖矿”,也就是通过运行特定算法赚取比特币。由于需要重复性的大量运算,GPU成为“矿场”“矿主们”最常用的算力工具,一度导致英伟达、AMD的主力GPU出现缺货。

“目前AI计算的大部分应用场景都是对图形图像进行计算,矿机业务也属于并行计算,这都是适合GPU去发挥的领域。”业内人士王笑龙向《中国电子报》记者声称。

虽然“矿机”曾为两大GPU厂商贡献利润,但“挖矿”并不能与区块链技术划等号。业界人士称,“挖矿”属于“币圈”,而区块链技术研究属于“链圈”,“币圈”并不关注区块链技术的发展。在这波红利来得快去得也快,也拖累了英伟达在2018年第三、四季度的营收和股价表现。

2019年第一季度,努力走出加密货币“宿醉效应”的英伟达,加大了在数据中心领域的投入。当年3月,英伟达宣布与以色列芯片制造商Mellanox达成收购协议,这笔收购在今年4月27日宣告完成。Mellanox能提供端到端高速以太网和InfiniBand互联解决方案。英伟达创始人兼CEO黄仁勋声称,通过融合Mellanox的技术,NVIDIA将拥有从AI计算到网络的端到端技术,以及从处理器到软件的全堆栈产品,拥有足够的规模去推进下一代的数据中心技术。

今年以来,新冠肺炎疫情减少了全球消费者外出活动的时间,“宅经济”异军突起,远程服务、串流等应用持续带动数据中心需求。英伟达趁热打铁,推出了采用安培架构的7nm GPU“NVIDIA A100”,AI训练、推理的峰值算力较上一代Volta架构GPU有了20倍的提升。

“目前,数据中心的数量和规模将会持续增加,英伟达GPU在当前已经占据了数据中心市场,并建立了完整的生态。从云到端都采用英伟达的CUDA计算平台,可以极大地减少算法跨平台的难度,实现平滑过渡,提高开发效率。”吕芃浩向记者声称。

自动驾驶,被英伟达视为AI时代最大的算力挑战。据统计,2019年英伟达在车用半导体市场营收达到6.26亿美元,跻身全球前20大汽车半导体企业。目前,英伟达建立起从10TOPS/5W,200TOPS/45W到2000 TOPS/800W的产品线,分别对应前视模块、L2+ADAS以及Robotaxi的各级应用。今年6月,梅赛德斯-奔驰宣布与英伟达共同开发下一代汽车平台,支持L2、L3自动驾驶功能和最高达到L4的自动泊车功能,打造可拓展、可升级的软件定义汽车。

制程、架构、软件算法协同发展

从Pascal架构到Ampere架构,英伟达GPU的AI算力有了20倍的提升。业界有观点称,英伟达在AI芯片步履飞快,是因为采用台积电代工的模式,在制程上相对IDM的英特尔有着更快的推进速度。那么,随着摩尔定律逼近极限,Ampere架构也已经走到7nm,英伟达的GPU能够满足持续增长的算力需求么。

对此,黄仁勋曾在接受媒体采访时声称,制程不是最为重要的。英伟达仅通过软件优化,就能在两年时间内将AI性能提升4倍。由于架构设计得更好,12nm的图灵芯片效能超过了7nm的GPU。20倍的算力提升,靠的是架构、算法、软件和应用的共同合力。

王笑龙也向记者声称,制程是芯片工艺的基础,云端AI计算量大,尤其对工艺要求很高。但在关注制程的同时,也要关注架构和软件算法。架构是硬件设计的基础,是英伟达等欧美公司的强项。算法软件,是在制程、架构基础上的优化。三者共同构成芯片的计算性能。

从英伟达的产品更新来看,在制程、架构、软件算法上,英伟达的发力是相对平衡的。从K40到A100,架构与制程基本保持了同步更新,从28nm的Kepler一直到7nm的Ampere。与此同时,CUDA也从1.0版本发展到了11.0版本。同时,在封装技术上,英伟达在推出Pascal架构时,将处理器与数据封装到一起以实现更高的计算效率,采用 HBM2 的 CoWoS(晶圆基底芯片)技术提供更高的显存带宽性能。据悉,今年英伟达将成为台积电CoWoS封装的主要客户之一,借由晶圆级封装进一步强化芯片能力。

集邦咨询分析师姚嘉洋向记者声称,英伟达之所以能在人工智能领域拥有一席之地,有部分原因是因为在GPU架构中导入了Tensor Core的功能,目前也已经演进到了第三代,再辅以先进制程与封装技术的支持,才能发挥强大的AI算力,要继续满足如今市场的AI算力需求,应该没有太大的问题。

当然,市值的高歌猛进,不代表营收的实质性提升。英伟达虽然在市值上与英特尔出现“你争我赶”的势头,但营收还与英特尔相去甚远。而且,随着数据中心需求的进一步释放,通用GPU的市场竞争只会越来越激烈。今年以来,AMD发布了面向数据中心等高性能计算业务的GPU架构CDNA。英特尔CFO首席财务官George Davis也透露,英特尔预计在2020年推出一款面向独立显卡的Xe架构GPU。毕竟AI还处于发展变化之中,算法和算力需求会持续更迭。未来,能最先看到需求并进行调整的厂商,才能立于不败之地,受到市场和资本的认可和青睐。