1965 年,时任仙童半导体公司工程师,也是后来英特尔的创始人之一的戈登 · 摩尔(Gordon Moore)提出了摩尔定律(Moore's law),预测集成电路上可以容纳的晶体管数目大约每经过 24 个月便会增加一倍。
后来广为人知的每 18 个月芯片性能将提高一倍的说法是由英特尔 CEO 大卫 · 豪斯(David House)提出。过去的半个多世纪,半导体行业按照摩尔定律发展,并驱动了一系列的科技创新。
有意思的是,在摩尔定律放缓的当下,以全球另一大芯片公司英伟达(NVIDIA)创始黄仁勋(Jensen Huang)名字命名的定律 “黄氏定律 (Huang’s Law)”对 AI 性能的提升作出预测,预测 GPU 将推动 AI 性能实现逐年翻倍。
英伟达 GPU 助推 AI 推理性能每年提升一倍以上
英特尔提出了摩尔定律,也是过去几十年最成功的芯片公司之一。英伟达作为当下最炙手可热的 AI 芯片公司之一,提出黄氏定律是否也意味着其将引领未来几十年芯片行业的发展?
AI 性能将逐年翻倍
受疫情影响,一年一度展示英伟达最新技术、产品和中国合作伙伴成果的 GTC China 改为线上举行,黄仁勋缺席今年的主题演讲,由英伟达首席科学家兼研究院副总裁 Bill Dally 进行分享。Bill Dally 是全球著名的计算机科学家,拥有 120 多项专利,在 2009 年加入英伟达之前,曾任斯坦福大学计算机科学系主任。加入英伟达之后,Dally 曾负责英伟达在 AI、光线追踪和高速互连领域的相关研究。
英伟达首席科学家兼研究院副总裁 Bill Dally
在今天 GTC China 2020 演讲中,Dally 称:“如果我们真想提高计算机性能,黄氏定律就是一项重要指标,且在可预见的未来都将一直适用。”
Dally 用三个项目说明黄氏定律将如何得以实现。首先是为了实现超高能效加速器的 MAGNet 工具。英伟达称,MAGNet 生成的 AI 推理加速器在模拟测试中,能够达到每瓦 100 tera ops 的推理能力,比目前的商用芯片高出一个数量级。
之所以能够实现数量级的性能提升,主要是因为 MAGNet 采用了一系列新技术来协调并控制通过设备的信息流,最大限度地减少数据传输。数据搬运是 AI 芯片最耗能的环节已经是当今业界的共识,这一研究模型以模组化实现能够实现灵活扩展。
Dally 带领的 200 人的研究团队的另一个研究项目目标是以更快速的光链路取代现有系统内的电气链路。Dally 说:“我们可以将连接 GPU 的 NVLink 速度提高一倍,也许还会再翻番,但电信号最终会消耗殆尽。”
这个项目是英伟达与哥伦比亚大学的研究团队合作,探讨如何利用电信供应商在其核心网络中所采用的技术,通过一条光纤来传输数十路信号。据悉,这种名为 “密集波分复用”的技术 , 有望在仅一毫米大小的芯片上实现 Tb/s 级数据的传输,是如今互连密度的十倍以上。
搭载 160 多个 GPU 的 NVIDIA DGX 系统模型
Dally 在演讲中举例展示了一个未来将搭载 160 多个 GPU 的 NVIDIA DGX 系统模型。这意味着,利用 “密集波分复用”技术,不仅可以实现更大的吞吐量,光链路也有助于打造更为密集的系统。
想要发挥光链路的全部潜能,还需要相应的软件,这也是 Dally 分享的第三个项目——全新编程系统原型 Legate。Legate 将一种新的编程速记融入了加速软件库和高级运行时环境 Legion,借助 Legate,开发者可在任何规模的系统上运行针对单一 GPU 编写的程序——甚至适用于诸如 Selene 等搭载数千个 GPU 的巨型超级计算机。
Dally 称 Legate 正在美国国家实验室接受测试。
MAGNet、以光链路取代现有系统内的电气链路以及 Legate 是成功实现黄氏定律的关键,但 GPU 的成功才是基础。因此,GPU 当下的成功以及未来的演进都尤其重要。
GPU 是黄氏定律的基础
今年 5 月,英伟达发布了面积高达 826 平方毫米,集成了 540 亿个晶体管的 7nm 全新安培(Ampere)架构 GPU A100。相比 Volta 架构的 GPU 能够实现 20 倍的性能提升,并可以同时满足 AI 训练和推理的需求。
凭借更高精度的第三代 Tensor Core 核心,A100 GPU AI 性能相比上一代有明显提升,我们此前报道,在 7 月的第三个版本 MLPerf Training v0.7 基准测试(Benchmark)结果中,英伟达的 DGX SuperPOD 系统在性能上开创了八个全新里程碑,共打破 16 项纪录。
另外,在 10 月出炉的 MLPerf Inference v0.7 结果中,A100 Tensor Core GPU 在云端推理的基准测试性能是最先进英特尔 CPU 的 237 倍。
更强大的 A100 GPU 迅速被多个大客户采用,迄今为止,阿里云、百度智能云、滴滴云、腾讯云等众多中国云服务提供商推出搭载了英伟达 A100 的多款云服务及 GPU 实例,包括图像识别、语音识别,以及计算流体动力学、计算金融学、分子动力学等快速增长的高性能计算场景。
另外,新华三、浪潮、联想、宁畅等系统制造商等也选择了最新发布的 A100 PCIe 版本以及英伟达 A100 80GB GPU,为超大数据中心提供兼具超强性能与灵活的 AI 加速系统。
Dally 在演讲中提到:“经过几代人的努力,NVIDIA 的产品将通过基于物理渲染的路径追踪技术,实时生成令人惊艳的图像,并能够借助 AI 构建整个场景。”
与光链路取代现有系统内的电气链路需要软硬件的匹配一样,英伟达 GPU 软硬件的结合才能应对更多 AI 应用场景苛刻的挑战。
Dally 在此次的 GTC China 上首次公开展示了英伟达对话式 AI 框架 Jarvis 与 GauGAN 的组合。GauGAN 利用生成式对抗网络,只需简略构图,就能创建美丽的风景图。演示中,用户可通过语音指令,即时生成像照片一样栩栩如生的画作。
GPU 是黄氏定律的基础,而能否实现并延续黄氏定律,仅靠少数的大公司显然不够,还需要众多的合作伙伴激发对 AI 算力的需求和更多创新。
黄氏定律能带来什么?
英伟达已经在构建 AI 生态,并在 GTC China 上展示了英伟达初创加速计划从 100 多家 AI 初创公司中脱颖而出的 12 家公司,这些公司涵盖会话人工智能、智慧医疗 / 零售、消费者互联网 / 行业应用、深度学习应用 / 加速数据科学、自主机器 / IOT / 工业制造、自动驾驶汽车。
智能语音正在改变我们的生活。会话人工智能的深思维提供的是离线智能语音解决方案,在占有很少空间的前提下实现智能交互,语音合成和语音识别保证毫秒级响应。深声科技基于英伟达的产品研发高质量中英文语音合成、声音定制、声音克隆等语音 AI 技术。
对于行业应用而言,星云 Clustar 利用英伟达 GPU 和 DGX 工作站,能够大幅提升模型预测精确度以及解决方案处理性能,让传统行业的 AI 升级成本更低、效率更高。
摩尔定律的成功带来了新的时代,黄氏定律能否成功仍需时间给我们答案。但这一定律的提出对 AI 性能的提升给出了明确的预测,并且英伟达正在通过硬件、软件的提升和创新,努力实现黄氏定律,同时借生态的打造想要更深远的影响 AI 发展。
黄氏定律值得我们期待。