超级云：AI、云原生超级计算机跻身 TOP500 榜单

2021/7/5 18:00:50 来源：每日焦点网

基于云的 AI 超级计算机(包括 Microsoft Azure 和剑桥大学的新系统)正在世界上最强大的计算机的最新榜单上蓄势待发

今天 ISC 高性能计算大会 (ISC High Performance) 发布的 TOP500 榜单中,有 342 个系统采用了 NVIDIA 技术提供加速,其中包括70%的新系统,与排名前10的8个。

最新的全球最强系统榜单显示出越来越多的高性能计算中心在使用 AI,也体现出用户们在继续拥抱NVIDIA AI与加速计算、网络技术的组合来运行他们的科学和商业工作负载。

例如,榜单上使用 InfiniBand 的系统数量比去年增加了 20%。随着AI,HPC和模拟数据对于低延迟和加速的需求日益增加,InfiniBand已成为首选网络。

此外,名单上的两个新系统便是我们所称的超级云——一种新兴的共享超级计算机,能够同时满足人工智能、高性能计算和云端的需求。

超级云的到来

Microsoft Azure 利用集群将公有云服务提升到一个新的水平,在 TOP500 榜单上连续占据第 26 位到第 29 位。它们是超级云的一部分,是一台全球的人工智能超级计算机,如今地球上的任何用户都可以按需使用。

在HPL基准测试(也成为了Linpack),四个 Azure 系统中的每一个都实现了 16.59 Petaflop 的计算性能。Linpack 是衡量 64 位浮点数学运算的高性能计算性能的传统标准,也是 TOP500 榜单的参考依据。

迈入行业高性能计算时代

Azure 系统便是 NVIDIA 首席执行官黄仁勋所述“行业高性能计算革命”的一例,即 AI 与高性能计算和加速计算融合,正在推动科研和行业各个领域的发展。

在幕后,有 8 个 NVIDIA A100 Tensor Core GPU 为 Azure 系统的各个虚拟实例提供动力支持。每个芯片都有自己的 HDR 200G InfiniBand 通信接口,可以与 Azure 云中的数千个 GPU 建立快速连接。

英国研究人员采用云原生技术

剑桥大学首次成为英国最快的学术系统,其超级计算机在 Green500 世界上最节能的系统名单中排名第三,这是另一种超级云。它被称为 Wilkes-3,是世界上第一台云原生超级计算机,其使研究人员可以在不影响性能的情况下,共享具有隐私和安全性的虚拟资源。这要归功于经过优化的NVIDIA BlueField DPU可以执行安全、虚拟化和其他数据处理任务。

该系统使用 320 个连接在 HDR 200G Infiniband 网络上的 A100 GPU,为学术研究以及探索科学和医学前沿的商业合作伙伴加速模拟、人工智能和数据分析。

TOP500 榜单新秀采用 AI

榜单上许多由 NVIDIA 提供动力支持的新系统,凸显了 AI 对于科研和商业用户的高性能计算应用的重要性不断提升。

国家能源研究科学计算中心 (NERSC) 的 Perlmutter 以 64.59 Linpack petaflops 在 TOP500 中排名第 5,部分归功于其 6,144 个 A100 GPU。

该系统在最新版本的 HPL-AI 上提供了超过一半的 exaflops 性能。它是融合 HPC 和 AI 工作负载的新兴基准,它使用混合精度数学——深度学习和许多科学和商业工作的基础——同时仍然提供双精度数学的完全准确性。

AI 性能变得越来越重要,因为 AI 是 “美国能源部的一个增长领域,其可行性已被验证,正在计划投入生产,” NERSC 数据和分析服务组代理负责人 Wahid Bhimji 表示。

HiPerGator AI 以 17.20 petaflops 排名第 22 位,在 Green500 榜单中排名第 2,使其成为世界上最节能的学术超级计算机。它与 Green500 的榜首位置相差甚远——仅为 0.18 Gflops/Watt。

与最新名单上的其他 12 款系统一样,该系统采用了 NVIDIA DGX SuperPOD 的模块化架构,这一配置让佛罗里达大学能够快速部署世界上最强大的学术 AI 超级计算机之一。该系统还使其成为领先的AI大学,其既定目标是在2030 年前有 30,000 名AI相关专业的毕业生。

卢森堡的 MeluXina 在 HPL-AI 上以 10.5 Linpack petaflops排名第 37 位。该系统是首批在欧洲国家超级计算机网络中亮相的首个系统,,将用于在科研和商业应用中运用 AI 和数据分析。

Cambridge-1 在 500 强中排名第 42 位,达到 9.68 Linpack petaflops,成为英国最强大的系统,将为包括阿斯利康(AstraZeneca)、葛兰素史克(GSK)和Oxford Nanopore在内的学术和商业组织的英国医疗保健研究人员提供服务。

BerzeLiUs 以 5.25 petaflops 排名第 83,成为瑞典最快的系统。BerzeLiUs在 200G 的 InfiniBand 网络上连接了 60 个 NVIDIA DGX 系统,将HPC、AI 和数据分析用于学术和商业研究。是榜单上15个基于NVIDIA DGX的其中一个。

10 大系统助推 HPL-AI 采用

另一个迹象表明,AI 工作负载的重要性日益增加,榜单上有 10 个系统报告其 HPL-AI 得分是去年 6 月的 5 倍。大多数系统采用了 3 月发布的针对代码的重大优化,这是自田纳西大学的研究人员在 2018 年底发布该基准以来的首次升级。

新软件简化了通信,实现了 GPU 间链路,从而消除了等待主机 CPU 的时间。它还以 16 位代码的形式实现通信,而不是在Linpack 上默认使用的较慢的 32 位代码。

Azzam Haidar Ahmad 称:“我们将芯片间通信的时间减少了一半,并使其他一些工作负载能够并行运行,因此新代码相较于原代码平均改进了约 2.7 倍”。他帮助定义了该基准,现在是 NVIDIA 的高级工程师。

该基准测试虽然专注于混合精度数学计算,但仍然提供与 Linpack 相同的 64 位精度,这要归功于 HPL-AI 的一种循环方法,它能迅速优化一些计算。

Summit 的 HPL-AI 得分超过 1 Exaflop

经过优化后,与去年使用早期版本的代码所报告的得分相比,现在的得分大大高于基准线。

例如,橡树岭国家实验室(Oak Ridge National Lab,ORNL)的 Summit 超级计算机是第一台采用 HPL-AI 基准的超级计算机,其在 2019 年宣布使用第一版代码的得分为 445 Petaflop。今年峰会上的测试使用最新版本的 HPL-AI 测试,得分达到 1.15 Exaflops。

采用该基准的其他超级计算机包括日本的 Fugaku(世界上最快的系统)、NVIDIA 的 Selene(世界上最快的商业系统)和德国的最强超级计算机 Juwels。

于利希超算中心 (Jülich Supercomputing Center) 主任 Thomas Lippert 称:“我们使用 HPL-AI 基准,因为它能很好地衡量我们日益增多的 AI 和科研工作负载中的混合精度作业,而且能反映准确的 64 位浮点运算结果。”