随着人工智能迈入生成式 AI 阶段,大模型的兴起在为企业带来显著效率提升的同时,也对算力提出了前所未有的挑战。在今年的 GTC 2024 大会上,英伟达重磅推出 Blackwell 计算平台,以创新科技回应这一行业痛点,引领算力领域的新变革。该平台不仅集成了 NVIDIA GB200 Grace Blackwell 超级芯片,更融入第二代 Transformer 引擎、第五代 NVLink、RAS 引擎等前沿技术,并搭配全新 NVIDIA NIM 软件包,全方位提升计算性能与效率。
基于 NVIDIA GB200 Grace Blackwell 超级芯片及一系列创新技术与产品,英伟达同步发布新一代 AI 超级计算机 ——NVIDIA DGX SuperPOD。这一强大的计算利器专为处理万亿参数模型而设计,具备卓越的稳定性与不间断运行能力,可高效支撑超大规模的生成式 AI 训练与推理工作负载,为企业和科研机构在 AI 领域的深度探索提供坚实保障。
那么,被英伟达 CEO 黄仁勋誉为 “更大 GPU” 的 NVIDIA GB200 Grace Blackwell 超级芯片,究竟蕴含哪些颠覆式技术?基于此构建的超级计算机又将如何重塑 AI 计算版图?让我们一同深入剖析。
大模型的 “大”,直观体现在其庞大的参数规模上。以谷歌 LaMDA 模型为例,拥有高达 1370 亿参数;GPT-3 模型参数更是飙升至 1750 亿,而备受瞩目的 GPT-4 据传参数已达 1.8 万亿。模型规模的持续扩张,直接导致对算力的需求呈指数级增长。例如,训练 GPT3.5 就需动用约 3 万颗英伟达 A100 芯片,如此巨大的算力开销,成为众多企业与研究机构在 AI 征程中的拦路虎。
在 GTC 2024 大会现场,黄仁勋以 OpenAI 最先进的 1.8 万亿参数大模型为切入点,详细阐述其所需算力的惊人规模。该模型训练需处理数万亿的 Token,万亿级参数与海量 Token 相乘,得出的计算规模高达 3×10²⁵。黄仁勋现场估算,若使用一颗 petaflop(每秒 1000 万亿次运算)量级的 GPU 执行此任务,完成训练竟需长达 1000 年。
为彻底打破这一算力桎梏,英伟达正式推出 GB200 Grace Blackwell 大芯片。其 “大” 不仅彰显于拥有目前 GPU 中最多的晶体管数量,提供顶尖的计算性能,更体现在其占据最大的 GPU 物理面积。
一如往昔,黄仁勋在 GTC 2024 舞台上展示了 GB200 Grace Blackwell 芯片。他从口袋中掏出 Blackwell 芯片,与 Hopper 芯片并排展示,Hopper 芯片瞬间相形见绌。黄仁勋强调,面对当下算力挑战,“我们需要更大的 GPU,而 Blackwell 平台正是为应对这一难题而精心打造”。
作为当前面积最大的 GPU,GB200 Grace Blackwell 芯片通过 900GB/s 超低功耗的片间互联技术,巧妙地将两个 NVIDIA B200 Tensor Core GPU 与 NVIDIA Grace CPU 紧密相连。它采用台积电 4nm 先进工艺制造,集成了多达 2080 亿个晶体管,AI 性能一举突破至 20 petaflops。相较于英伟达 Hopper,Blackwell GPU 的 AI 性能实现了 5 倍跃升,片上存储容量更是提升 4 倍之多。
除了强大的基础性能,NVIDIA GB200 Grace Blackwell 超级芯片还集成了以下五大核心技术,进一步巩固其在算力领域的领先地位:
第二代 Transformer 引擎:借助全新微张量缩放支持,以及融入 NVIDIA TensorRT™-LLM 和 NeMo Megatron 框架的先进动态范围管理算法,Blackwell 在新型 4 位浮点 AI 推理能力上实现算力与模型规模的双倍提升,大幅加速推理进程,为实时性要求极高的应用场景提供有力支撑。
第五代 NVLink:为满足万亿级参数模型与混合专家 AI 模型的严苛性能需求,最新一代 NVIDIA NVLink® 为每块 GPU 带来高达 1.8TB/s 的双向吞吐量,确保在多达 576 块 GPU 的复杂集群环境中,实现无缝、高速的数据通信,有效消除数据传输瓶颈,充分释放大规模 GPU 集群的协同计算潜力,全面满足当今最复杂 LLM 的运行要求。
RAS 引擎:采用 Blackwell 架构的 GPU 内建专用的可靠性、可用性和可维护性(RAS)引擎。同时,Blackwell 架构新增多项芯片级功能,能够借助 AI 预防性维护技术,实时运行诊断程序,精准预测与可靠性相关的潜在问题。这一系列举措极大程度延长了系统正常运行时间,显著增强大规模 AI 部署的稳定性与弹性,保障系统可持续不间断运行数周甚至数月,同时有效降低运营成本,为企业长期稳定开展 AI 业务提供坚实后盾。
安全 AI:先进的机密计算功能在不影响性能表现的前提下,为 AI 模型与客户数据筑牢安全防线。此外,该芯片支持全新本地接口加密协议,这对于医疗、金融服务等对数据隐私高度敏感的行业而言,无疑是一剂 “强心针”,确保在数据处理与运算过程中,关键信息始终处于安全可控状态。
解压缩引擎:专用解压缩引擎支持最新数据格式,通过加速数据库查询操作,显著提升数据分析与数据科学应用的性能表现。在大数据时代,海量数据的存储与读取面临挑战,解压缩引擎的应用能够有效优化数据处理流程,让企业从繁杂的数据中快速挖掘出有价值的信息,提升决策效率与精准度。
数据显示,Blackwell 芯片在处理高达 10 万亿参数的模型时,能够出色完成 AI 训练与实时 LLM 推理任务,展现出卓越的性能与适应性,为超大规模模型的落地应用注入强大动力。
在高性能计算芯片不断突破的同时,随着数据量呈爆炸式增长,网络连接在生成式 AI 时代的重要性愈发凸显,成为制约 AI 发展的又一关键因素。
在 GTC 2024 大会上,英伟达顺势推出 Quantum-X800 InfiniBand 网络和 NVIDIA Spectrum™-X800 以太网络,以及配套开发软件。这是全球首批实现高达 800Gb/s 端到端吞吐量的网络平台,犹如为数据中心的 AI、云服务、数据处理及高性能计算(HPC)应用装上 “高速引擎”,进一步加速数据流转与运算效率。
Quantum-X800 平台集成了 NVIDIA Quantum Q3400 交换机和 NVIDIA ConnectX-8 SuperNIC,二者协同工作,实现业界领先的端到端 800Gb/s 吞吐量。与上一代产品相比,其交换带宽容量提升了 5 倍之多,网络计算能力更是借助 NVIDIA 的 SHARP™技术(SHARPv4)飙升 9 倍,达到惊人的 14.4Tflops。强大的网络计算能力与超高带宽,确保了大规模数据在网络中的快速、稳定传输,为分布式计算与多节点协作提供坚实保障。
Spectrum-X800 平台则由 Spectrum SN5600 交换机和 NVIDIA BlueField-3 SuperNIC 构成,专为多租户环境量身定制。该平台为多租户生成式 AI 云服务及大型企业用户提供一系列先进且关键的功能,极大地缩短了 AI 解决方案从开发、部署到推向市场的时间周期,助力企业快速响应市场需求,在激烈的竞争中抢占先机。
在软件层面,英伟达提供了一整套面向万亿参数级 AI 模型性能优化的网络加速通信库、软件开发套件及管理软件。其中,NVIDIA 集合通信库(NCCL)能够将 GPU 的并行计算任务高效扩展至 Quantum-X800 网络,充分利用其基于 SHARPv4 的强大网络计算能力及对 FP8 的支持,为大模型训练与生成式 AI 应用提供卓越性能表现,全方位释放网络与计算资源的协同优势。
基于 GB200 Grace Blackwell 超级芯片与最新网络产品,英伟达在 GTC 2024 大会上正式发布专为 AI 打造的超级计算机 ——NVIDIA DGX SuperPOD。
这台 NVIDIA DGX SuperPOD 基于 DGX GB200 系统构建,每个 DGX GB200 系统搭载 36 个 NVIDIA GB200 超级芯片,内部集成 36 个 NVIDIA Grace CPU 和 72 个 NVIDIA Blackwell GPU。这些超级芯片通过第五代 NVIDIA NVLink 实现高速连接,构建起一台强大的超级计算机,实现计算资源的高效整合与协同运作。
除了第五代 NVIDIA NVLink 网络,DGX SuperPOD 还配备了 NVIDIA BlueField-3 DPU,并全面支持最新发布的 NVIDIA Quantum-X800 InfiniBand 网络。这一先进架构为计算平台中的每块 GPU 提供高达每秒 1800GB 的带宽,确保数据在各组件间的高速传输,充分发挥 GPU 集群的计算性能。
性能数据显示,在 FP4 精度下,DGX SuperPOD 可提供高达 11.5 exaflops 的 AI 超级计算性能,同时配备 240TB 的快速显存,且可通过灵活增加机架轻松扩展性能。与 NVIDIA H100 Tensor Core GPU 相比,GB200 超级芯片在大语言模型推理工作负载方面的性能提升高达 30 倍,展现出碾压式的优势,为处理复杂的 AI 任务提供了强大动力。
考虑到超高算力带来的功耗与散热挑战,全新的 DGX SuperPOD 采用新型高效液冷机架级扩展架构,能够显著提升散热效率,在确保系统运行稳定性的同时,有效降低整体拥有成本。这种创新设计不仅解决了数据中心的物理难题,更为长期高效运行提供了可持续的解决方案。
谈及超级计算机的意义,黄仁勋表示:“NVIDIA DGX AI 超级计算机是推动 AI 产业变革的核心动力。新一代 DGX SuperPOD 汇聚了 NVIDIA 在加速计算、网络和软件方面的最新成果,能够助力不同行业与企业打造并完善属于自己的 AI 能力,加速数字化转型与创新发展。”
从史上最大的 GPU 芯片 GB200 Grace Blackwell,到具备处理万亿参数能力的最强计算机 NVIDIA DGX SuperPOD,再到拥有 800Gb/s 端到端吞吐量的先进网络平台,英伟达在 GTC 2024 上发布的每一款产品都凭借卓越参数吸引了全球目光。这些前沿硬件产品不仅展现了英伟达在技术创新上的深厚积淀与无畏探索,更为生成式 AI 应用场景的拓展与深化注入了强大活力。
当然,产品最终的价值仍需在实际应用中得以检验。这些硬件在生成式 AI 应用场景下能否如预期般发挥极致性能,切实解决行业痛点,推动 AI 技术迈向新高度?让我们共同拭目以待,见证英伟达为 AI 算力领域带来的更多惊喜与变革,期待这些创新成果在未来全面重塑我们的生活与工作方式,开启 AI 发展的新篇章。