NVIDIA Blackwell 在首个智能体AI基础设施基准测试中领先

来自 Artificial Analysis 的 AgentPerf 是业界首个智能体AI基准测试，为开发者、企业和基础设施提供商提供了一种清晰的方式来比较各类系统在智能体AI任务上的表现。在首轮发布的结果中，NVIDIA Blackwell Ultra NVL72 平台在被测试的智能体AI工作负载上展现出领先性能，每兆瓦运行的智能体数量是 NVIDIA Hopper 的20倍。

智能体AI是一种与对话AI截然不同的工作负载。单次聊天补全像是一次短跑：一次大语言模型调用，一次响应。而智能体的运作方式更像接力赛：它会将一个目标分解为多个步骤，并持续执行直至任务完成。

这意味着数十到数百次大语言模型调用被串联在一起，每一次调用都将不断增长的上下文传递给下一次，同时在每次交接时还会包含代码编译与执行、数据库搜索和网页浏览等工具调用。其复杂性并非简单叠加，而是呈倍增之势。

这种区别对于性能衡量而言至关重要。现有的人工智能推理基准测试仅衡量单次大语言模型调用：即响应单个请求的速度以及系统能同时处理多少请求。它们本就不是为智能体工作负载设计的——在这种负载下，串联的多次大语言模型调用、工具调用延迟以及不断增长的上下文，对加速计算系统造成的压力与单次大语言模型调用截然不同。

对于大规模构建和部署智能体的企业来说，理解智能体的响应速度、同时部署的数量，以及每投入一美元和每瓦特能耗所能带来的有用工作量，至关重要。

NVIDIA GB300 NVL72 每兆瓦运行的智能体数量提升20倍

在首轮测试中，AgentPerf 使用 DeepSeek V4 Pro 衡量智能体性能。这是一个大型混合专家模型，代表了当前驱动最强大智能体的前沿模型类别。在该工作负载下，NVIDIA GB300 NVL72 在基准测试中取得了最高性能，每兆瓦运行的智能体数量是 NVIDIA HGX H200 系统的20倍。

这一性能优势源于整个技术栈的深度协同设计。GB300 NVL72 将72块GPU连接成一个机架级系统，使得像 DeepSeek V4 Pro 这样的大型混合专家模型能够高效地大规模分布执行。

CUDA 内核通过重叠通信与计算进一步加速了这一过程，使得跨专家的协调成本被吸收，而非增加延迟。

NVIDIA TensorRT LLM 在并发智能体会话规模扩大时维持了效率。例如，它将输入的处理与输出的生成分离，使得两者可以各自独立优化。

这些结果建立在一个从零开始构建、旨在反映智能体AI在生产环境中实际运作方式的基准测试方法之上。

Artificial Analysis AgentPerf：基于真实世界的智能体工作负载构建

AgentPerf 是基于真实的编码智能体轨迹构建的：智能体接收任务、读取文件、编写和编辑代码、执行命令，并根据结果进行迭代——所有这些都来自包含12种以上编程语言的真实公开代码库。其长序列长度、工具调用模式和延迟，都代表了真实世界的编码工作流程。

随后，AgentPerf 衡量一个平台在满足设定的响应速度和输出令牌速率性能阈值的前提下，能同时支持多少项此类智能体任务。工具调用并不会实际执行，而是使用具有代表性的CPU处理时间进行模拟，因此结果的差异仅反映加速计算的性能。

这些结果直接转化为基础设施决策：即每台加速器和每兆瓦电力的功耗可以运行多少并发智能体任务。对于大规模部署人工智能智能体的企业而言，这些数字决定了特定基础设施投资究竟能实现多少有效产出。

NVIDIA 生态系统合作伙伴利用 Blackwell 的领先性能

包括 Baseten、DeepInfra 和 Together AI 在内的领先推理提供商已开始在 NVIDIA Blackwell 上为 DeepSeek V4 Pro 等前沿模型运行智能体工作负载，并驱动着当前的生产级智能体应用。

Together AI 在 NVIDIA Blackwell 上为人工智能驱动的智能体编码平台 Cursor 提供实时推理服务。Cursor 的智能体能够在开发者继续工作的同时，调试问题、生成功能并执行重构。

DeepInfra 为面向汽车经销店的人工智能劳动力平台 Pam.ai 提供支持，该平台完全基于 NVIDIA Blackwell 部署智能体，用于预订服务预约、接听电话以及执行外呼销售活动。

随着 NVIDIA 和开源生态系统持续优化推理软件，智能体工作负载上的性能和效率将进一步提升。NVIDIA Vera Rubin 架构现已全面投入生产，将带来下一代基础设施能力，以满足大规模智能体AI日益增长的需求。

深入了解 AgentPerf 的方法论以及 NVIDIA 针对智能体AI的全栈优化，请参阅此技术博客文章。