
随着大型语言模型 (LLM) 的规模和复杂性不断扩大,对高效且具有成本效益的性能解决方案的需求变得越来越重要。据 NVIDIA 技术博客报道,最近,NVIDIA 宣布其 H100 Tensor Core GPU 与 TensorRT-LLM 软件配对,在行业标准、同行评审的 MLPerf 推理 v4.0 基准测试中创下了新的性能记录。这一成就凸显了 NVIDIA 全栈推理平台的功能。
Mixtral 8x7B 和 Mixture-of-Experts 架构
由 Mistral AI 开发的 Mixtral 8x7B 模型采用专家混合 (MoE) 架构。与传统的密集架构相比,这种设计在模型容量、训练成本和第一令牌服务延迟方面具有潜在优势。NVIDIA 的 H100 Tensor Core GPU 基于 Hopper GPU 架构和 TensorRT-LLM 软件在 Mixtral 8x7B 模型中表现出出色的性能。
优化吞吐量和延迟
在大规模 LLM 部署中,优化查询响应时间和吞吐量至关重要。TensorRT-LLM 支持动态批处理,允许在 LLM 服务期间将已完成的请求替换为新请求,从而提高性能。选择正确的响应时间预算涉及平衡吞吐量和用户交互性,吞吐量与延迟图可作为有用的工具。
FP8 精度和性能提升
NVIDIA Hopper 架构包括支持 FP8 数据类型的第四代 Tensor Core,与 FP16 或 BF16 相比,峰值计算速率是其两倍。TensorRT-LLM 支持 FP8 量化,支持将模型权重转换为 FP8,并使用高度调整的 FP8 内核。这带来了显著的性能优势,H100 GPU 在 0.5 秒的响应时间限制内提供了近 50% 的吞吐量。
流式处理模式和令牌处理
在流模式下,H100 GPU 和 TensorRT-LLM 的性能值得注意。无需等待完整的推理请求完成,而是在生成输出令牌后立即报告结果。这种方法允许高吞吐量,即使每个输出令牌的平均时间非常低。例如,一对运行 FP8 精度的 TensorRT-LLM 的 H100 GPU 实现了每秒 38.4 个请求的吞吐量,每个输出令牌的平均时间仅为 0.016 秒。
延迟不受约束的场景
在不受延迟约束的场景下,例如数据标记和情绪分析等离线任务,H100 GPU 表现出出色的吞吐量。在 1,024 个批处理大小下,推理吞吐量达到每秒近 21,000 个令牌,精度为 FP8。Hopper 架构的 FP8 吞吐量能力和减少的内存占用量能够高效地处理大批量。
TensorRT-LLM:开源和优化
TensorRT-LLM 是一个开源库,旨在优化 LLM 推理,通过简单的 Python API 为流行的 LLM 提供性能优化。它包括一般的 LLM 优化,例如优化的注意力内核、KV 缓存和 FP8 或 INT4 AWQ 等量化技术。带有 TensorRT-LLM 的 Mixtral 可以使用 NVIDIA Triton 推理服务器软件托管。
未来创新
NVIDIA 继续创新,预计将于今年晚些时候推出基于突破性 Blackwell 架构的产品。GB200 NVL72 将 36 个 NVIDIA Grace CPU 与 72 个 NVIDIA Blackwell GPU 相结合,旨在为实时 1.8 万亿参数的 MoE LLM 推理提供显著的加速。
有关更多信息,请访问 NVIDIA 技术博客。
图片来源:Shutterstock