NVIDIA H100 GPU 和 TensorRT-LLM 为 Mixtral 8x7B 实现突破性性能

随着大型语言模型（LLM）的规模和复杂性不断扩大，对高效且具有成本效益的性能解决方案的需求变得越来越重要。据 NVIDIA 技术博客报道，最近，NVIDIA 宣布其 H100 Tensor Core GPU 与 TensorRT-LLM 软件配对，在行业标准、同行评审的 MLPerf 推理 v4.0 基准测试中创下了新的性能记录。这一成就凸显了 NVIDIA 全栈推理平台的功能。

Mixtral 8x7B 和 Mixture-of-Experts 架构

由 Mistral AI 开发的 Mixtral 8x7B 模型采用专家混合（MoE）架构。与传统的密集架构相比，这种设计在模型容量、训练成本和第一令牌服务延迟方面具有潜在优势。NVIDIA 的 H100 Tensor Core GPU 基于 Hopper GPU 架构和 TensorRT-LLM 软件在 Mixtral 8x7B 模型中表现出出色的性能。

狗狗币面临成败支撑位——狗狗币会守住吗？

2025-04-06

今年 4 月买什么和卖什么：买以太坊（ETH）和 Mutuum Finance （MUTM），卖 Solana （SOL）和瑞波币（XRP）

2025-04-05

优化吞吐量和延迟

在大规模 LLM 部署中，优化查询响应时间和吞吐量至关重要。TensorRT-LLM 支持动态批处理，允许在 LLM 服务期间将已完成的请求替换为新请求，从而提高性能。选择正确的响应时间预算涉及平衡吞吐量和用户交互性，吞吐量与延迟图可作为有用的工具。

FP8 精度和性能提升

NVIDIA Hopper 架构包括支持 FP8 数据类型的第四代 Tensor Core，与 FP16 或 BF16 相比，峰值计算速率是其两倍。TensorRT-LLM 支持 FP8 量化，支持将模型权重转换为 FP8，并使用高度调整的 FP8 内核。这带来了显著的性能优势，H100 GPU 在 0.5 秒的响应时间限制内提供了近 50% 的吞吐量。

流式处理模式和令牌处理

在流模式下，H100 GPU 和 TensorRT-LLM 的性能值得注意。无需等待完整的推理请求完成，而是在生成输出令牌后立即报告结果。这种方法允许高吞吐量，即使每个输出令牌的平均时间非常低。例如，一对运行 FP8 精度的 TensorRT-LLM 的 H100 GPU 实现了每秒 38.4 个请求的吞吐量，每个输出令牌的平均时间仅为 0.016 秒。

延迟不受约束的场景

在不受延迟约束的场景下，例如数据标记和情绪分析等离线任务，H100 GPU 表现出出色的吞吐量。在 1,024 个批处理大小下，推理吞吐量达到每秒近 21,000 个令牌，精度为 FP8。Hopper 架构的 FP8 吞吐量能力和减少的内存占用量能够高效地处理大批量。

TensorRT-LLM：开源和优化

TensorRT-LLM 是一个开源库，旨在优化 LLM 推理，通过简单的 Python API 为流行的 LLM 提供性能优化。它包括一般的 LLM 优化，例如优化的注意力内核、KV 缓存和 FP8 或 INT4 AWQ 等量化技术。带有 TensorRT-LLM 的 Mixtral 可以使用 NVIDIA Triton 推理服务器软件托管。