托尼·金
10月 08, 2024 06:23
Microsoft Bing Visual Search 使用 NVIDIA 的 TensorRT、CV-CUDA 和 nvImageCodec 实现了 5.13 倍的加速,从而提高了效率并降低了成本。
Microsoft Bing Visual Search 是一种使全球用户能够使用照片进行搜索的工具,通过与 NVIDIA 的合作,它得到了显著优化,从而显着提高了性能。根据 NVIDIA 技术博客,将 NVIDIA 的 TensorRT、CV-CUDA 和 nvImageCodec 集成到 Bing 的 TuringMM 视觉嵌入模型中,使离线索引管道的吞吐量提高了 5.13 倍,从而降低了能耗和成本。
多模态 AI 和视觉搜索
多模态 AI 技术(如 Microsoft 的 TuringMM)对于需要文本和图像等不同数据类型之间无缝交互的应用程序至关重要。一种流行的图像-文本联合理解模型是 CLIP,它使用双编码器架构来处理数亿个图像-字幕对。这些高级模型对于基于文本的视觉搜索、零镜头图像分类和图像描述等任务至关重要。
优化工作
Bing 的视觉嵌入管道的优化是通过利用 NVIDIA 的 GPU 加速技术实现的。这项工作的重点是通过使用 NVIDIA 的 TensorRT 进行模型执行来提高 TuringMM 管道的性能,从而提高了 transformer 架构中计算成本高昂的层的效率。此外,nvImageCodec 和 CV-CUDA 的使用加速了图像解码和预处理阶段,从而显着降低了图像处理任务的延迟。
实施和结果
在优化之前,Bing 的视觉嵌入模型在 GPU 服务器集群上运行,该集群处理 Microsoft 中各种深度学习服务的推理任务。最初的实现将 ONNXRuntime 与 CUDA Execution Provider 结合使用,由于 OpenCV 处理的图像解码过程而面临瓶颈。通过集成 NVIDIA 的库,管道的吞吐量从每秒 88 次查询 (QPS) 提高到 452 QPS,速度提高了 5.14 倍。
这些增强功能不仅提高了处理速度,还通过将任务卸载到 GPU 来减少 CPU 上的计算负载,从而最大限度地提高了能效。NVIDIA TensorRT 对性能提升的贡献最大,而 nvImageCodec 和 CV-CUDA 库则额外增加了 27% 的改进。
结论
Microsoft Bing Visual Search 的成功优化凸显了 NVIDIA 加速库在增强 AI 驱动型应用程序方面的潜力。此次合作展示了如何有效利用 GPU 资源来加速深度学习和图像处理工作负载,即使基准系统已经采用 GPU 加速。这些进步为更高效、响应更迅速的视觉搜索功能铺平了道路,使用户和服务提供商都受益。
有关优化过程的更详细见解,请访问原始 NVIDIA 技术博客。
图片来源: Shutterstock