杰西·埃利斯
10月 02, 2024 12:39
NVIDIA 通过 llama.cpp 增强 RTX GPU 上的 LLM 性能,为开发人员提供高效的 AI 解决方案。
据 NVIDIA 技术博客称,适用于 Windows PC 的 NVIDIA RTX AI 平台为应用程序开发人员提供了一个由数千个开源模型组成的强大生态系统。其中,llama.cpp 已成为拥有超过 65K GitHub 星星的流行工具。这款轻量级、高效的框架于 2023 年发布,支持跨各种硬件平台(包括 RTX PC)的大型语言模型 (LLM) 推理。
llama.cpp概述
LLM 在解锁新用例方面已显示出潜力,但其大内存和计算要求给开发人员带来了挑战。llama.cpp 通过提供一系列功能来优化模型性能并确保在各种硬件上进行高效部署,从而解决了这些问题。它利用 ggml 张量库进行机器学习,无需外部依赖即可实现跨平台使用。模型数据以一种称为 GGUF 的自定义文件格式部署,该格式由 llama.cpp 贡献者设计。
开发人员可以从数千个预打包模型中进行选择,涵盖各种高质量的量化。不断壮大的开源社区积极为 llama.cpp 和 ggml 项目的开发做出贡献。
NVIDIA RTX 上的加速性能
NVIDIA 不断增强 RTX GPU 的 llama.cpp 性能。主要贡献包括吞吐量性能的改进。例如,内部测量表明,使用 Llama 3 8B 模型,NVIDIA RTX 4090 GPU 可以实现每秒 ~150 个令牌,输入序列长度为 100 个令牌,输出序列长度为 100 个令牌。
要使用 CUDA 后端构建针对 NVIDIA GPU 优化的 llama.cpp 库,开发人员可以参考 GitHub 上的 llama.cpp 文档。
开发者生态系统
许多开发人员框架和抽象都基于 llama.cpp 构建,从而加快了应用程序开发速度。Ollama、Homebrew 和 LMStudio 等工具扩展了llama.cpp功能,提供配置管理、模型权重捆绑、抽象 UI 和本地运行的 API 终端节点到 LLM 等功能。
此外,在 RTX 系统上使用 llama.cpp 的开发人员可以使用各种预优化模型。值得注意的模型包括 Hugging Face 上最新的 GGUF 量化版本的 Llama 3.2。llama.cpp 还作为推理部署机制集成到 NVIDIA RTX AI 工具包中。
利用 llama.cpp 的应用程序
llama.cpp 加速了 50 多种工具和应用程序,包括:
- Backyard.ai: 使用户能够在私有环境中与 AI 角色交互,利用 llama.cpp 加速 RTX 系统上的 LLM 模型。
- 勇敢: 将 AI 助手 Leo 集成到 Brave 浏览器中。Leo 使用利用 Ollama 的 Ollama(利用 llama.cpp)与用户设备上的本地 LLM 进行交互。
- 歌剧: 集成本地 AI 模型以增强 Opera One 中的浏览效果,使用 Ollama 和 llama.cpp 在 RTX 系统上进行本地推理。
- 来源图: Cody 是一名 AI 编码助手,使用最新的 LLM 并支持本地机器模型,利用 Ollama 和 llama.cpp 在 RTX GPU 上进行本地推理。
开始
开发人员可以使用 RTX AI PC 上的 llama.cpp 加速 GPU 上的 AI 工作负载。用于 LLM 推理的 C++ 实现提供了一个轻量级安装包。要开始使用,请参阅 RTX AI Toolkit 上的llama.cpp。NVIDIA 仍然致力于为 RTX AI 平台上的开源软件做出贡献并加速其发展。
图片来源: Shutterstock