菲利克斯·平克斯顿
10月 06, 2024 14:20
NVIDIA 推出 Llama 3.1-Nemotron-70B-Reward,这是一种领先的奖励模型,使用 RLHF 提高 AI 与人类偏好的一致性,在 RewardBench 排行榜上名列前茅。
NVIDIA 推出了一种开创性的奖励模型 Llama 3.1-Nemotron-70B-Reward,旨在增强大型语言模型 (LLM) 与人类偏好的一致性。据 NVIDIA 技术博客称,这项开发是 NVIDIA 利用来自人类反馈的强化学习 (RLHF) 来改进 AI 系统的努力的一部分。
AI 对齐的进步
从人类反馈中进行强化学习对于开发能够模拟人类价值观和偏好的 AI 系统至关重要。这种技术允许 ChatGPT、Claude 和 Nemotron 等高级 LLM 生成更准确地反映用户期望的响应。通过结合人类反馈,这些模型表现出改进的决策能力和细致入微的行为,从而培养了对 AI 应用程序的信任。
羊驼 3.1-Nemotron-70B-奖励模型
Llama 3.1-Nemotron-70B-Reward 模型在 Hugging Face RewardBench 排行榜上名列前茅,该排行榜评估了奖励模型的功能、安全性和缺陷。该模型在整体 RewardBench 上获得了令人印象深刻的 94.1% 分数,展示了识别符合人类偏好的反应的高能力。
该模型在四个类别中表现出色:聊天、聊天、安全和推理,尤其是在安全和推理方面分别达到 95.1% 和 98.1% 的准确率。这些结果强调了该模型安全拒绝不安全响应的能力及其在数学和编码等领域的潜在支持。
实施和效率
NVIDIA 优化了模型以实现高计算效率,其大小仅为 Nemotron-4 340B Reward 的五分之一,同时保持了卓越的准确性。该模型的训练利用了 CC-BY-4.0 许可的 HelpSteer2 数据,使其适用于企业使用案例。训练过程结合了两种流行的方法,确保高数据质量并提升 AI 功能。
部署和辅助功能
Nemotron Reward 模型作为 NVIDIA NIM 推理微服务提供,有助于在各种基础设施(包括云、数据中心和工作站)上轻松部署。NVIDIA NIM 采用推理优化引擎和行业标准 API 来提供随需求扩展的高吞吐量 AI 推理。
用户可以直接从浏览器探索 Llama 3.1-Nemotron-70B-Reward 模型,也可以利用 NVIDIA 托管的 API 进行大规模测试和概念验证开发。该模型可在 Hugging Face 等平台上下载,为开发人员提供了多种集成选项。
图片来源: Shutterstock