乔尔格·希勒
9月 06, 2024 07:14
Together AI 通过其 Together Kernel Collection 增强了 NVIDIA H200 和 H100 GPU 集群,在 AI 训练和推理方面提供了显著的性能改进。
据 together.ai 称,Together AI 宣布通过集成 NVIDIA H200 Tensor Core GPU 对其 GPU 集群进行重大增强。此次升级将伴随着 Together Kernel Collection (TKC),这是一个定制的内核堆栈,旨在优化 AI 操作,为训练和推理任务提供实质性的性能提升。
使用 TKC 增强性能
Together Kernel Collection (TKC) 旨在显著加速常见的 AI 操作。与标准 PyTorch 实施相比,TKC 为常用的训练运算符提供高达 24% 的加速,为 FP8 推理操作提供高达 75% 的加速。这一改进将减少 GPU 使用时间,从而提高成本效益并加快上市时间。
训练和推理优化
TKC 的优化内核,例如具有 SwiGLU 激活功能的多层感知器 (MLP),对于训练 Llama-3 等大型语言模型 (LLM) 至关重要。据报道,这些内核比标准实现快 22-24%,与现有最佳基线相比,潜在的改进速度提高了 10%。推理任务受益于强大的 FP8 内核堆栈,Together AI 已对其进行优化,与基本 PyTorch 实现相比,速度提高了 75% 以上。
原生 PyTorch 兼容性
TKC 与 PyTorch 完全集成,使 AI 开发人员能够在其现有框架中无缝利用其优化。这种集成简化了 TKC 的采用,使其就像在 PyTorch 中更改 import 语句一样简单。
生产级测试
AI 共同确保 TKC 经过严格的测试,以满足生产级标准,从而保证实际应用的高性能和可靠性。All Together GPU 集群,无论是 H200 还是 H100,都将具有开箱即用的 TKC。
NVIDIA H200:更快的性能和更大的内存
NVIDIA H200 Tensor Core GPU 基于 Hopper 架构构建,专为高性能 AI 和 HPC 工作负载而设计。据 NVIDIA 称,与其前身 H100 相比,H200 在 Llama 2 13B 上的推理性能提高了 90%,在 Llama 2 70B 上的推理性能提高了 100%。H200 配备 141GB HBM3e 内存和 4.8TB/s 内存带宽,容量几乎是 H100 的两倍,带宽是 H100 的 1.4 倍。
高性能互连
Together GPU 集群利用 SXM 外形尺寸实现高带宽和快速数据传输,并由 NVIDIA 的 NVLink 和 NVSwitch 技术支持,可在 GPU 之间实现超高速通信。结合 NVIDIA Quantum-2 3200Gb/s InfiniBand 网络,此设置非常适合大规模 AI 训练和 HPC 工作负载。
经济高效的基础设施
AI 共同节省了大量成本,与 AWS 等云提供商相比,基础设施的成本效益提高了 75%。该公司还提供灵活的承诺选项,从 1 个月到 5 年不等,确保在 AI 开发生命周期的每个阶段都有合适的资源。
可靠性和支持
Together AI 的 GPU 集群具有 99.9% 的正常运行时间 SLA,并得到严格的验收测试的支持。该公司的 White Glove Service 提供从集群设置到持续维护的端到端支持,确保 AI 模型的最佳性能。
灵活的部署选项
AI 共同提供了多种部署选项,包括用于高性能工作负载管理的 Slurm、用于容器化 AI 工作负载的 Kubernetes,以及运行 Ubuntu 以实现直接访问和终极灵活性的裸机集群。这些选项可满足不同的 AI 项目需求,从大规模训练到生产级推理。
Together AI 通过其高性能 NVIDIA H200 GPU 集群和 Together Kernel Collection 继续支持整个 AI 生命周期。该平台是 desigNED 来优化性能、降低成本并确保可靠性,使其成为加速 AI 开发的理想选择。
图片来源: Shutterstock