扎克·安德森
9月 01, 2024 08:34
TEAL 提供了一种无需训练的激活稀疏性方法,显著提高了大型语言模型 (LLM) 的效率,同时将性能下降降至最低。
TEAL (LLM 中的免训练激活稀疏性) 已成为一种无需额外培训即可提高大型语言模型 (LLM) 效率的开创性方法。根据 together.ai 的说法,这种方法对整个模型的隐藏状态进行了幅度修剪,实现了 40-50% 的激活稀疏性,同时将退化降至最低。这项创新允许将更少的权重转移到片上存储器,解决了 LLM 推理的内存受限特性,并在单批处理解码中转化为 1.53-1.8 倍的挂钟加速。
背景
LLM 以其巨大的尺寸而闻名,这在推理过程中带来了挑战,主要是由于将参数从设备内存传输到寄存器的速度限制。已经开发了各种技术,例如量化、权重稀疏和推测解码,以解决这堵“内存墙”。激活稀疏性利用隐藏状态中的零值,是一种不太容易探索的方法,它避免了在解码过程中传输不必要的权重通道。
像 OPT-175B 这样的旧模型显示出高活化稀疏性,使 DejaVu 等方法能够实现显著的加速。但是,像 LLaMA 这样的较新模型已经转向 SwiGLU 变体,这使得应用此类方法变得更加困难。最近的研究试图“恢复”表现出激活稀疏性的模型,但这些模型需要在大量数据集上进行广泛的再训练。
激励研究:LLM 中激活的分布特性
研究表明,LLM 中的隐藏状态表现出异常值,并且以零为中心,各层之间的分布形状相似。具体来说,MLP 和 Attention Blocks 之前的状态是高斯形状的,而中间状态是拉普拉斯形状的。这表明许多低幅度的激活可以通过可以忽略不计的模型退化进行修剪,这一概念在 CATS 等其他研究中也观察到。
水鸭
TEAL 通过稀疏化模型中的每个张量来引入优化,在 25% 稀疏度时实现接近零的退化,在 40% 稀疏度时实现最小退化。在 50% 稀疏度下,与旧的 Llama-2 和 Mistral 变体相比,Llama-3 变体的降解程度略高。TEAL 通过稀疏化每个张量并选择通过输入进行稀疏化,从而产生更低的误差,从而优于 CATS。
硬件感知加速
为了对现实世界的加速进行基准测试,TEAL 与 GPT-Fast 集成,在 40% 和 50% 稀疏度下分别实现了高达 1.53 倍和 1.8 倍的显着加速。虽然内核在 0% 稀疏度时比 cuBLAS 更快,但仍有进一步优化的空间。
与 Quantization 的兼容性
TEAL 还演示了与量化的兼容性,量化是另一种高效 LLM 推理的技术。将激活稀疏性和量化相结合,解锁了将内存传输到 GPU 寄存器的新机制,从而实现更高的推理速度。
应用
TEAL 最直接的应用是在资源受限的边缘设置中加速推理,尤其是在单批次场景中。它还通过更高效地提供模型来帮助 Together AI 等推理提供商,该公司在大量 GPU 中托管了 100 多个开源模型。
图片来源: Shutterstock