MLC 项目使得 AMD GPU 在 LLM 推理方面具有竞争力

(相关资料图)

编程客栈() 8月11日消息:AMD GPU 通过 MLC（MAChine learning compilation）项目在编译和部署大模型方面取得了进展，实现了与英伟达 GPU 相当的性能。MLC-LLM 方案在 AMD RX 7900 XTX 上的性能达到了英伟达 GeForce RTX 4090 的 80%，而价格只有 RTX 4090 的 60%。

MLCTGqdUq-LLM 可以编译 LLM 并将其部署在使用具有竞争性能的 ROCm 的 AMD GPU 上。更具体地说，对于phpLlama2-7B/13B，AMD Radeon™ RX 7900 XTX 的速度是 NVIDIA GeForce RTX™ 4090 的 80%，是 NVIDIA GeForce R编程客栈TX™ 3090Ti 的 94%。除了 ROCm 之外，Vulkan 支持还允许我们将 LLM 部署推广到其他 AMD 设备，例如具有 AMD APU 的 SteamDeck。

机器学习编译（MLC）是一种新兴技术，用于编译和自动优化机器学习工作负载。与为每个独立的后端（如 ROCm 或 CUDA）编写特定的内核不同，MLC 解决方案会js自动生成适用于不同后端的代码。利用基于 ML 编译的解决方案 MLC-LLM，为 LLMs 提供高性能的通用部署。MLC-LLM 建立在 Apache TVM Unity 之上，它是一种机器学习编译栈，提供了基于 python 的开发和通用部署。MLC-LLM 为各种后端编程（包括 CUDA、Metal、ROCm、Vulkan 和 OpenCL）提供了最先进的性能，涵盖了服务器级 GPU 到移动设备（iPhone 和 android）。

在较高的层次上，该框架允许用户采用基于 Python 的工作流程，包括转换计算图的 API，优化 GPU 内核的布局和调度，并将其在感兴趣的平台上进行本地部署。

关键词：