(相关资料图)
编程客栈() 8月11日消息:AMD GPU 通过 MLC(MAChine learning compilation)项目在编译和部署大模型方面取得了进展,实现了与英伟达 GPU 相当的性能。MLC-LLM 方案在 AMD RX 7900 XTX 上的性能达到了英伟达 GeForce RTX 4090 的 80%,而价格只有 RTX 4090 的 60%。
MLCTGqdUq-LLM 可以编译 LLM 并将其部署在使用具有竞争性能的 ROCm 的 AMD GPU 上。更具体地说,对于phpLlama2-7B/13B,AMD Radeon™ RX 7900 XTX 的速度是 NVIDIA GeForce RTX™ 4090 的 80%,是 NVIDIA GeForce R编程客栈TX™ 3090Ti 的 94%。除了 ROCm 之外,Vulkan 支持还允许我们将 LLM 部署推广到其他 AMD 设备,例如具有 AMD APU 的 SteamDeck。
机器学习编译(MLC)是一种新兴技术,用于编译和自动优化机器学习工作负载。与为每个独立的后端(如 ROCm 或 CUDA)编写特定的内核不同,MLC 解决方案会js自动生成适用于不同后端的代码。利用基于 ML 编译的解决方案 MLC-LLM,为 LLMs 提供高性能的通用部署。MLC-LLM 建立在 Apache TVM Unity 之上,它是一种机器学习编译栈,提供了基于 python 的开发和通用部署。MLC-LLM 为各种后端编程(包括 CUDA、Metal、ROCm、Vulkan 和 OpenCL)提供了最先进的性能,涵盖了服务器级 GPU 到移动设备(iPhone 和 android)。
在较高的层次上,该框架允许用户采用基于 Python 的工作流程,包括转换计算图的 API,优化 GPU 内核的布局和调度,并将其在感兴趣的平台上进行本地部署。
关键词: