一篇针对AMD MI300x的FP8 GEMM(矩阵乘法)做性能优化的文章。
akashkarnatak.github.io/amd-challenge/
作者将解决方案分为三个主要部分:从全局内存加载数据到LDS(本地数据共享)、从LDS读取到寄存器并执行MFMA(矩阵融合乘加)操作,以及将数据存储回全局内存。关键优化包括LDS瓦片大小、块大小、调度策略等,并详细探讨了如何通过双缓冲、内存交错策略等技术提高性能。
一篇针对AMD MI300x的FP8 GEMM(矩阵乘法)做性能优化的文章。
akashkarnatak.github.io/amd-challenge/
作者将解决方案分为三个主要部分:从全局内存加载数据到LDS(本地数据共享)、从LDS读取到寄存器并执行MFMA(矩阵融合乘加)操作,以及将数据存储回全局内存。关键优化包括LDS瓦片大小、块大小、调度策略等,并详细探讨了如何通过双缓冲、内存交错策略等技术提高性能。
猜你喜欢
【75评论】【10点赞】
【82评论】【4点赞】
【14点赞】
作者最新文章
热门分类
科技TOP
科技最新文章