一篇针对AMDMI300x的FP8GEMM（矩阵乘法）做性能优化的文章。ak

蚁工厂 2025-06-05 13:37:01

一篇针对AMD MI300x的FP8 GEMM（矩阵乘法）做性能优化的文章。

akashkarnatak.github.io/amd-challenge/

作者将解决方案分为三个主要部分：从全局内存加载数据到LDS（本地数据共享）、从LDS读取到寄存器并执行MFMA（矩阵融合乘加）操作，以及将数据存储回全局内存。关键优化包括LDS瓦片大小、块大小、调度策略等，并详细探讨了如何通过双缓冲、内存交错策略等技术提高性能。

0 阅读：0

感谢大家的关注

作者最新文章

1

AI脾气还是好的

2

宾法尼亚大学的实验线课程：《Stat 4830：数据科学与机器学习中的数值优化》

3

Google DeepMind推出了翻译模型TranslateGemma。这是一

4

Claude Cowork 功能存在的安全漏洞分析www.promptarmor

5

百度这是要雄起？

6

各AI工具的Skill路径科技先锋官

7

千问AI打电话订餐厅惊了，千问App 接入高德扫街榜不稀奇，AI帮筛选合适的

8

deepseek r1的论文《DeepSeek-R1: Incentivizin

9

在树莓派上跑Qwen3-30B-A3B 是一种什么体验？byteshape.co

10

电子书《Speech and Language Processing》（语音与语

热门分类

科技TOP

1

这台是什么手机？

2

没想到荣耀magic8系列居然还有新机，ProAir！！！原本以为春节

3

2699起，才2699，其中我以为最起码要2999。256版本是满一刀享受限时优

4

2025年终中端机封神！等等党赢麻了✅5款真香机性价比拉满，闭眼冲不亏！✅荣

5

自2026年1月9日起，马斯克的xAI将Grok在X平台的图像生成功能全面转为付

6

微信更新后最利于单删的功能挺好，算得上微信年度最有用更新了，比直接拉黑名单更狠

7

华为鸿蒙6.0.0.120SP6更新推送，优化了系统使用体验，并且该版本更

8

好奇去查了一下2025年华为销量最高的五款机型。第一名：nova13第二名：n

9

一图看清百度集团品牌矩阵。让大家知道百度没老，只是疲了。

10

前几天刷到荣耀Magic8系列还有mini版，或者Air版。这会看来，是真的。方

科技最新文章

1

4499的时候，有人说贵4299的时候，又有人说贵3999的时候，有人说没性

2

真心奉劝各位，千万别被荣耀“骗了”表面上看荣耀Magic8ProAir是一

3

大胆预测一下！荣耀Magic8ProAir的价格应该就是这样了：12GB+

4

库克：这TM就是来捣乱的荣耀：Magic8ProAir将是绝杀iPho

5

天塌了，手里的iPhone17Pro瞬间不香了...本以为iPhone

6

【1月19日见！荣耀官宣吴艳妮为Magic8ProAir实力见证官】荣耀手机

7

这壁纸好可爱

8

春节换机丨四大系统盘点👉对比汇总速览🎇新年打算换手机的不少，换新旗舰美美

9

荣耀官宣Magic8RSR保时捷设计版将于1月19日19:30正式登场，直击移

10

光迅科技堪称商业航天“太空血管”供应商！作为全球唯二、中国唯一能量产100Gbp