Machine Learning Engineering Open Book(机器学习工程开放书)github.com/stas00/ml-engineeringStas Bekman创建并维护的一份开源技术指南。该项目旨在收集和分享关于大语言模型及多模态模型训练、微调和推理的实用方法论、工具及详细步骤。内容从底层硬件(计算加速器、CPU、内存)到软件基础设施(文件存储、网络、SLURM 调度系统)的各个层面,特别关注在大规模分布式系统中遇到的调试、优化和测试等工程难题。对于希望深入了解如何构建高效 ML 训练集群或解决实际训练崩溃问题的机器学习工程师和研究人员来说,这是一份极具价值的实战手册。科技先锋官
