HuggingFace推出了一个高质量合成数据集FinePhrase。详细

蚁工厂 2026-03-09 08:50:54

Hugging Face 推出了一个高质量合成数据集FinePhrase 。详细介绍: huggingface.co/spaces/HuggingFaceFW/finephrase现在高质量数据对大模型训练已经不够用了,那合成数据就成了提升模型性能的关键。FinePhrase 是一个通过 90 次系统性实验、耗时 12.7 GPU 年打造的 486B 合成预训练数据集,它将合成数据的生成从“凭感觉”的炼金术转变为科学的化学,证明了通过合适的模型、提示词和基础设施,可以将原本被过滤掉的低质量网页文本“回收”改写为超越现有基准的高质量预训练语料。How I AI

0 阅读:0
蚁工厂

蚁工厂

感谢大家的关注