Cosmopedia: 如何为预训练构建大规模合成数据集本文概述了我们在生成含数十亿词元的合成数据集以复现 Phi-1.5 过程中所遇到的挑战及其解决方案,由此最终创建了 Cosmopedia 合成数据集。合成数据已成为机器学习社区的 C 位话题,其题中之...AI 技术文章# Cosmopedia# 数据集2年前02470