大语言模型：新的摩尔定律？

430 0

内容目录

不久前，微软和 Nvidia 推出了 Megatron-Turing NLG 530B，一种基于 Transformer 的模型，被誉为是 “世界上最大且最强的生成语言模型”。

毫无疑问，此项成果对于机器学习工程来讲是一场令人印象深刻的能力展示，表明我们的工程能力已经能够训练如此巨大的模型。然而，我们应该为这种超级模型的趋势感到兴奋吗？我个人倾向于否定的回答。我将在通过本文阐述我的理由。

大语言模型：新的摩尔定律？

这是你的深度学习大脑

研究人员估计，人脑平均包含 860 亿个神经元和 100 万亿个突触。可以肯定的是，这里面并非所有的神经元和突触都用于语言。有趣的是，GPT-4 预计有大约 100 万亿个参数…… 虽然这个类比很粗略，但难道我们不应该怀疑一下构建与人脑大小相当的语言模型长期来讲是否是最佳方案？

当然，我们的大脑是一个了不起的器官，它经过数百万年的进化而产生，而深度学习模型仅有几十年的历史。不过，我们的直觉告诉我们: 有些东西无法计算 (这是个双关语，:)) 。

深度学习，深度销金窟？

如你所料，在庞大的文本数据集上训练一个 5300 亿参数的模型需要相当多的基础设施。事实上，Microsoft 和 Nvidia 使用了数百台 DGX A100 GPU 服务器，每台 19 万 9 千美元。如果再把网络设备、托管成本等因素考虑进去的话，任何想要重现该实验的组织或个人都必须花费近 1 亿美元。来根薯条压压惊？

说真的，有哪些组织有那种值得花费 1 亿美元来构建深度学习基础设施的业务？再少点，又有哪些组织有那种可以值得花费 1000 万美元基础设施的业务？很少。既然很少，那么请问，这些模型为谁而生呢？

GPU 集群的热

尽管训练大模型需要杰出的工程能力，但在 GPU 上训练深度学习模型本身却是一种蛮力技术。根据规格表，每台 DGX 服务器可消耗高达 6.5 千瓦的功率。同时，数据中心 (或服务器机柜) 至少需要同样多的冷却能力。除非你是史塔克家族的人 (Starks) ，需要在冬天让临冬城 (Winterfell) 保持温暖，否则你必须处理散热问题。

此外，随着公众对气候和社会责任问题意识的增强，还需要考虑碳足迹问题。根据马萨诸塞大学 2019 年的一项研究，“在 GPU 上训练一次 BERT 产生的碳足迹大致与一次跨美飞行相当”。

BERT-Large 有 3.4 亿个参数。我们可以通过此推断 Megatron-Turing 的碳足迹大致如何……认识我的人都知道，我并不是一个热血环保主义者。尽管如此，这些数字也不容忽视。

所以呢？

我对 Megatron-Turing NLG 530B 和接下来可能会出现的模型巨兽感到兴奋吗？不。我认为值得增加成本、复杂性以及碳足迹去换取 (相对较小的) 测试基准上的改进吗？不。我认为构建和推广这些庞大的模型能帮助组织理解和应用机器学习吗？不。

我想知道这一切有什么意义。为了科学而科学？好的老营销策略？技术至上？可能每个都有一点。如果是这些意义的话，我就不奉陪了。

相反，我更专注于实用且可操作的技术，大家都可以使用这些技术来构建高质量的机器学习解决方案。

使用预训练模型

在绝大多数情况下，你不需要自定义模型架构。也许你会想要自己定制一个模型架构 (这是另一回事)，但请注意此处猛兽出没，仅限资深玩家！

一个好的起点是寻找已经针对你要解决的任务预训练过的模型 (例如，英文文本摘要) 。

然后，你应该快速尝试一些模型，用它们来预测你自己的数据。如果指标效果不错，那么打完收工！如果还需要更高一点的准确率，你应该考虑对模型进行微调 (稍后会详细介绍) 。

使用较小的模型

在评估模型时，你应该从那些精度满足要求的模型中选择尺寸最小的那个。它预测得更快，并且需要更少的硬件资源来进行训练和推理。节俭需要从一开始就做起。

这其实也不算什么新招。计算机视觉从业者会记得 SqueezeNet 2017 年问世时，与 AlexNet 相比，模型尺寸减少了 50 倍，而准确率却与 AlexNet 相当甚至更高。多聪明！

自然语言处理社区也在致力于使用迁移学习技术缩减模型尺寸，如使用知识蒸馏技术。DistilBERT 也许是其中最广为人知的工作。与原始 BERT 模型相比，它保留了 97% 的语言理解能力，同时尺寸缩小了 40%，速度提高了 60%。你可以 Hugging Face 尝试一下 DistilBERT。同样的方法也已经应用于其他模型，例如 Facebook 的 BART，你可以在 Hugging Face 尝试 DistilBART。

Big Science 项目的最新模型也令人印象深刻。下面这张来自于论文的图表明，他们的 T0 模型在许多任务上都优于 GPT-3，同时尺寸小 16 倍。

大语言模型：新的摩尔定律？

你可以 Hugging Face 尝试 T0。我们需要更多的此类研究！