标签:PyTorch

CPU 推理 | 使用英特尔 Sapphire Rapids 加速 PyTorch Transformers

在 最近的一篇文章 中,我们介绍了代号为 Sapphire Rapids 的第四代英特尔至强 CPU 及其新的先进矩阵扩展 (AMX) 指令集。通过使用 Amazon EC2 上的 Sapphire ...

使用英特尔 Sapphire Rapids 加速 PyTorch Transformers 模型(第一部分)

大约一年以前,我们 展示[1] 了如何在第三代 英特尔至强可扩展[2] CPU (即 Ice Lake) 集群上分布式训练 Hugging Face transformers 模型。最近,英特尔发布了...

从 PyTorch DDP 到 Accelerate 到 Trainer,轻松掌握分布式训练

概述 本教程假定你已经对于 PyToch 训练一个简单模型有一定的基础理解。本教程将展示使用 3 种封装层级不同的方法调用 DDP (DistributedDataParallel) 进程,...

使用 Megatron-LM 训练语言模型

在 PyTorch 中训练大语言模型不仅仅是写一个训练循环这么简单。我们通常需要将模型分布在多个设备上,并使用许多优化技术以实现稳定高效的训练。Hugging Face...