適用於 PyTorch 的 Azure 容器 (ACPT)

適用於 PyTorch 的 Azure 容器 (ACPT) 是一個輕量級、獨立的執行環境,其中包含有效執行大型模型最佳化訓練所需的元件。它有助於降低準備成本並加快部署時間。ACPT 可用於在 Azure 上快速啟動 PyTorch 的各種深度學習任務。

目錄

我為什麼要使用 ACPT?

  • 靈活性:可直接使用預安裝的軟體包,或在策展環境的基礎上進行構建。
  • 易用性:所有元件均已安裝並針對數十個 Microsoft 工作負載進行了驗證,以降低設定成本並加速實現價值。
  • 效率:避免不必要的映象構建,並且只在映象/容器中提供所需的依賴項。
  • 最佳化的訓練框架:在大規模工作負載上設定、開發和加速 PyTorch 模型,提高訓練和部署成功率。
  • 最新的技術棧:訪問最新相容版本的 Ubuntu、Python、PyTorch、CUDA/RocM 等。
  • 最新的訓練最佳化技術:利用 ONNX Runtime、DeepSpeed、MSCCL 等。

適用於 PyTorch 的 Azure 容器 (ACPT) 支援的配置

Microsoft Container Registry (MCR) 中支援以下配置:ptca_image_list.md

還提供了 fairscale、horovod、msccl、protobuf、pyspark、pytest、pytorch-lightning、tensorboard、NebulaML、torchvision 和 torchmetrics 等其他軟體包,以支援所有訓練需求。

支援

支援環境(包括它們引用的基礎映象)的版本更新每兩週釋出一次,以解決不超過 30 天的漏洞。根據使用情況,某些環境可能會被棄用(從產品中隱藏但仍可使用),以支援更常見的機器學習場景。