Arm 和 Microsoft 攜手合作,為基於 Arm 的 PC 和移動裝置上的應用程式賦能 AI 體驗
ONNX Runtime 中集成了 Arm KleidiAI,將 AI 效能最佳化擴充套件到 Windows 和 Android 作業系統,使 AI 推理速度提升高達 2.6 倍,從而加速應用程式體驗。
ONNX Runtime 中集成了 Arm KleidiAI,將 AI 效能最佳化擴充套件到 Windows 和 Android 作業系統,使 AI 推理速度提升高達 2.6 倍,從而加速應用程式體驗。
使用透過 ONNX Runtime 為裝置端使用最佳化的 DeepSeek R1,提升您的 AI 推理效能!本部落格探討了如何在 NPU、GPU 和 CPU 上高效執行 DeepSeek 模型,實現比 PyTorch 快 6.3 倍的效能提升。瞭解如何使用 Olive 框架和 Azure AI Foundry 轉換、量化和微調這些模型。
在使用者隱私、即時效能和成本效益日益增長的需求推動下,邊緣 AI 正在改變 AI 格局。在 Ignite 大會上,我們很高興地宣佈 ONNX Runtime 生態系統中四項新功能,旨在讓邊緣 AI 更易於訪問。
ONNX Runtime 與 MultiLoRA 的結合透過輕鬆整合 LoRA 介面卡,為動態、個性化模型提供靈活高效的 AI 定製,且資源需求極低。
2024年11月20日
瞭解如何使用 Olive 在模型最佳化工作流程中快速輕鬆地進行實驗。
2024年11月19日
瞭解 Goodnotes 如何在 ONNX Runtime 的幫助下,將 iPad 上流行的塗抹擦除功能引入 Windows、Web 和 Android,實現跨平臺無縫、高效能的 AI 整合。
2024年11月18日
瞭解如何使用新的 Olive CLI 輕鬆最佳化 AI 模型以進行裝置端推理
2024年11月11日
瞭解如何使用 Olive 的共享快取來提升最佳化 AI 模型時的團隊協作
2024年10月30日
使用 ONNX Runtime 結合 TensorRT 進行 LightGlue 推理,效能顯著優於 torch.compile。
2024年7月17日
將 NimbleEdge 與 ONNX Runtime 結合使用,可實現毫秒級延遲和極低的資源佔用,從而在移動應用中實現即時且保護隱私的個性化功能。
2024年6月17日
將 ONNX Runtime 與 WebGPU 和 WebAssembly 結合使用,相比多執行緒 CPU 效能可提速 20 倍,相比單執行緒 CPU 效能可提速 550 倍。從而在瀏覽器中直接實現最先進的背景移除的互動式速度。
2024年6月12日
您現在可以在您選擇的裝置上執行 Phi-3 中型、小型模型。
2024年5月21日
利用 ONNX Runtime 在手機和瀏覽器中執行 Phi-3-mini。
2024年5月20日
藉助 ONNX Runtime 和 DirectML,您現在可以在各種裝置和平臺上執行微軟最新的自研 Phi-3 模型。
2024年4月22日
我們很高興地宣佈,ONNX Runtime Web 正式釋出 WebGPU 功能,該功能現已在 ONNX Runtime 1.17 版本中提供。
2024年2月29日
從 Phi-2 模型最佳化到 CUDA 12 支援,閱讀本文了解 ONNX Runtime 1.17 版本中引入的一些激動人心的新功能。
2024年2月28日
ONNX Runtime 在流行生成式 AI 模型推理方面的改進。
2024年2月26日
想在瀏覽器中為您的網站進行機器學習訓練?在下面的部落格中瞭解 ONNX Runtime 的 Web 訓練功能,並透過我們易於遵循的教程和演示來嘗試您自己的應用程式。
2024年2月6日
藉助 ONNX Runtime 和 Olive,使用者可以輕鬆加速 SD Turbo 和 SDXL Turbo 模型,只需一步即可生成可用影像!
2024年1月15日
瞭解 ONNX Runtime 如何將 LLaMA-2 推理速度提升高達 4.5 倍
2023年11月14日
您需要了解的關於使用 ONNX Runtime 在邊緣執行 PyTorch 模型的一切。
2023年10月12日
瞭解 ONNX Runtime 如何幫助使用者加速 Hugging Face 上的開源機器學習模型。
2023年10月4日
本部落格介紹了 ONNX Runtime 裝置端訓練的技術細節。它解釋了裝置端訓練的工作原理以及訓練過程中涉及的不同步驟和產物。這些資訊將幫助您在邊緣裝置上訓練模型。
2023年7月5日
瞭解 ONNX Runtime 如何加速 Whisper,並使其易於部署在桌面、移動裝置、雲端甚至瀏覽器中。
2023年6月7日
本部落格介紹了裝置端訓練,旨在支援在邊緣裝置上利用邊緣資料訓練模型。它將 ORT 邊緣推理擴充套件到包括聯邦學習和個性化場景。
2023年5月31日
本部落格回顧了 ONNX Runtime 和 Olive 工具鏈的新功能,以支援 Windows 和其他平臺上的混合推理、NPU EP 和硬體感知模型最佳化。
2023年5月23日
本部落格回顧了 Windows 11 中的 AI,包括作為 Windows AI 閘道器的 ONNX Runtime 以及 ONNX Runtime 在 Windows 上的新功能。
2023年5月23日
本部落格展示瞭如何使用 Olive 最佳化 ONNX Runtime 中 DML EP 的模型。
2023年5月23日
本部落格展示瞭如何使用 Olive 最佳化 Stable Diffusion 模型,並在 DML EP 上使用 Stable Diffusion 模型。
2023年5月23日
本部落格展示瞭如何使用 ONNX Runtime 在 NVIDIA 和 AMD GPU 上加速 Hugging Face 的 Stable Diffusion 模型。它包括在 A100、RTX3060 和 MI250X 上獲得的基準測試結果。
2023年5月10日
ACPT 提供了一個即插即用的分散式訓練環境,供使用者在 Azure 中提供的最新多節點 GPU 基礎設施上執行。藉助 Nebula(ACPT 中一項新的快速檢查點功能),您可以使用一個與訓練過程非同步工作的簡單 API,將檢查點儲存速度提高 1000 倍。
2023年3月22日
透過使用深度神經網路 (DNN) 模型來實現各種場景對 Oracle 的 AI 戰略至關重要,我們的雲 AI 服務團隊已經構建了一個解決方案,為醫療保健行業的客戶提供 DNN 模型服務。在這篇部落格文章中,我們將分享我們團隊面臨的挑戰,以及 ONNX Runtime 如何作為高效能推理成功的支柱來解決這些挑戰。
2023年3月15日
在本教程中,我們將學習如何使用 C# 對流行的 Stable Diffusion 深度學習模型進行推理。Stable Diffusion 模型接受文字提示並建立表示該文字的影像。
2023年3月9日
Microsoft Edge 中的 VSR 構建於 ONNX Runtime 和 DirectML 之上,使我們的解決方案可在不同的 GPU 供應商之間移植,並讓更多使用者可以使用 VSR。未來將支援更多支援這些技術並具有足夠計算能力的顯示卡。ONNX Runtime 和 DirectML 團隊多年來不斷微調其技術,使 VSR 能夠最大限度地利用您顯示卡的效能和處理能力。
2023年3月8日
過去一年中,OctoML 工程師與 Watch For 密切合作,為 ONNX Runtime 設計並實現了 TVM 執行提供程式 (EP)——將 Apache TVM 的模型最佳化潛力帶給所有 ONNX Runtime 使用者。這建立在我們 2021 年開始的合作基礎之上,旨在將 TVM 的程式碼生成和靈活量化支援的優勢引入微軟的生產規模。
2023年3月2日
裝置端機器學習模型服務是一項艱鉅的任務,特別是對於早期初創公司有限的頻寬而言。這篇來自 Pieces 團隊的客座文章分享了他們裝置端模型服務棧所評估的問題和解決方案,以及 ONNX Runtime 如何作為他們成功的基礎。
2023年2月8日
在本部落格中,我們將討論如何透過 Azure 機器學習,使用 OpenVINO™ 神經網路壓縮框架 (NNCF) 和帶有 OpenVINO™ 執行提供程式的 ONNX Runtime,使 BERT 等大型模型更小、更快。
2023年1月25日
Hugging Face 的 Optimum 庫透過與 ONNX Runtime 的訓練整合,提供了一個開放的解決方案,可將許多流行的 Hugging Face 模型的訓練時間縮短 35% 或更多。我們詳細介紹了 Hugging Face Optimum 和 ONNX Runtime 訓練生態系統,並提供了效能資料,突出了使用 Optimum 庫的優勢。
2023年1月24日
選擇要使用的機器學習模型、與同事共享模型以及快速試用模型,這些都是您可能希望快速對模型進行推理的原因。您可以配置您的環境並下載 Jupyter Notebook,但如果有一種方法可以更輕鬆地執行模型會更好…
2022年6月6日
基於 Transformer 的模型徹底改變了自然語言處理 (NLP) 領域。自誕生以來,Transformer 架構已被整合到 Bidirectional Encoder Representations from Transformers (BERT) 和 Generative Pre-trained Transformer (GPT) 等模型中,用於執行文字生成、摘要以及問答等任務…
2022年5月2日
隨著應用機器學習在各行各業的增長,最先進深度學習模型的規模、效能和高效部署是普遍存在的挑戰。我們很高興看到,我們構建並在微軟大批次產品和服務中使用的 ONNX Runtime 機器學習模型推理解決方案也得到了開源社群的共鳴,從而實現了驅動內容相關性和生產力的新功能…
2022年4月19日
ONNX Runtime 現在支援使用 Xamarin 在 C# 中構建移動應用程式。ONNX Runtime 1.10 NuGet 包中包含了對 Android 和 iOS 的支援。這使得 C# 開發者能夠為 Android 和 iOS 構建 AI 應用程式,以便在移動裝置上使用 ONNX Runtime 執行 ONNX 模型…
2021年12月14日
我們正在推出 ONNX Runtime Web (ORT Web),這是 ONNX Runtime 中的一項新功能,旨在使 JavaScript 開發者能夠在瀏覽器中執行和部署機器學習模型。它還有助於實現新型的裝置端計算。ORT Web 將取代即將棄用的 onnx.js…
2021年9月2日
ONNX Runtime (ORT) for PyTorch 可加速跨多個 GPU 的大規模模型訓練,與 PyTorch 相比訓練吞吐量提高高達 37%,與 DeepSpeed 結合使用時速度提升高達 86%…
2021年7月13日
只需對您的 PyTorch 訓練指令碼進行簡單更改,您現在就可以使用 torch_ort.ORTModule,在您選擇的目標硬體上加速大型語言模型的訓練。訓練深度學習模型需要不斷增加的計算和記憶體資源。今天我們釋出 torch_ort.ORTModule,以加速 PyTorch 模型的分散式訓練,減少訓練所需的時間和資源…
2021年7月13日
ONNX Runtime 是一個開源專案,旨在加速機器學習在各種框架、作業系統和硬體平臺上的執行。今天,我們很高興地宣佈釋出 ONNX Runtime 1.8.1 預覽版,該版本透過 AMD ROCm™ 開放軟體平臺支援 AMD Instinct™ GPU…
2021年7月13日
大規模 Transformer 模型,例如 GPT-2 和 GPT-3,是自然語言處理任務(如語言翻譯、問答、段落摘要、文字生成等)中最有用的自監督 Transformer 語言模型…
2021年6月30日