Arm KleidiAI 與 ONNX Runtime 的集成,為 Windows 和安卓操作系統帶來了顯著的 AI 性能優化,實現高達 2.6 倍的 AI 推理速度提升,從而加速應用體驗。
聯合作者:Arm 終端事業部產品管理總監 Ronan Naughton
微軟 AI 框架首席軟件工程經理 George Wu
隨著人工智能 (AI) 成為當今個人電腦 (PC) 和移動設備使用體驗(從聊天機器人到生產力提升)中不可或缺的一部分,這些設備對 CPU 高效、可擴展的推理需求也在持續增長。Arm 與微軟正攜手合作以滿足這一需求,在從高端臺式電腦和筆記本電腦到旗艦級和入門級智能手機等各類廣泛的消費類電子設備上,為用戶帶來加速的 AI 體驗。
Arm和微軟共同將Arm KleidiAI進一步擴展到ONNX Runtime(業界廣泛使用的開源AI 運行時之一)中。KleidiAI是一款面向 AI框架開發者的輕量級內核庫,它能夠在無可比擬的規模下,為廣泛的技術市場以及各類基于Arm 架構的設備,提供AI模型和工作負載的無縫性能優化。鑒于 KleidiAI 已成功集成到其他領先的 AI框架上,這次的合作是在此成功基礎上的又一重要進展。
加速邊緣設備上的 AI 體驗
Windows on Arm生態系統在過去幾年實現了顯著的增長。包括 Adobe Photoshop、Google Chrome、Spotify和Zoom 等廣受歡迎的應用程序,都紛紛推出了Arm原生版本,以充分發揮其性能和能效優勢。通過將KleidiAI集成到ONNX Runtime中,廣大的應用程序開發者無需額外投入工程時間,就能獲得PC和移動設備的AI性能提升。ONNX Runtime 為微軟諸多產品的AI工作負載提供支持,包括 Microsoft 365 套件以及 Microsoft Copilot 等,并為 Copilot+ PC 打造卓越的 AI 體驗。
KleidiAI 與 ONNX Runtime的集成優化了包含 Phi-3 Mini 等一系列模型在內的 AI工作負載。Phi-3 Mini是一個擁有38億參數的小型語言模型,專為邊緣設備的先進 AI 體驗量身定制。這些 AI 體驗包括實時聊天機器人、虛擬助手、智能文本補全以及生產力工具的功能增強等,所有這些功能均可在設備本地實現。通過將Phi-3 Mini緊湊的結構與KleidiAI高效的CPU執行提供程序(Execution Provider)集成配對,開發者無需依賴云端連接,即可在設備上快速實現智能功能。
提升PC和移動設備上的實際AI性能
在PC和移動平臺上,該集成已為終端用戶帶來了切實的益處。它顯著加快了AI的響應速度,使設備能夠直接實現更智能、更快速的交互,且無需開發者進行架構改動或后端重寫。
根據 Arm 的基準測試顯示,在 KleidiAI 集成到 ONNX Runtime 后,系統性能得到了顯著的提升,包括在基于Armv9平臺的Windows設備上運行Phi-3模型時,提示處理吞吐量提升了2.4倍,詞元 (token) 生成速度加快了12%。這些性能改進使聊天機器人等AI 應用能夠給出更加自然流暢的回應。同樣地,在搭載最新 Armv9 CPU 的vivo X200 Pro 旗艦智能手機上運行相同Phi-3 模型的參考安卓應用中,提示處理速度加快了2.6 倍。
由于 KleidiAI 的集成運行在全球應用廣泛的Arm CPU 架構上,這使得AI 應用與工作負載能夠在不同的生態系統及芯片組之間無縫移植。KleidiAI 的設計旨在與當前的Arm 架構特性,如Neon、可伸縮矢量擴展 (SVE2) 及可伸縮矩陣擴展 (SME) ,展開協同工作。這些面向未來的功能確保開發者能夠構建當下的AI 增強體驗,并使其隨著未來的硬件創新而擴展。KleidiAI 與ONNX Runtime 的集成已在 ONNX RT V1.22 中發布。
推動 AI 規模化落地
Arm 與微軟的合作為開發者普及優化 AI 邁出了變革性的一步。該合作簡化了在各類 PC 和移動設備上部署智能功能的流程,無需增加成本或開發工作量,同時為終端用戶帶來加速的AI 體驗。隨著AI 的持續演進,這些優化工作將確保開發者、OEM 廠商和操作系統提供商擁有出色的性能、靈活性和廣泛的覆蓋范圍,為更多用戶帶來更優質、更智能的體驗。
訪問以下學習路徑,了解 KleidiAI 與 ONNX Runtime 集成的更多信息:
· 在基于 Arm 的 Windows 設備上,通過 ONNX Runtime 運行 Phi-3 模型
· 使用 ONNX Runtime API 構建安卓聊天應用
+++
關鍵詞: