8 月 19 日消息在 2021 年英特爾架構日上,英特爾公司高級副總裁兼加速計算系統和圖形事業部總經理 Raja Koduri 與多位英特爾架構師,介紹了兩種全新 x86 內核架構的詳情。
英特爾首個性能混合架構,代號“Alder Lake”,以及智能的英特爾硬件線程調度器;專為數據中心設計的下一代英特爾至強可擴展處理器 Sapphire Rapids;基礎設施處理器 (IPU);即將推出的顯卡架構,包括 XeHPG 微架構和 XeHPC 微架構,以及 Alchemist SoC,Ponte Vecchio SoC。
X86 內核
能效核
全新的英特爾能效核微架構,曾用代號“Gracemont”。能效核可以利用各種技術進步,在不耗費處理器功率的情況下對工作負載進行優先級排序,并通過每周期指令數(IPC)改進功能直接提高性能,這些功能包括:
擁有 5000 個條目的分支目標緩存區,實現更準確的分支預測
64KB 指令緩存,在不耗費內存子系統功率的情況下保存可用指令
英特爾的首款按需指令長度解碼器,可生成預解碼信息
英特爾的簇亂序執行解碼器,可在保持能效的同時,每周期解碼多達 6 條指令
后端寬度(Wide Back End)具備 5 組寬度分配(Five-wide allocation)和 8 組寬度引退、256 個亂序窗口入口和 17 個執行端口
支持英特爾控制流強制技術和英特爾虛擬化技術重定向保護等功能
實現了 AVX 指令集以及支持整數人工智能操作的新擴展
相比英特爾最多產的 CPU 內核 Skylake,在單線程性能下,能效核能夠在相同功耗下實現 40% 的性能提升,或在功耗不到 40% 的情況下提供同等性能。與運行四個線程的兩個 Skylake 內核相比,四個能效核所提供的吞吐量性能,能夠在功耗更低的情況下同時帶來 80% 的性能提升,而在提供相同吞吐量性能時,功耗減少 80%。
性能核
英特爾全新性能核微架構,曾用代號“Golden Cove”。性能核擁有更寬、更深、更智能的架構:
更寬:解碼器由 4 個增至 6 個,6µop 緩存增至 8µop,分配由 5 路增至 6 路,執行端口由 10 個增至 12 個
更深:更大的物理寄存器文件(physical register files),擁有 512 條目的重排序緩沖區
更智能:提高了分支預測準確度,降低了有效的一級時延,優化了二級的全寫入預測帶寬
性能核是英特爾有史以來構建的性能最高的 CPU 內核,并通過以下功能突破了低時延和單線程應用程序性能的極限:
相比目前的第 11 代英特爾酷睿處理器架構(Cypress Cove),在通用性能的 ISO 頻率下,針對大范圍的工作負載實現了平均約 19% 的改進
呈現出更高的并行性和執行并行性的增加
搭載英特爾高級矩形擴展(AMX),內置下一代 AI 加速提升技術,用于學習推理和訓練。AMX 包括專用硬件和新指令集架構,以明顯提高矩陣乘法運算
減少時延,對大型數據和代碼體積較大的應用程序提供更好的支持
客戶端
Alder Lake 客戶端 SoC
代號為“Alder Lake”的英特爾下一代客戶端架構是英特爾的首款性能混合架構,它首次集成了兩種內核類型:性能核和能效核。Alder Lake 基于 Intel 7 制程工藝打造而成,支持最新內存和最快 I/O。
Alder Lake 支持從超便攜式筆記本,到發燒級,到商用臺式機的所有客戶端設備,它采用了單一、高度可擴展的 SoC 架構,提供三類產品設計形態:
高性能、雙芯片、插座式的臺式機處理器 ,具有領先性能和能效。支持高規格的內存和 I/O
高性能筆記本處理器,采用 BGA 封裝,并加入圖像單元,更大的 Xe 顯卡和 Thunderbolt 4 連接
輕薄、低功耗的筆記本處理器,采用高密度的封裝,配置優化的 I/O 和電能傳輸
英特爾需要在不影響功率的情況下滿足計算和 I/O 代理對帶寬的需求。為了解決這一挑戰,英特爾設計了三種獨立的內部總線,每一種都采用基于需求的實時啟發式后處理方式。
?計算內部總線可支持高達 1000GBps—— 即每個內核或每集群 100GBps,通過最后一級緩存將內核和顯卡連接到內存
具有高動態頻率范圍,并且能夠動態選擇數據路徑,根據實際總線結構負載而進行時延和帶寬優化
根據利用率動態調整最后一級緩存策略 —— 也就是“包含”或“不包含”
?I/O 內部總線支持可高達 64GBps,連接不同類型的 I/O 和內部設備,能在不干擾設備正常運行的情況下無縫改變速度,選擇內部總線速度來匹配所需的數據傳輸量
?內存結構可提供高達 204GBps 的數據,并動態擴展其總線寬度和速度,以支持高帶寬、低時延或低功耗的多個操作點
英特爾硬件線程調度器
為使性能核和能效核與操作系統無縫協作,英特爾開發了一種改進的調度技術,稱之為“英特爾硬件線程調度器”。硬件線程調度器直接內置于硬件中,可提供對內核狀態和線程指令混合比的低級遙測,讓操作系統能夠在恰當的時間將合適的線程放置在合適的內核上。硬件線程調度器具有動態性和自適應性 —— 它會根據實時的計算需求調整調度決策 —— 而非一種簡單的、基于規則的靜態方法。
傳統意義上,操作系統會根據有限的可用數據做出決策,如前臺和后臺任務。硬件線程調度器可通過以下方式增加新維度:
使用硬件遙測工具將需要更高性能的線程引導到當時適合的性能核上
更精細地監控指令組合、每內核當前狀態以及相關的微架構遙測,從而幫助操作系統做出更智能的調度決策
通過與微軟合作,優化英特爾硬件線程調度器在 Windows11 上的性能
擴展 PowerThrottling API,使得開發人員能夠為其線程明確指定服務質量屬性
應用全新 EcoQoS 分類,該分類可讓調度程序獲悉線程是否更傾向于能效(此類線程會被調度到能效核)
XeHPG 微架構和 Alchemist SoC
XeHPG 是一款全新的獨立顯卡微架構。XeHPG 微架構為 Alchemist 系列 SoC 提供動力,首批相關產品將于 2022 年第一季度上市,并采用新的品牌名 —— 英特爾銳炫(Intel Arc)。XeHPG 微架構采用全新的 Xe 內核,是一款聚焦計算、可編程且可擴展的元件。
客戶端顯卡路線圖包括 Alchemist(此前稱之為 DG2)、Battlemage、Celestial 和 Druid SoC。在演講中,英特爾展示了微架構細節,并分享了在試產階段的 Alchemist SoC 上運行的演示視頻,包括真實游戲展示,虛幻引擎 5 測試良好,全新的基于神經網絡的超取樣技術 XeSS 等。
基于 XeHPG 微架構的 Alchemist SoC 能夠提供可擴展性和計算效率,并擁有以下關鍵架構特征:
多達 8 個具有固定功能的渲染切片,專為 DirectX 12 Ultimate 設計
全新 Xe 內核,擁有 16 個矢量引擎和 16 個矩陣引擎(被稱為 XMX,即 XeMatrix eXtension)、高速緩存和共享內部顯存
支持 DirectX Raytracing(DXR)和 Vulkan Ray Tracing 的新光線追蹤單元
通過架構、邏輯設計、電路設計、制程工藝技術和軟件優化,相比 XeLP 微架構實現 1.5 倍的頻率提升和 1.5 倍的每瓦性能提升
使用臺積電的 N6 制程節點上進行制造
XeSS
XeSS 利用 Alchemist 的內置 XMX AI 加速,帶來了一種可實現高性能和高保真視覺的全新升頻技術。其使用深度學習來合成接近原生高分辨率渲染質量的圖像。英特爾表示,憑借 XeSS ,那些只能在低畫質設置或低分辨率下玩的游戲也能在更高畫質設置和分辨率下順利運行。
XeSS 的工作原理是通過從相鄰像素,以及對前一幀進行運動補償,來重建子像素細節
重構由經過訓練的神經網絡執行,可提供高性能和高畫質,同時性能提升高達兩倍
XeSS 憑借 DP4a 指令,在包括集成顯卡在內的各種硬件上提供基于 AI 的超級采樣
多家早期的游戲開發商已開始使用 XeSS,本月將向獨立軟件供應商(ISV)提供 XMX 初始版本的 SDK,DP4a 版本將于今年晚些時候推出
數據中心
下一代英特爾至強可擴展處理器(代號為“Sapphire Rapids”)
Sapphire Rapids 的核心是一個分區塊、模塊化的 SoC 架構,采用英特爾的嵌入式多芯片互連橋接(EMIB)封裝技術,在保持單晶片 CPU 接口優勢的同時,具有顯著的可擴展性。Sapphire Rapids 提供了一個單一、平衡的統一內存訪問架構,每個線程均可完全訪問緩存、內存和 I/O 等所有單元上的全部資源,由此實現整個 SoC 具有一致的低時延和高橫向帶寬。
Sapphire Rapids 基于 Intel 7 制程工藝技術,采用英特爾全新的性能核微架構。
Sapphire Rapids 提供數據中心相關加速器,包括新的指令集架構和集成 IP,以在各種客戶工作負載和使用中提升性能。新的內置加速器引擎包括:
英特爾加速器接口架構指令集(AIA)—— 支持對加速器和設備的有效調度、同步和信號傳遞
英特爾高級矩陣擴展(AMX)——Sapphire Rapids 中引入的新加速引擎,可為深度學習算法核心的 Tensor 處理提供大幅加速。其可以在每個周期內進行 2000 次 INT8 運算和 1000 次 BFP16 運算,實現計算能力的大幅提升。使用早期的 Sapphire Rapids 芯片,與使用英特爾 AVX-512 VNNI 指令的相同微基準測試版本相比,使用新的英特爾 AMX 指令集擴展優化的內部矩陣乘法微基準測試的運行速度提高了 7 倍以上,為 AI 工作負載中的訓練和推理上提供了顯著的性能提升
英特爾數據流加速器(DSA)—— 旨在卸載最常見的數據移動任務,這些任務會導致數據中心規模部署中的開銷。英特爾 DSA 改進了對這些開銷任務的處理,以提供更高的整體工作負載性能,并可以在 CPU、內存和緩存以及所有附加的內存、存儲和網絡設備之間移動數據
基礎設施處理器(IPU)
IPU 是一種可編程的網絡設備,旨在使云和通信服務提供商減少在中央處理器(CPU)方面的開銷。英特爾推出了以下 IPU 家族的新成員。
Mount Evans 是英特爾的首個 ASIC IPU。Mount Evans 是與一家云服務提供商共同設計和開發的。
超大規模就緒,提供高性能網絡和存儲虛擬化卸載,同時保持高度控制
提供業界一流的可編程數據包處理引擎,支持防火墻和虛擬路由等用例
使用硬件加速的 NVMe 存儲接口,該接口擴展自英特爾傲騰技術,以模擬 NVMe 設備
采用英特爾高性能 Quick Assist 技術,部署高級加密和壓縮加速
可使用現有普遍部署的 DPDK、SPDK 等軟件環境進行編程,并且可以采用英特爾 Barefoot Switch 部門開創的 P4 編程語言來配置管線
Oak Springs Canyon 是一個 IPU 參考平臺,基于英特爾至強 D 處理器(Intel Xeon-D)和英特爾 Agilex FPGA 構建:
卸載 Open Virtual Switch(OVS)等網絡虛擬化功能以及 NVMe over Fabric 和 RoCE v2 等存儲功能,并提供硬化的加密模塊,提供 2x 100Gb 以太網網絡接口
能夠使用英特爾開放式 FPGA 開發堆棧 (英特爾 OFS) 定制其解決方案
使用現有普遍部署的軟件環境進行編程,包括已在 x86 上優化的 DPDK 和 SPDK
IT之家了解到,英特爾 N6000 加速開發平臺,代號為“Arrow Creek”,是專為搭載至強服務器設計的 SmartNIC。其特性包括:
英特爾 Agilex FPGA。用于高性能的 100GB 網絡加速的英特爾以太網 800 系列控制器
支持多種基礎設施工作負載,使通信服務提供商(CoSP)能夠提供靈活的加速工作負載,如 Juniper Contrail、OVS 和 SRv6,它以英特爾 PAC-N3000 的成功為基礎
XeHPC 和 Ponte Vecchio
Ponte Vecchio 基于 XeHPC 微架構。英特爾公布了 XeHPC 微架構的 IP 模塊信息;包括每個 Xe 核的 8 個矢量和矩陣引擎(稱為 XMX XeMatrix eXtensions);切片和堆棧信息;以及包括計算、基礎和 XeLink 單元的處理節點的單元信息。在架構日上,英特爾表示,早期的 Ponte Vecchio 芯片展示了領先的性能,在流行的 AI 基準測試中創造了推理和訓練吞吐量的行業記錄。英特爾 A0 芯片性能提供了高于 45 TFLOPS 的 FP32 吞吐量,高于 5 TBps 的內存結構帶寬,以及高于 2 TBps 的連接帶寬。同時,英特爾分享了一段演示視頻,展示了 ResNet 推理性能超過 43,000 張圖像/秒和超過每秒 3400 張圖像/秒的 ResNet 訓練。
Ponte Vecchio 由多個復雜的設計組成,這些設計以單元形式呈現,然后通過嵌入式多芯片互連橋接(EMIB)單元進行組裝,實現單元之間的低功耗、高速連接。這些設計均被集成于 Foveros 封裝中,為提高功率和互連密度形成有源芯片的 3D 堆疊。高速 MDFI 互連允許 1 到 2 個堆棧的擴展。
計算單元是一個密集的多個 Xe 內核,是 Ponte Vecchio 的核心。
一塊單元有 8 個 Xe 內核,總共有 4MB 一級緩存,是提供高效計算的關鍵
基于臺積電先進的 N5 制程工藝技術
英特爾已通過設計基礎設施設置和工具流程以及方法,為測試和驗證該節點的單元鋪平了道路
該單元具有極其緊湊的 36 微米凸點間距,可與 Foveros 進行 3D 堆疊
基礎單元是 Ponte Vecchio 的連接組織。它是基于 Intel 7 制程工藝的大型芯片,針對 Foveros 技術進行了優化。
基礎單元是所有復雜的 I/O 和高帶寬組件與 SoC 基礎設施 ——PCIe Gen5、HBM2e 內存、連接不同單元 MDFI 鏈路和 EMIB 橋接
采用高 2D 互連的超高帶寬 3D 連接時延很低,使其成為一臺無限連接的機器
英特爾技術開發團隊致力于滿足帶寬、凸點間距和信號完整性方面的要求
Xe 鏈路單元提供了 GPU 之間的連接,支持每單元 8 個鏈路。
對 HPC 和 AI 計算的擴展至關重要
旨在實現支持高達 90G 的更高速 SerDes
該單元已被添加到“極光”(Aurora)百億億次級超級計算機的擴展解決方案中
Ponte Vecchio 已走下生產線進行上電驗證,并已開始向客戶提供限量樣品。Ponte Vecchio 預計將于 2022 年面向 HPC 和 AI 市場發布。
oneAPI
目前,NVIDIA GPU、AMD GPU 和 Arm CPU 均有 Data Parallel C++(DPC++)和 oneAPI 庫。同時,英特爾還提供了商業產品,包括基本的 oneAPI 基礎工具包,它在規范語言和庫之外增加了編譯器、分析器、調試器和移植工具。
英特爾的 oneAPI 工具包擁有超過 20 萬次單獨安裝
市場上部署的 300 多個應用程序采用了 oneAPI 的統一編程模型
超過 80 個 HPC 和 AI 應用程序使用英特爾 oneAPI 工具包在 Xe HPC 微架構上運行
5 月份發布的 1.1 版臨時規范為深度學習工作負載和高級光線追蹤庫添加了新的圖形接口,預計將在年底完成