搭載GDDR7的GPU于2025年5月正式上市,其中英偉達GPU RTX 5060首發,高端型號(如RTX 5090)將于?2025年年末推出。在此背景下,Rambus半導體IP產品管理總監Nidish Kamath圍繞“GDDR7加速AI推理”主題做了分享。
在AI技術快速發展的背景下,GPU顯卡面臨著更嚴苛的性能需求。GDDR顯存是專為顯卡設計的高性能DDR存儲器,主要承擔圖形數據的存儲與傳輸,其工作頻率、電壓等參數區別于標準DDR內存。
最初,顯卡內存兼容CPU內存,當時的顯卡主要使用DDR內存。但隨著圖像處理需求逐年攀升,早期DDR內存因位寬有限,難以滿足GPU并行計算需求,導致幀率下降或卡頓。在此基礎上,GPU顯存慢慢轉向GDDR。三星電子1998年推出的首款16 Mb GDDR內存芯片,標志著GPU和CPU內存開始分離。
GDDR具有更高的數據傳輸速率和帶寬,在推動GPU的發展過程中起到了很關鍵的作用。從GDDR顯存誕生以來,到現在共計演進了7個版本(GDDR到GDDR7),每一代都在提升帶寬和降低功耗方面有所改進。?如今,GDDR7的起始速度達到32 GT/s,比最快的GDDR6內存高60%,比最快的GDDR6X內存高33%。
在GTC 2024上,三星、SK海力士展示的GDDR7內存解決方案代表GDDR7進入商用落地階段,這兩家企業還通過?客戶合作計劃?與?明確量產時間表?,直接推動該技術從實驗室走向終端市場。
根據規劃,搭載GDDR7的GPU于2025年5月正式上市,其中英偉達GPU RTX 5060首發,高端型號(如RTX 5090)將于?2025年年末推出。在此背景下,Rambus半導體IP產品管理總監Nidish Kamath圍繞“GDDR7加速AI推理”主題做了分享,同時,他還向《國際電子商情》介紹了Rambus的GDDR7內存控制器IP。
生成式AI設備需要更大的內存
伴隨AI下沉到邊緣端和終端,輕量化通用模型使之適配專用需求,正成為行業在邊緣設備落地AI的主流方式。簡化后的專用模型可以把參數量降到更低,又能保證較好的用戶體驗,不失為一種經濟可行的商業模式。
當前,支持生成式AI的手機究竟多大的內存?Nidish Kamath表示,在大語言模型(LLM)的推動下,AI PC和AI智能手機等設備中的設備端AI,已率先適應神經網絡賦能的邊緣計算和端點應用。為應對邊緣與端點設備對帶寬和內存容量的爆發式需求,新一代高帶寬、低延遲內存技術成為關鍵解決方案。目前,DDR5、GDDR7及LPDDR5/5X等先進內存已在這些設備中實現規模化應用。
不過,設備類型也限制了支持AI應用的內存選擇范圍。目前,LPDDR5已被移動設備廣泛采用,其性能和帶寬足以滿足手機AI應用需求,而且還能將功耗控制在較低水平。據Yole Group研究顯示,生成式AI的演進正推動移動設備內存需求激增:舊款機型受限于處理能力難以滿足要求。當前基礎AI功能僅需約100MB內存,但搭載LLM的進階功能內存需求可能驟增至7GB。
HBM主導AI訓練,GDDR適用邊緣推理
這種內存需求的指數級增長,直接推動了不同內存技術的場景分化。在云端訓練端,HBM(高帶寬內存)憑借其3D堆疊架構提供的超高帶寬,完美適配大模型參數頻繁調用的需求;而在邊緣側,GDDR6/7則通過更優的能效比和模塊化設計,滿足移動設備對LLM推理的實時性要求與成本約束。
Nidish Kamath進一步分析稱,最新HBM3E的運行速率為每引腳9.6 Gb/s,單個內存的總帶寬可達1.2 TB/s,GDDR7支持每引腳40 Gb/s數據速率,單個GDDR7內存的帶寬為160 GB/s。對比之下,在內存帶寬上HBM3E與GDDR7的差距明顯。
兩者的性能差異,主要是因為兩種內存結構上的不同。基于2.5D/3D架構的HBM直接集成于GPU芯片內,并包含中介層、處理器及內存堆棧。這種設計使HBM能夠在低延遲下實現高帶寬性能,并且更加節能,從而能夠處理密集型AI訓練或機器學習等高性能計算(HPC)任務。
但HBM強大的性能背后是其更高的復雜性,這持續推高了其生產成本。主流邊緣和終端設備由于工作負載較輕,一般無需為了獲得HBM的強大性能而投入大量成本,GDDR的內存容量和帶寬就可以滿足其需求。
此外,GDDR采用傳統的2D架構并與GPU裸片分離,相較于HBM使用的更復雜的2.5/3D架構,其實現更為簡單。這種較低的復雜性和易于實現的特性進一步降低了成本。通過采用PAM3信令技術,GDDR7仍能保持出色的帶寬性能,足以滿足邊緣和終端設備中AI推理應用的需求,因此廣受邊緣和終端設備設計師的歡迎。
未來內存挑戰:兼顧節能和性能
當然,如今正處于生成式AI進入商用化元年,其對內存的性能要求還相對不高,但隨著未來更高級的AI功能商用落地,將會對內存有著更高的性能要求(比如帶寬、延遲、效率等)。對此,Nidish Kamath稱,未來所面臨的重大挑戰在于“如何在進一步節能的前提下提供更高的性能”。內存?為處理器提供高速數據緩沖,?互聯技術?構建處理器間及處理器-內存間的直達通道,二者協同解決海量數據搬運效率問題。
“隨著處理器運行速度的加快,我們必須同時加快數據傳輸速度,無論是處理器之間的數據傳輸,還是處理器與內存之間的數據傳輸。此外,我們還必須滿足數據傳輸的功耗要求,確保數據在處理器與內存、處理器與其他處理器之間的通道和鏈路上能夠更高數據速率地可靠傳輸。這個領域將涌現許多新技術。Multi-PAM將成為支持數據速率持續提升的技術之一。”
但對于內存技術而言,提升單芯片的數據位數本身就是一項挑戰。隨著存儲單元為容納更多數據位而不斷微縮,其他一些需要管控的物理效應也隨之而來。其中的問題還包括片上錯誤。因此,片上糾錯技術也將比當前應用得更為廣泛。此外,還需應對諸如RowHammer和RowPress等效應,在這些效應下,對特定存儲單元的重復或持續訪問可能會干擾鄰近區域的單元。
以Rambus為代表的行業領先企業,正聯合產業伙伴在內存架構創新、信號完整性優化等關鍵技術領域開展深度研發合作。“我們深知行業當前所面臨的種種挑戰,亦了解到眾多業界頂尖人才正致力于解決這些問題。憑借在高性能內存領域超過30年的深厚經驗與積累,Rambus致力于提供行業領先的解決方案,以期始終與最先進的標準同步,并助力構建‘AI 2.0’的新世界,”他介紹道。
“AI 2.0”需要更高性能的內存系統
與“AI 1.0”相比,“AI 2.0”對內存系統有著新的要求。具體來看,“傳統AI”主要專注于基于輸入模型進行數據分析和預測,且局限于有限的輸入/輸出模態(例如文本到網頁結果)。比如,典型的“AI 1.0”應用有語音助手、推薦引擎和搜索平臺,這些系統在處理相對簡單的任務(如語音轉語音、文本轉文本、語音轉文本)方面表現出色,但它們無法處理復雜多樣的內容創作。
隨著LLM的出現,“AI 2.0”時代開啟了跨多種模態的無限創意與創新可能性。LLM能夠理解復雜輸入(包括文本、圖像或語音),并生成從傳統文本響應到更高級形式(如代碼、圖像、視頻甚至3D模型)的輸出。這種多模態特性在GPT-4、PaLM2、ERNIE 4.0、Inflection-2、Gemini 1.5和Olympus等LLM中均有所體現,并且正在擴展至更多邊緣和終端應用場景。
從個性化體驗到跨計算架構(云、邊緣、終端)的行業特定解決方案,“AI 2.0”應用的迅猛發展對AI訓練和推理工作流的內存帶寬和容量提出了巨大的要求。例如,在AI訓練方面,對應的AI模型規模正迅速擴大——Chat GPT-3的1,750億參數與Chat GPT-4的1.76萬億參數相比相形見絀,突顯出對內存帶寬和容量需求的持續增長。
與此同時,許多AI應用正從數據中心向邊緣和終端遷移,這也對現有的內存系統提出了更高要求。采用GDDR內存的GPU一直是推理引擎的首選。Rambus GDDR7控制器通過PAM3信令,提供了一種功能齊全、節省帶寬的內存實現解決方案,推動了先進GDDR內存在前沿AI加速器、圖形處理和高性能計算應用中的使用。
提供業界領先的GDDR7性能
為了提升內存帶寬,GDDR7采用PAM3而非NRZ(PAM2)信令。這種新的編碼方案可在兩個時鐘周期內傳輸“3位信息”,與GDDR6在相同時鐘頻率下相比,數據傳輸速率提升50%,將通道性能提升至每引腳40 Gbps。為確保在如此高的運行速度下數據的可靠傳輸,GDDR7內存整合了先進的RAS(可靠性、可用性與可服務性)機制。這有助于減輕由高頻操作及PAM3信令固有特性所帶來的信號完整性挑戰。
Nidish Kamath介紹說:“Rambus GDDR7控制器通過集成額外的增強型數據完整性功能,包括片上ECC、數據中毒及錯誤校驗等,來滿足對更高可靠性的嚴苛要求。”Rambus GDDR7內存控制器IP提供業界領先的GDDR7性能,單個GDDR7內存可實現最高40 Gbps的傳輸速率和160 GB/s的可用帶寬。其GDDR7內存控制器IP的主要特征包括以下:
每引腳最高40 Gbps傳輸速率;
支持所有GDDR7鏈路特性,包括PAM3和NRZ信號格式;
支持多種GDDR7產品尺寸和速度;
針對各種流量場景優化,實現高效率和低延遲;
靈活的AXI接口支持;
支持低功耗模式(自刷新、休眠自刷新、動態頻率調節等);
可靠性、可用性和可維護性(RAS)特性,如端到端數據路徑校驗、存儲寄存器校驗保護等;
綜合全面的內存測試支持;
支持客戶和第三方PHY集成。
據Nidish Kamath介紹,Rambus GDDR7內存控制器的交付內容包括:控制器(源代碼)、測試臺(源代碼)、完整文檔。同時,該公司還針對GDDR7內存控制器還提供專家技術支持、維護更新、定制、SoC集成等服務。
他解釋說:“在客戶的產品設計與開發階段,出現需要技術支持的問題時,我們可快速協助客戶確定問題并提供解決方案,從而縮短客戶產品的上市時間。我們還提供綜合全面的內存測試支持及第三方PHY集成支持,幫助客戶實現完整的GDDR7內存子系統。”
小結
隨著2025年英偉達RTX50系GPU量產,GDDR7將進一步推動生成式AI在移動設備的規模化落地。目前,JEDEC已規劃Multi-PAM技術路線,目標將GDDR7傳輸速率提升至48 GT/s,以支撐150億+參數模型的終端部署。不過,應對萬億參數模型需依賴Multi-PAM升級(48 GT/s)及異構內存架構創新,以平衡性能、功耗與成本。
【7月24號,深圳】2025MCU及嵌入式技術論壇,旨在匯聚行業精英,共同探討MCU的最新技術、市場趨勢和應用前景,為參會者提供全面而深入的行業洞察。立即報名>>>
同期舉行:國際AI+IoT生態發展高峰論壇,暨2025年度AIoT創新獎頒獎典禮。立即報名>>>
關鍵詞: