過去十年,AI晶片的性能成長主要依賴著三件事:算力堆疊、製程迭代以及記憶體容量/頻寬提升。
然而,在2025年的當下,一個現實擺在包括我們在內的從業者面前——單一記憶體的量變,幾乎無法支撐未來超大模型運行所需頻寬與容量的需求,更何況我們還需要考慮性能/成本的平衡。
由此,AI的計算瓶頸已經從算力端轉為「記憶體牆」。新的趨勢逐漸成為業內共識:未來的AI加速器,會全面進入「混合記憶體架構時代」。
為什麼混合記憶體勢在必行?
高效能AI晶片一直在追求更高的記憶體頻寬和容量。在不考慮價格的前提下,目前HBM是公認最能滿足AI計算需要的——頻寬很大,堆疊形式帶來了相當可觀的容量規格。
不過,HBM的天花板也相當明顯。以HBM3E為例,單stack容量常見規格是24–48GB,單晶片常整合4個stack,以實現96–192GB記憶體。即使未來HBM4進入到64GB/stack,綜合記憶體性能的提升也有限。對於百億~萬億參數模型、超長上下文推理、KV Cache堆積等場景來說,這樣的記憶體密度提升遠遠不夠。
更關鍵的是,HBM價格昂貴,成本是普通DDR的數倍,產能還有限,並且長期被三大國際廠商所壟斷。這意味著即使技術層面可以堆更多HBM,也不一定用得起、買得到。
因此,目前產業界和學術界都在探索將記憶體分層,用增加一級片外快取的思路來重新建構AI晶片的記憶體架構。尤其是AI模型進化到MOE架構之後,AI計算所需要的資料開始冷熱分級更加明顯:用快+貴的小容量記憶體(HBM)承載熱資料,用大+便宜的大容量記憶體(DDR/NAND)承載冷資料成為一個更合理的解決方案。
我們也可以看到,近幾年學術界的論文中大量出現的關鍵詞也印證了這一趨勢:
Hybrid Memory
Heterogeneous Memory
Near‑memory computing
Tiered storage for AI training/inference
類似的,在儲存廠商、雲端廠商以及晶片公司的公開文件中,「混合記憶體系統」已經開始頻繁出現,甚至被直接繪入2030年前的技術路線圖。
產業對未來的基本判斷是——未來的AI晶片需要以HBM為核心,加上多級混合記憶體為殼,才能支撐千億和萬億參數時代。
「混合記憶體」的三大路徑
目前有三種路徑是業界最受關注,也最接近落地的方向。
路徑一:3D HBM + 普通HBM(Hybrid HBM)

實現方式是一部分記憶體以HBM和計算晶粒堆疊的方式實現,既可以是HBM堆疊在計算晶粒之上,也可以是計算晶粒堆疊在HBM之上。
目前HBM‑on‑Logic相對容易實現一些,這種做法互聯密度比2.5D封裝要高上一個數量級,可以顯著增加記憶體頻寬,並且降低資料傳輸功耗和延遲,但它有一個嚴重的制約問題就是散熱,AI邏輯晶片的發熱很大,而DRAM的溫度不能超過95攝氏度,否則會造成資料遺失。此外,HBM不能夠堆疊過高,容量受限。
這種3D HBM和傳統HBM混合使用的分層架構可以顯著提高容量和頻寬,3D HBM容量小,頻寬高,負責KV Cache和激活;傳統HBM容量大,頻寬相對低一些,負責儲存權重。但是這種混合架構的劣勢也很明顯,即使用兩種記憶體,總容量仍然有限,並且當前3D DRAM的實現在工程上也有諸多挑戰和限制。
路徑二:HBM + HBF(High Bandwidth Flash)

這是最近非常火的概念,尤其被認為是未來推理加速與參數伺服器的關鍵元件。
HBF是基於3D NAND堆疊的「類HBM」儲存,其如果採用類HBM介面,可以直接複用HBM生態,頻寬匹配HBM頻寬,容量可以輕鬆達到幾TB到幾十TB,單位容量成本遠遠低於HBM,包括SK海力士、威騰電子、鎧俠等公司正在合作推動HBF標準化,業界也已經有了原型,預計2027年左右有機會進入早期商用階段。
但是,HBF缺點也很明顯,一是延遲較大,比DRAM高出一個數量級,其次是NAND寫入壽命有限。HBF可以配合HBM來使用,前者做權重倉庫(冷資料),後者做熱資料,讓GPU擁有「近似無限」的本機模型儲存空間。
HBM+HBF路徑的戰略意義很大,例如可以徹底改變多模型部署的成本、大模型推理的上下文長度、MoE模型的專家管理方式等。
路徑三:HBM + LPDDR/GDDR(異構DRAM)
這一路徑可能在邊緣計算和高能效系統中具有比較重要的意義。
相比HBM,LPDDR的成本要低很多,功耗也較低,並且容量要大很多,可以擴展到數百GB,搭配HBM使用或許是一種更經濟的形式。
有產業界的文章提出可以在HBM base die上的一些外圍多餘面積加上LPDDR控制器,讓一塊XPU同時驅動封裝內的HBM和PCB上的LPDDR,形成HBM一層、LPDDR二層的結構。
市場中也有最新的異構計算系統伺服器晶片已經採用了類似的混合記憶體方案,例如NVIDIA的GB300/200已經是GraceCPU+LPDDR5和Blackwell GPU+HBM的形態。
不過,LPDDR對於封裝和走線資源的要求很高,傳統封裝情況下單卡上能夠放下的總記憶體容量仍然受限,未來也有可能是透過CXL或chiplet技術將LPDDR拉遠形成記憶體池的形式擴展。這些方案目前業界仍然在探索中。
除了以上路徑,業界也在嘗試使用CXL DDR記憶體池來擴展可用容量,例如有些廠商正在嘗試用CXL.mem協定+機架級DDR5記憶體池來給GPU提供額外的TB級「近端記憶體」。
AI SSD也是一個正在被探索的方向,如NVIDIA在推動IOPS量級到100M的AI SSD,這顯然就是為了把儲存往「準記憶體」方向推。
總之,AI模型規模成長一直領先於記憶體技術進步。當模型從百億千億走向萬億級參數,上下文從幾千token走向百萬token,以及KV Cache比模型本身更佔記憶體之後,任何單一的記憶體技術都將無法滿足AI計算的需求。未來的AI記憶體架構大概會走向一個「類似資料中心儲存體系」的多層級結構,這將是未來十年AI晶片競爭的關鍵戰場。