科技解讀|驅動雲/邊緣側算力建設的高性能互聯介面方案

發佈日期：

2023-09-22

流覽次數：

9月14-15日，2023全球AI晶片峰會（GACS 2023）在深圳正式舉行。奎芯科技應邀出席大會，副總裁王曉陽發表主題為《驅動雲/邊緣側算力建設的高性能互聯接口方案》的演講。在演講中，王曉陽分享了AIGC產業算力需求引發的晶片互聯趨勢，並對算力晶片瓶頸進行了分析，提出了奎芯記憶體互聯解決方案和Chiplet方案落地案例。

AIGC引爆的晶片互聯趨勢

最近幾年AI模型快速發展，模型規模每年差不多10倍速度增長，當令人驚訝的1750億參數的GPT3已成為過去式，迎來更大體量的萬億參數時代，AI系統算力需求也隨之新增，幾乎每季度翻倍增長。最近幾年體系結構討論最多的問題之一就是如何破解兩堵牆：記憶體牆和I/O牆。多年來通過工藝進步，計算架構設計革新等方法，理論算力的增長速度是驚人的，但是記憶體頻寬，互聯頻寬的增長卻相對緩慢，造成了巨大的落差，最近業界也在嘗試很多方法來縮小這些差距比如：新增緩存，多級緩存架構，堆疊緩存；儘量提高單節點算力减少互聯的overhead；用高速的晶片互聯和系統互聯的SerDes做晶片互聯等等。

技术解读 | 驱动云/边缘侧算力建设的高性能互联接口方案

NVIDIA GH200非常重點的強調HBM頻寬，LPDDR容量，以及NVLINK的速度。 AMD發佈的MI300X對算力名額尚未提出，只提記憶體容量、記憶體頻寬以及互聯頻寬。囙此可以看到在LLM的遊戲規則下，記憶體容量、記憶體頻寬以及互聯頻寬成了最核心的競爭力，而算力的重要性相對下降。

算力晶片瓶頸分析

現時主流AI大晶片採用HBM為主，它的價格相對其他記憶體要貴，但組織頻寬成本較低。

HBM使用有諸多限制，其一是因為HBM的顆粒必須和SOC的Die要對齊，合封在一起，所以它是一個緊耦合的狀態，會帶來如下限制：在HBM數量方面，SoC與HBM必須保持貼合，導致HBM顆粒數量受限於晶片邊緣長度；在熱管理方面，DRAM的溫度敏感性會限制SoC的工作頻率，從而影響效能，而SoC與HBM之間的熱互動對測試提出了更高的要求；在設計實施方面，HBM IP的佈局和適配性相對不够靈活；另外，工藝限制要求SoC與HBM HOST IP必須採用相同的工藝制程；最後，需要注意的是SoC的面積佔用問題，在12納米工藝下每個HBM HOST IP大約佔據30mm2，限制了計算單元的面積。

其二是主流HBM的應用還是以先進封裝為主，包括Silicon interposer或者Silicon Bridge等，也帶來了不少限制：Interposer尺寸受限制，最大只能有3到4個曝光面積； 2.5D封裝的成本較高，與標準封裝相比價格高出4倍，近期台積電的CoWoS單價上漲了20%；採用uBump作為連接點時，測試覆蓋率有限，當封裝中包含超過6個HBM和2個ASIC時，良率明顯下降；最後，CoWoS產能有限，台積電的CoWoS產能緊缺，2.5D封裝技術還不够成熟。

奎芯基於UCIe介面的HBM互聯方案

針對這些問題，奎芯科技打造一站式解決方案—M2LINK，用於將HBM和SoC解耦。基本做法是利用一顆Chiplet將HBM介面協定轉成UCIE介面協定，然後用RDL interposer把Chiplet和HBM記憶體封裝成一個標準模組，最後通過普通基板來和主SoC進行封裝。這樣主SoC和標準模組間距離預計可以拉遠到2.5cm，克服了原先主SoC和HBM緊耦合和綁定的限制，同時也無需受限於先進封裝的高成本和Si Interposer的有限尺寸。除此之外還有諸多好處，比如以UCIe IP取代HBM IP，節省了主晶片面積，主晶片成本降低；組織邊長可以連接更多的HBM標準模組，記憶體容量和頻寬都可以得到提升等等。

技术解读 | 驱动云/边缘侧算力建设的高性能互联接口方案

以現時主流晶片為例，SoC近HBM的邊長為30mm的話，可以擺放6個HBM顆粒，利用M2LINK方案的話，雙邊共可以擺放8個HBM模組，同等大小的SoC可利用面積增大44%，記憶體容量頻寬新增1/3，最大封裝面積可以新增一倍以上。

奎芯Chiplet落地解決方案

奎芯科技作為互聯IP產品及Chiplet產品供應商，自研記憶體及互聯解決方案，奎芯LPDDR5X介面速率可達8533Mbps，業界領先。奎芯D2D介面則具有高速率、低功耗、低延遲等優勢。而奎芯HBM介面可支持工藝PHY+ Controller全套方案，速率可達6.4Gbps。現時，奎芯已經有70件智慧財產權申請，以及16件榮譽獎項。

技术解读 | 驱动云/边缘侧算力建设的高性能互联接口方案

奎芯科技基於對於整個封裝供應鏈的綜合能力，現時和客戶一起打造一款標準的帶HBM3的2.5D封裝大晶片，將會提供包含HBM IP，interposer設計，2.5D封裝的設計的完整的turn key solution。

技术解读 | 驱动云/边缘侧算力建设的高性能互联接口方案

同時，奎芯科技基於D2D（UCIe）解耦SoC和HBM HOST的思路不僅適用於雲端訓練和推理的大算力晶片，在端側已經有具體實踐的案例，現時在給客戶打造的是一款低功耗計算產品的IO die。對於此場景，客戶希望計算部分用最先進的制程，考慮到昂貴的成本，客戶還是希望解耦記憶體介面放到成熟工藝上實現，囙此我們給客戶打造一顆包含LPDDR host的完整IO die，實現記憶體介面解耦，降低成本，為客戶未來產品升級新增靈活性。

奎芯科技皆在推動開放生態的一站式Chiplet服務平臺，提供介面IP，Chiplet，系統設計和先進封裝設計等服務，配套强大的供應鏈資源及高效的系統綜合服務，為客戶提供完整的一站式解決方案。

上一篇:奎芯科技Chiplet互聯方案廣受矚目，IIC深圳分享前沿技術下一篇:奎芯科技ONFI 5.0 IP，開啟SSD效能新篇章