從互聯層級認識介面IP
往往非專業的從業者(比如小編)認識介面IP都是從某一類專業名詞,在結合具體應用的場景以及該類介面所能提供的資料傳輸的速率來建立認知,今天我們換個角度,從資料傳輸的距離來分類,來認識一下計算系統互聯的不同層級的介面。
首先在晶片內部或者說封裝內部的互聯,它的距離是最短的,一般不超過2mm,延遲也最低,頻寬的密度也是最大的,這個就是所謂的Die to Die(D2D)這個層級; 其次向外擴展來到了晶片級,服務器裏多個晶片之間,晶片和加速器之間的互聯,延遲新增一個數量級,頻寬降低一個數量級,這裡就會有一些主流的協定去做,比如Intel的UPI、IBM的OpenCAPI,和華為HCCS; 再向外擴展就是板卡和模塊間的互聯,頻寬下降的同時,延遲又會上升一個數量級,比較熟知的例如PCIe、CXL以及NV-LINK都是這個層次的協定,最後就是擴展到機架之間,服務器和服務器之間的互聯,一般通過網絡的協定來實現。 現時市場上被廣泛關注的科技當屬片內封裝級互聯了,也就是現時常說的D2D介面技術。
Chiplet歷史,大算力時代的選擇
FPGA很早的時候就採用Chiplet科技,甚至用了3D的封裝,但是這些產品的出貨量比較小,也不具備典型性,直到15,16年AMD ZEN系列處理器出來後,這個科技才被廣泛的傳播開來。 現在Chiplet用的最多的還是處理器領域,或者說大規模算力的處理器。
時代選擇Chiplet的原因:
降低成本:先進工藝發展到了7nm,5nm以後,製造成本是一個急劇上升的狀態,那麼如果說把大的晶片切成小的die,良率會提升很多,變相的會降低很多成本;
異構集成:不同工藝裸die做合封。 除了成本之外,更多的是從科技工藝方面的考量,讓一些本來不太適合做先進工藝的設計,用成熟的工藝來做(有一些電路可能在成熟工藝上反而會做的更好一些,功耗還可以節省)。
複用和定制化:更大程度上實現複用,能降低IP的porting成本。 比如說本來有一些不同的工藝,需要去對這個電路進行porting。 Chiplet技術下,可以做一個工藝的die用在不同的產品裡面。
Chiplet商業化對開發生態也有深遠的影響,複雜晶片未來可以通過來自不同的供應商的Chiplet產品來進行拼裝,這樣能滿足市場需求,也可以降低晶片開發的門檻,縮短開發週期以及上市時間,讓專業的公司做專業的事情,大家可以細化分工,不需要每家公司都成為一個標準的SOC公司。
D2D介面的實現,一般有兩種架構:
(1)SerDes串列架構:一種就是用傳統的這個Serdes架構,時脈合併在數據中,一般用差分對的形式來傳輸。
優點:組織的data rate非常高,加上PAM4的編碼,有一些比較先進的科技可以做到112G,囙此組織距離的頻寬有比較大的優勢; 另外就是pin脚的需求比較少;
缺點:較高的功耗和延遲,所以基本用的普通基板封裝(MCM)。
(2)類DDR並行架構:另外一種架構就是類DDR的架構,屬於並行匯流排架構。
優點:這種架構會比較輕量,延遲和功耗會低很多;
缺點:這種一般是用單端訊號傳輸,需要時脈forward clock過去,那單lane的速率相對會比較低; IO數量會高很多,囙此更加適合距離很短,線距很小的先進封裝。
UCIe是由主要的CPU公司(Intel)推廣的,現時市面上最為“開放”和“完整”的Chiplet互聯協定。 早在UCIe之前,國際XPU企業和組織推廣的Chiplet D2D介面協定均有產品落地,只是在各自的生態底下做。 例如Intel的AIB和AIB+、JEDEC的HBM、ODSA的Open-HBI和BOW,這些標準模式介面都是屬於並行匯流排架構,XSR/USR就屬於Serdes架構,但是上述這些協定大多數以定義電力層和實體層為主,對於協定層都需要一些定制化或者定義的比較模糊,需要隨項目去做一些優化來相容或配合現有協定。 而UCIe也採用並行匯流排的架構,其協定層定義很完整,同時支持PCIe、CXL等多種協定。
根據應用場景的分類,D2D介面可以實現C2M(Computing to Memory)、C2C(Computing to Computing)、C2IO(Computing to I/O)、C2O(Computing to Others)各種各樣的互聯。
UCIe定義支持了多種封裝類型,包含標準2D的MCM的封裝,2.5D先進封裝,如bridge、Cowos、info等等。
在封裝內部,UCIe本身針對不同的封裝定了一些非常關鍵的名額,包括速率、線距、線寬、封裝形式、頻寬密度、功耗、延遲等。 UCIe協定對於功耗和延遲的名額要求是非常高的,延遲要求在2ns以內,這個實際上是應該是所有協定裡面最高要求; 功耗方面:先進封裝要小於0.25 pJ/bit,普通封裝要小於0.5 pJ/bit。 對於設計來說是很大的挑戰。 除了常規的物理PHY層以外,UCIe中間的adapter層非常關鍵,它需要實現多種協定的仲裁,也將一些糾錯、重傳機制、還有link management功能放進去了。
奎芯科技針對不同的客戶需求推出M2LINK計算機系統互聯架構方案,參照互聯層級的標準,其中M2LINK-D2D和M2LINK-D2M是片內封裝級的方案,M2LINK-C2C則支持晶片間以及板卡間的互聯需求,M2LINK-C2M主要支持Switch/ASIC晶片到矽光晶片之間的高速互聯,基於112G LR SerDes,支持PAM 4編碼。 奎芯M2LINK-D2D的方案採用DDR架構,支持UCIe和中國chiplet互聯標準,可以提供PHY和Adapter Layer的組合的產品,針對MCM封裝以及2.5D封裝的互聯介面分別支持最大16Gbps和32Gbps的傳輸速率,均能最大發揮出DDR架構下低功耗、低延遲和高頻寬密度的優勢。
除了提供chiplet產品之外,我們還可以通過我們强大的供應鏈資源,以及系統綜合能力,為客戶打造一站式chiplet解決方案,客戶只需要提供核心計算die,我們可以從系統設計,到非核心die,到interposer的設計,通過和foundry以及OSAT的合作,為客戶提供turnkey服務。