CTIMES- 解析伺服系統之新記憶體架構──FB-DIMM :FB-DIMM,Intel,英代爾,英特爾,一般邏輯元件

│新東西市集│東西講座│影音頻道│出版中心│

元件次系統自動控制

產業快訊

4/16-18Touch系列展:智慧顯示x製造x電子設備

4/16-18Touch系列:智慧顯示x製造x電子設備

立即預登參觀! 360o MOBILITY 移動產業專業展

整合創新X智造未來TIMTOS 2025 聚焦AI新商機

CTIMES / 文章 /

解析伺服系統之新記憶體架構──FB-DIMM

Intel記取RDRAM教訓後的新修正？

【作者：陳隱志】 2006年06月02日星期五

瀏覽人次：【9546】

2006年5月4日，JEDEC正式發佈最終敲定的FB-DIMM規格標準，FB-DIMM是由Intel提出的一項新記憶體架構，用意在於提升伺服器及高階工作站的記憶體效能，同時也擴增記憶體的容量潛能。FB-DIMM（Full Buffered Dual In Line Memory Module，有時也寫成FBDIMM）與現有的記憶體架構相較到底有何承襲與革新？本文以下將對此更深入解析。

《圖一 FB-DIMM依然使用今日主流的DDR2 SDRAM記憶體顆粒》

傳統架構的效能、容量皆已受限

長久以來記憶體一直倚賴兩種手法來提升效能，一是加寬資料傳輸的並行度，另一是加快資料傳輸的時脈速度，不斷加寬的結果是記憶體模組（DIMM）的接腳數愈來愈多，從過去的FPM/EDO RAM 72pin、SDR SDRAM 168pin、DDR SDRAM 184pin，到今日DDR2 SDRAM的240pin，然而主機板的電路佈局面積有限，難以再用拓寬線路數的方式來提升效能，雖然可以用增加電路板層數的方式來因應，但成本也會大增。

更具體而言，今日一個記憶體通道（Channel）的寬度為64bit，在並行線路數的限制下，一般的運算系統多只能有兩個通道，即是128bit，難以再更寬，更寬多半要付出極高的代價，同時線路數愈多也就愈難掌控並行傳輸的時序準確性，使得實際佈線設計變的困難，過往就經常要用蛇繞方式的佈線來求取並列時序的同步[1]。

另一個問題是時脈，透過並列同步頻率的提升以達成加速的目標會帶來副作用，即是愈高速愈會使傳輸線路的長度受限，這同樣會造成電路佈線設計時的難度，連帶的也會使每通道的連接模組數受到約束，過去一個通道允許連接四條模組，之後降成兩條模組，若方式不變未來一個通道僅能連接一個模組，這並非不可能，看看ATA硬碟介面，更高速的SATA僅允許一個通道連接一個ATA裝置（硬碟），而過去較慢速的PATA則仍允許一個通道連接兩個ATA裝置。

即便模組數可以增加，然現有記憶體架構的連接拓樸（Topology）屬Stub-bus作法，即是同一時間、同一通道內只能有一個DIMM進行傳輸，其餘的DIMM都必須閒置等候，如此傳輸效率依然卡在通道數、資料寬度的環節，難以改變。

通道數受限、模組數受限，自然記憶體的擴充容量也會受限，倘若情形不改變，就只能倚賴記憶體顆粒（晶片）的容量密度提升，然這就得倚賴半導體製程技術的精進才行（如從90nm進步至65nm）。

很明顯的，傳統記憶體架構已至多方窘困：效能、容量、線路數、時脈速、通道數、模組數、同步設計難度、電路面積成本等。

《圖二 FB-DIMM主要是在既有的DIMM模組上加裝一顆轉化功用的AMB晶片》

FB-DIMM的沿襲與變革

接著來看FB-DIMM的作法，FB-DIMM其實只改變記憶體的連接架構與傳輸方式，在記憶體顆粒方面仍是用今日常見的DDR2 SDRAM，但是在每個DIMM模組上追加一顆先進記憶體緩衝（Advanced Memory Buffer；AMB）晶片，所有在DIMM上頭的DDR2 SDRAM顆粒都與AMB晶片相連，再由AMB晶片與主機板相連，不再是過去讓每顆DDR2 SDRAM顆粒自行與主機板相連，簡單說即是一律透過AMB來轉換、轉接。

至於如何轉換轉接呢？AMB將原有DDR2 DIMM的64bit並列資料傳輸轉換成24bit的串列傳輸，過去64bit並列傳輸是使用統一的傳輸時脈，且64bit在單一時間內只能在讀取「或」寫入，不能讓讀取與寫入同時發生，而AMB轉換後變成14bit讀取與10bit寫入，且在串列傳輸中夾帶時脈訊號（類似PCIe的8b10b法），各bit的傳輸時序不用整齊一致（即指同步），沒有過去並列傳輸常要擔憂的串音干擾，並允許各bit盡其所能的加快傳輸。

此外，DDR2 SDRAM使用的單端式（Single End）傳輸，邏輯定義來自絕對性的電壓準位，如LVTTL、SSTL、HSTL等，難以長距離傳輸，如今AMB將單端傳輸轉換成差動式（Differential）傳輸，以一對傳輸線路間的相對電壓差作為邏輯定義，因此可長距、高速傳輸，也因此FB-DIMM的每通道可串接八個DIMM，不似現有傳統架構僅能兩個DIMM。

從64bit同步並列改成24bit非同步串列後，FB-DIMM的線路數也獲得大幅縮減，過去要用240pin與記憶體控制器（即北橋晶片）相連，如今只需用69pin相連，如此佈線設計更容易（線路減少，不用時序同步），電路面積、層數等製造成本也可縮減。

進一步地說，每個FB-DIMM上的AMB晶片會相互串接，且如前所述可在單一通道內串接八條DIMM，即是串接八顆AMB，八顆AMB相互間以點對點（Point-to-Point）的方式連接，因此兩點間可高速交換傳遞資訊，逐顆串接後會形成一個鏈（Chain）狀連接，每個通道中只有第一顆AMB晶片會與記憶體控制器連接，其餘都是相互串接，串接的結果變成每顆AMB（DIMM）隨時都可以傳輸，不似傳統Stub-bus架構同時間只能有一條DIMM傳輸，明顯的FB-DIMM/AMB作法較不易產生傳輸瓶頸，進而增加整體傳輸率。

附帶一提的是，串接的部分包含14pin的讀取與10pin的寫入，每個bit用一對差動線路構成，在專業用語上稱為傳輸巷（Lane），而14pin的串接稱為北面（Northbound），10bit寫入稱為南面（Southbound）。

此外，為何要稱為Full Buffered，因為過去SDR SDRAM時代就用過Buffer技術，但只用在位址線路與控制線路，未用在資料線路，屬於部分性的Buffer運用，運用Buffer緩衝可提升信號的發散（Fan Out；扇出）驅動力，這在過去單一DIMM上的顆粒過多時必須使用。如今FB-DIMM則是各顆粒的所有運作信號都要進行Buffered，所以稱為Full Buffered。

之後，由於並列寬度與速度都提升，Buffer沒有並列傳輸的同步機制，容易使傳輸失誤，所以改成有同步機制的Registered作法，即是今日所稱的Registered SDRAM，然預計Full Buffered作法將在二、三年內取代Registered。至於為何不在DIMM上也用Registered？因為各bit的傳輸已內含自用的時脈（稱為Self-Clocking），各bit不用時序同步，所以不需要。

而AMB的轉換也將偵錯、更錯機制進行改變，由過去的ECC（Error Correcting Code）換成CRC（Cyclical Redundancy Check），使偵錯、更錯能力獲得提升。

《圖三　FB-DIMM的架構可連接六個Channel》

計算FB-DIMM的提升效益

改採FB-DIMM架構後真的可以加速與容量拓增嗎？對此一樣以機制原理來解釋。

以現有DDR2 800而言，使用200MHz時脈可得到800Mbps傳輸率，乘以64bit可得51.2Gbps，除以8則成6.4GB/Sec。

同樣的時脈頻率用於FB-DIMM，則每個bit能有4.8Gbps，乘以24bit可得115.2Gbps，除以8為14.4GB/Sec，如此在同樣的單一通道、同樣的傳輸時脈下，FB-DIMM的14.4GB/Sec遠勝傳統的6.4GB/Sec。

而且如前所述，FB-DIMM僅有69pin與記憶體控制器相連，遠少於現今的240pin，這意味著：取消一個傳統通道的設置，可以改設置三個FB-DIMM通道，且使用線路、佔用面積依然少於傳統通道（69pinx3＜240pin），串接方式也比Stub-bus更省電路面積。

如此，原本可以設置兩個傳統通道的電路板，可以改設置成六個FB-DIMM通道，六個通道同時啟用，則最高傳輸率可達86.4GB/Sec。

不過，86.4GB/Sec只是理想值，重點依舊在記憶體顆粒上，FB-DIMM仍是使用DDR2顆粒，DDR2顆粒並行傳輸若只能達6.4GB/Sec，那麼六個通道同時啟用也只能獲得38.4GB/Sec，此一瓶頸與硬碟的內外部傳輸率相類似，FB-DIMM的極致傳輸值如同硬碟外部的介面傳輸率，DDR2顆粒的傳輸率如同硬碟內部的磁頭感應速率，真正的整體效能取決於內部、外部居次，外部更快速只是預留頻寬，以待日後內部傳輸率提升時仍可因應，使外部不至成為整體傳輸的礙阻。

如此，FB-DIMM將DIMM數從二增至八，Channel數從二增至六，使FB-DIMM架構的最高DIMM數達四十八條，相對的傳統架構僅四條，差異為二十四倍[2]。

《圖四 FB-DIMM運作原理》

更多的益處

FB-DIMM除了能提升傳輸、拓增容量，其實還帶來更多傳統架構時所較難實現的好處：

●由AMB晶片統管各記憶體顆粒，反而能消彌以往傳統架構所常出現的DRAM顆粒相容性問題，因為此一電氣特性差異已由AMB轉化吸收，只要通道內的每條DIMM都使用同一業者的同一型款AMB晶片，顆粒相容性問題就容易排除，其他如負載效應平衡、阻抗匹配問題也都容易解決。

●更容易實現伺服器系統所需要的記憶體堅穩機制，例如由AMB負責管控，若某顆DRAM顆粒暫時或永久失效，則可由其他備援顆粒來暫頂或取代。此外，也因為相同線路數下可比過去多設置1、2個通道，因此要實現如Chipkill之類的記憶體鏡射陣列（Memory RAID）防護也更容易。類似的情況，當某一傳輸巷（Lane、bit）失效或故障時，因為各bit毫無相依關連，也可即時由其他傳輸巷來替頂。

●要在串列傳輸中增加特色功效機制也比並列方式容易，例如改用更先進的偵錯、除錯編碼法，或添入傳輸加密等，這些追加只需稍減損原有的傳輸頻寬即可達成，相對的並列傳輸得拓增更多的相關線路才能辦到，在硬體工程上有較高的變更成本。

●過去伺服器管理者經常礙於單一系統內可用的DIMM數過少，迫使採購初期就得用單條高容量的DIMM，但也必須接受較貴的單價，否則沒有足夠的DIMM數可供擴充，而改採FB-DIMM後則可抒解此一問題，因為一通道內最多可有八個DIMM，使記憶體的容量組態彈性、最高擴充容量都獲得改善。

●此一特點其實也源自第一項特點，透過AMB的轉化，日後即便DRAM顆粒改朝換代也可持續相容，現在使用DDR2 SDRAM，日後也可升級使用新一代的DDR3 SDRAM，或其他類型的DRAM。

《圖五圖左為一個DDR2 Registered DIMM通道的佈線圖，圖右則為二個FB-DIMM通道的佈線圖》

FB-DIMM也有隱憂、威脅

乍聽之下FB-DIMM的一切表現都超越傳統，然事實真如此嗎？事實上FB-DIMM也有其隱憂，以下也逐一討論：

●高速的AMB晶片功耗相當高，就一般而言，過去的DDR DIMM約5.4W，DDR2 DIMM因顆粒製程的進步而降至約4.4W，然使用DDR2顆粒的FB-DIMM卻增至10.4W（因為加了AMB晶片），這在講究營運成本精省的今天是一大致命傷，同時更高的功耗也使散熱更困難，多條密排的DIMM將不易設計散熱，如此不易運用在刀鋒伺服器或超薄伺服器等散熱空間有限的系統上，例如Sun在評估過FB-DIMM後就透露出可能放棄在薄型或省電型的伺服器中使用。

●在DIMM上追加AMB晶片也使DIMM模組上的電路複雜度增加，這對DIMM模組的製造商而言也有些挑戰要克服。

●老實說FB-DIMM的原理與Rambus的RDRAM相近，主要差別只在FB-DIMM是以相容現有DRAM顆粒的方式來實現，以此規避技術專利，但就成本與簡化性而言，反而是RDRAM較有利。

●Rambus已在推行比RDRAM更先進的XDR RAM及XDR2 RAM，XDR RAM是RDRAM的進化，將位址線、控制線分立出來，如此傳輸的延遲性（Latency）可低於RDRAM，且將用在Sony的新一代電視遊樂器：PlayStation 3（PS3）上，FB-DIMM面對RDRAM已居弱位，如今就更難面對XDR RAM，唯FB-DIMM是JEDEC國際標準，此點勝過RDRAM、XDR RAM的獨家業者授權。

《圖六 XDR RAM技術示意圖》

支持業者與展望未來

最後，除了Intel發起外，Dell、HP等系統大廠都已表態支持FB-DIMM，DIMM模組業者如A-DATA、Apacer、Crucial、Kingston、SMART Modular Technologies也都支持，記憶體顆粒業者也是全面投入AMB的研發及量產，如Samsung、Micron、Hynix、NEC/Elpida、Infineon等，就連IDT也投入AMB晶片的戰局，同時各大廠也將持續提升FB-DIMM的傳輸率，預計將既有每Lane的4.8Gbps提升至6.4Gbps，甚至上看9.6Gbps。