帳號:
密碼:
最新動態
產業快訊
CTIMES / 文章 /
多核心伺服器處理器架構介紹(下)
 

【作者: 陳文欽】   2007年03月26日 星期一

瀏覽人次:【10587】

雙/多核心的處理器發展史-四核時代興起

雙核心戰事方歇,四核心戰事再起。2004年10月微處理器論壇上,昇陽(SUN)公佈了下一代多核心多線緒的Nigara的計畫,直接挑戰八核心、單晶片32線緒平行執行的能力,而以大型電腦起家、有多年經驗的日商富士通(Fujitsu),也同時公佈其2007年下半雙核心SPARC64Ⅵ處理器的計畫。


在x86架構的伺服器部份,繼雙核心Opteron打響名號之後,AMD也緊接著進行其原生四核心的Opteron(arcelona)的研發計畫,於2006年六月法說會中首度揭露,預計今年(2007年)下半正式推出。


Intel於2006年春季IDF中,展示將兩顆雙核心Core2 Duo以MCM封裝方式封成一顆具備四線緒執行能力的四核心CPU,並且於去年第四季分別推出桌上型Core2 Extreme QX6700、Core2 Quad(代號Kentsfield),以及針對伺服器打造的XEON 5300系列(代號Clovertown)。


而此時,多核心處理器也因需求/用途導向,從起初設計理念上出現路線的歧異。像是一開始就針對網路伺服器運算的昇陽UltraSPARC T1/T2,為高效能遊樂器與刀鋒伺服器打造的STI CELL BE,加速浮點運算的Intel 80核心的NOC晶片等等。


接續上集,我們繼續介紹針對一般網路伺服器、遊戲機/伺服器,以及最普遍的x86伺服器所設計,當今火紅的多核心伺服器CPU。


專為網路環境打造的昇陽UltraSPARC T1/T2

Sun於在2002年6月併購Afara Websystem,取得該公司多核心處理器設計後,於次年(2003)年8月的IEEE Hot Chips論壇中,首度闡述CMT(Chip Multi-Threading;晶片多執行緒)概念,2004年2月更進一步提出『Throughput Computing』─結合多核心的網路處理的效能為思考核心,設計出兼顧高效能、低耗電且網路處理最佳化的CPU。


2005年11月,Sun正式推出代號Niagara的UltraSPARC T1處理器,與採用該處理器的Sun FireT1000/T2000「CoolThreads」伺服器。由德州儀器(TI)以90奈米製程代工製造,總電晶體數兩億七千九百萬顆(279M transistors),矽晶粒面積379mm2。時脈為1.2GHz,設計功率為72~79W。


SUN UltraSPARC T1將8組64位元SPARC V9核心疊加在單一矽晶片上,每個CPU核心各自擁有內建16KB指令快取與8KB資料快取,以及管線化四個執行緒能力,因此一顆UltraSPARC T1就具備八核、共32個執行緒的執行能力。8個CPU核心共享一組FPU浮點運算處理器,並連接到共享設計的3MB L2 Cache,內建四組雙通道DDR2-533記憶體控制器,能提供ChipKill ECC記憶體錯誤修正/動態故障排除功能,提供25.6GB/s的記憶體傳輸頻寬,以及128GB記憶體容量。



《圖一    昇陽發表的SUN SPARC T1-CoolThread處理器,輕鬆達成8x4=32顆核心目標》
《圖一 昇陽發表的SUN SPARC T1-CoolThread處理器,輕鬆達成8x4=32顆核心目標》

"Sun-UltraSparcT1&block.jpg"


UltraSPARC T1八個核心各自內建一組輔助密碼運算器(Modular Arithmetic Unit),針對網路伺服器最需要的SSL編碼與RSA金鑰運算加速,同時在RAS方面,從CPU暫存器、位址轉換緩衝器(Translation Lookaside Buffer)分別支援ECC修正糾錯碼與Parity偵錯碼。


在今年下半預定推出的第二代Niagara處理器,正式名稱將稱為UltraSPARC T2。它同樣具備八核心設計,將以更先進的德儀65奈米製程打造,時脈將進步到1.4GHz,預定的電晶體數量為五億三百萬顆(503M Transistors),矽晶粒面積342mm2,設計功率仍維持在80瓦以下。



《圖二  預定下半年現身的SUN UltraSPARC T2處理器》
《圖二 預定下半年現身的SUN UltraSPARC T2處理器》

   


為了使UltraSPARC T2運算效能達到上一代UltraSPARC T1兩倍的效能,UltraSPARC T2每個CPU核心內建兩倍暫存器群(Register File)、執行單元,讓每個CPU核心可以執行多達八個執行緒功能,一共具備64執行緒能力,相當於一顆實體UltraSPARCT2處理器,就內建64個邏輯處理器核心。同時為了改善浮點運算效能,每個核心都擁有獨立的浮點運算器,改良型MAU密碼處理單元,並且更大的共享型4MB L2快取記憶體設計。


在I/O擴充功能上,SUN UltraSPARC T2內建對外連接記憶體改成四組雙通道FB-DIMM全緩衝式記憶體,以應付未來伺服器記憶體擴充的需求,同時內建一組PCI Express 8x匯流排控制器,以及兩組10G/1GBps網路控制器,因此能提供網路處理運算所需要的I/O頻寬。


STI(Sony/Toshiba/IBM)CELL B.E處理器

《圖三  由SCEI/Toshiba/IBM三巨頭聯手打造的CELL B.E處理器晶片》
《圖三 由SCEI/Toshiba/IBM三巨頭聯手打造的CELL B.E處理器晶片》

 


 


 


 


 


 


 


 


 


Cell處理器是由日本新力電腦娛樂(Sony Computer Entertainment Inc;SCEI)、東芝(Toshiba)、美國國際商業機器(IBM)公司,於2001年三月聯合成立STI設計中心之後,以IBM POWER核心架構為基礎所開發針對於次世代高速遊樂器運算、刀鋒伺服器的處理器計畫。第一顆CELL Broadband Engine(CELL B.E)處理器於2005年11月三家公司聯合公開揭露。CELL處理器以90奈米銅導線SOI製程製造,電晶體數兩億五千萬(250M Transistors),矽晶面積第一版為221mm2,後來第二版增加為235mm2。


CELL由一組64位元PPE(POWER Processing Element)搭八組SPE(Synergistic Processor Unit)所組成。PPE核心採兩線緒解碼執行能力,具備32KB指令快取、32KB資料快取,以及512KB L2 Cache的設計。而八組可平行運算處理的SPE單元部份,每一個SPE內建高速Rambus XDR記憶體控制器與256MB XDR區域記憶體(Local Store),傳輸頻寬達100GBytes/sec。



《圖四  STI CELL處理器方塊圖與矽晶電路》
《圖四 STI CELL處理器方塊圖與矽晶電路》

 


 


CELL B.E處理器起初設計的目標是用來作次世代高速遊戲機(SONY PS3)、網格運算(Grid Computing)以及強調瓦效能的刀鋒伺服器。 CELL宣佈時預定工作時脈達4GHz,但隨後在搭配延遲於2006年11月發表的SONY PLAYSTATIOn 3(PS3)遊戲機時,PS3上面的CELL處理器頻率降至3.2GHz,同時八組PPE中關掉了一組(備用),仍可提供218GFLOPs的浮點運算效能。


CELL B.E在刀鋒伺服器的運用上,搭配Toshiba設計的南橋晶片,第一個運用CELL B.E處理器的刀鋒伺服器(CELL BladeⅠ)工程原形機於2005年八月推出,起初工作頻率僅2.4GHz,並搭配512MB~1GB XDR記憶體;隨後2006年第三季,則推出CELL BladeⅡI伺服器,CELL工作頻率提升到3.2GHz,並搭配第二代Toshiba具備InfiBand匯流排的南橋晶片,搭配1GB XDR記憶體,刀鋒伺服器代號為QS20,並已經開始量產。


《圖五  IBM運用CELL B.E處理器造出的QS20刀鋒伺服器(資料來源:IBM網站)》
《圖五 IBM運用CELL B.E處理器造出的QS20刀鋒伺服器(資料來源:IBM網站)》

IBM預計在今年下半年推出Cell BladeⅢ刀鋒伺服器,預計將首度使用IBM自家設計的南橋晶片,能提供更大頻寬的InfiBand匯流排控制器,整套CELL BladeⅢ刀鋒伺服器將提供16GB記憶體,10倍I/O傳輸頻寬等規格。


Intel XEON 5355

2006年春季IDF正式宣佈Intel Core微架構,並於在2006年第三季,發表該架構下第一顆桌上型雙核心處理器Core2 Duo以及伺服器處理器雙核心XEON 5100系列(代號Woodcrest)。XEON5100具備最高3GHz的運作時脈,1066MHz前端匯流排(FSB)時脈頻率,共享型4MB L2大容量快取設計,以及僅80瓦設計功率,甫一推出立刻以較上一代XEON 7100優秀的瓦效能,迅速的搶回原先流失的XEON伺服器CPU市佔率。


而因應AMD四核心Opteron的逐漸進逼,Intel先推出以兩顆XEON 5100處理器,以65奈米製程、MCM封裝方式封裝成一顆實體外觀的四核心處理器─XEON 5300系列(代號Clovertown)。特別是目前最高效能的四核心XEON 5355,工作頻率2.66GHz,1333MHz前端匯流排,設計功率略增加到120W。總矽晶粒面積為286mm2,電晶體數為五億八千兩百萬顆(582M transistors)。



《圖六  Intel四核心XEON 5355架構》
《圖六 Intel四核心XEON 5355架構》

Intel XEON 5300系列集結四個Core微架構核心,每個Core微架構均具備Wide Dynamics四線路寬執行引擎、Micro/Macro Fusion微/巨指令聚合功能、智慧型快取、智慧型記憶體存取、AdvancedDigital Media Boost(數位多媒體效能強化)以及智慧節能等功能,但智慧型快取部份僅限於兩顆CPU核心之間4MB Shared L2部份,對外仍是兩顆雙核心CPU晶片各自獨立管理4MB L2,所以L2總容量高達8MB。


每個單一CPU核心電路內建四組x86指令解碼器,每週期可以擷取、解碼四道x86指令碼,並且進入指令暫存區等待分發到五組執行單元去執行與寫回。同時記憶體位址線也增加到38條,最大控制2^38=256GB記憶體容量。Intel XEON 5100/5300系列跟桌上型Core2 Duo/Core2 Quad/Extreme開始,每單一CPU核心實作128位元寬度的SSE運算電路,執行SSE/SSE2/SSE3多媒體指令效能得以倍增。


同時XEON 5300系列具備時脈閘控制、增強型英特爾節能技術(Enhanced Intel SpeedStep Technology;EIST)、多組低電壓陣列電路設計(Low Vcc Array),以及各功能區塊電路以sleep transistor依需要動態開啟、關閉電源的設計。內部的128位元寬度匯流排採取兩段64bit分離式設計,必要時可以只啟動一半(64bit)寬度的指令匯流排與相關的解碼、執行單元,沒有動用到的則自動關閉,對外的外頻(FSB)以及終端電阻也是可以視需要來動態開啟與關閉。


受限於非原生四核心的設計限制,兩組雙核心CPU仍須透過對外的前端匯流排,繞過外部記憶體來達成兩組雙CPU核心之間快取記憶體一致性(Cache Coherence),加上Intel截至目前為止,都沒有在CPU實作記憶體控制電路的打算,這L3 cache部份以及讀寫記憶體額外的時序的延遲,將會使得XEON 5300實際運作效能,特別是對外I/O效能上,面臨到矽晶片同時內建四CPU核心、記憶體控制器的原生型四核心處理器Opteron嚴苛的挑戰與考驗。


明年08年第一季,Intel正式以45nm奈米製程打造的原生四核心Yorkfield處理器,預料Yorkfield將具備單晶粒結合四個實體CPU核心電路,並具備12MB L2 smart Cache的能力,預料它也會內建SSE4指令集,時脈目前還不確定。


超微(AMD)的原生四核心Opteron(Barcelona)

在2005年中,率先開發原生雙核心x86伺服器CPU取得優勢的超微(AMD),正進一步加速其原生四核心伺服器處理器Quadcore Opteron的開發進度。於去年(2006年)10月中旬聖荷西舉辦的MicroProcessorForum'06微處理器論壇中,正式揭露正在開發的原生四核心處理器─代號Barcelona的處理器相關細節。



《圖七  AMD原生四核心處理器矽晶電路圖》
《圖七 AMD原生四核心處理器矽晶電路圖》

AMD四核心Opteron(Barcelona)由AMD/IBM合作開發的65nm奈米製程,在同一矽晶粒上實作四組CPU核心電路,矽晶粒面積為283mm2;每個CPU核心擁有專屬的128KB L1快取與512KB L2快取記憶體,四顆核心並聯到一組共享(Shared)設計的2MB L3 Cache,各CPU核心的資料可以在同一矽晶粒電路內直接交換,並內建DDR2/DDR3雙型態記憶體控制器。每個CPU核心仍維持三線路x86平行解碼架構,沒有要擴增為四線路甚至五組的打算,較Intel Core2 Quad/Extreme與XEON每個核心具備四線路解碼能力相比,相形見拙了些。



《圖八   AMD四核心Opteron每個CPU有專屬L1與L2,四顆核心共享一組L3 Cache(資料來源:AMD網站)》
《圖八 AMD四核心Opteron每個CPU有專屬L1與L2,四顆核心共享一組L3 Cache(資料來源:AMD網站)》

四核心Opteron(Barcelona)核心將首度把L1 I-Cache擴增到256bit寬度,,L1 Cache傳輸頻寬可以大幅倍增,增加較大的TLB(Transfer Lookaside Buffer)以增加記憶體分頁定址的效能,四核心Opteron也大幅強化FPU/SSE浮點運算效能,每一組CPU核心電路的浮點乘法、浮點加法單元,以及兩組SSE運算單元全都都擴增到128bit,並追加LZCNT、POPCNT(位元計次指令)、EXTRQ、INSERTQ、MOVNTSD、MOVNTSS等SSE3/SSSE3)指令集等,這點在規格上足以追上Intel Core2 Quad/Extreme以及XEON 5300系列。


四核心Opteron(Barcelona)實際位址線擴增到48bit(248=256TB),最大可以控制到高達256TeraBytes(=256K GB)的記憶體容量,遠超過Intel四核心Core2 Quad或Intel Xeon 5300系列,僅38bit(238=256GB)的實際記憶體定址能力;四核心Opteron具備的AMD Virtualization虛擬化技術,首度實作巢狀化分頁表(Nested Paging;NP)機制,可以做到讓24組Guest OS獨立管控記憶體,同時減少25%的超級監控者(Hypervisior)切換各Guest OS的切換時間。


AMD在四核心Opteron每個子CPU電路都設計了獨立的PLL時序鎖向迴路,可以針對每個核心做動態調整工作頻率的能力,當系統發現有哪個CPU核心進入閒置或負載不高的情況下,可以動態降低該子CPU核心時脈,以節省整體四核心CPU的功耗。


除了CPU核心的強化之外,四核心Opteron也內建更強悍的4埠HyperTranport 3.0匯流排控制器,時脈高達2.6GHz雙向運作,可以提供16bit雙向5.2GMT/s的傳輸交易效能,或10.6GB/s的資料傳輸頻寬,並擴充到平行串聯8顆實體處理器(16P)的能力。而AMD也開放透過HTX Slot擴充槽與HTX附加子卡的方式,讓其他業界開發特殊應用的運算晶片,透過HyperTransport匯流排直接跟CPU連通。


AMD在2006年11月30日,實機展示原生四核心Barcelona處理器的效能展示,在跑Windows Server2003 64位元版作業系統下,AMD宣稱比原先雙核Opteron多出70%的效能,在浮點運算項目則提升了1.8倍,並也超越包雙核四核心架構的Intel Xeon 5335(代號Clovertown)處理器搭配的伺服器約40%的效能。


根據AMD伺服器最新規劃,四核心Opteron處理器初期具備2MB L3,支援雙通道援ECC Reg DDR2模組,核心時脈由1.9GHz起跳至最高的2.5GHz,最高功耗擁有68W、 95W及120W三個不同版本。之後在2008年,會有個代號Shanghai(上海)的新四核心Opteron處理器,提供FB-DIMM記憶體的支援能力。


 


結論:多核心處理器的利弊與後續發展

多核心CPU的發展在優勢上,由於用已經驗證過的單一核心,以對稱式的疊加起來,只要IC製程跟著上,同時控制好設計功率,再搭配多線緒化的軟體,可以非常快的推出到市場上(Time to market),用最佳的效能/功耗比來直接提升平行運算的效能。


特別是在伺服器電腦系統,向來就是最早導入雙顆、四顆甚至多顆CPU所謂平行對稱多處理器運算(Symetric Multi-Processor;SMP)的方式設計,相關的伺服器作業系統、專屬應用軟體也已經多線緒化(MultiThreading),導入多核心CPU不僅相關硬體平台與軟體環境搭配都最為成熟,同時還能縮減原先做四顆、八顆處理器的伺服器平台的大小與建製成本,縮減到僅以往一顆實體CPU所需的系統,就能享有以往四顆、八顆甚至更多顆實體CPU平行運算的效能。


但比較傷腦筋的,則是多核心CPU的軟體開發,許多『單線思考』的軟體,在一個1GHz、四核心CPU上怎麼跑,就是沒有在一顆4GHz但單核心的CPU還來得快,換言之就是沒有成相同或對等比例的增加,因此如何擺脫數十年來單線循序化撰寫軟體的思維,並督促廠商提供如何高度多線緒化的語言開發工具與編譯器,成為極為嚴苛的挑戰。


另外在授權金的計算上,過去伺服器、大型資料庫軟體,大多以系統佈建CPU實際顆數來計費,但是當多核心CPU發展並普及到一定程度,以往能在一套4-Way單核心CPU系統收四倍CPU計價單位的錢,遇到一套1-Way四核心甚至八核心CPU系統,是要算一顆實體CPU的錢呢? 還是要算四顆甚至八顆的錢,用戶能不能接受呢? 因此要如何制定新多核時代的授權金額,同時不會縮減自己營收,遭致以往多線單核心CPU客戶的反彈,也成為這類軟體廠商該謹慎思考的。


每一家多核心處理器的設計,一種是屬於同質多核心(Homogenous Multi-Cores),以相同運算性質的多顆CPU核心電路疊在一起,各CPU核心可能有獨立專用的L1/L2 Cache,也有將L2、L3快取記憶體以共同連接(共享)方式連接在一起,也有將原本CPU核心予以簡化後再連接在一起。像IBM POWER5+/POWER6、Intel XEON、AMD Opteron、SUN UltraSPARC T1/T2等就屬於此類。


另外也有異質多核心(Heterogeneous Multi-Cores),則是針對不同線緒的任務需要,將不同處理特性的CPU核心疊加起來,像STI開發的CELL處理器,就是一組64bit PPE搭八組32bit SPE的組合。超微併購ATI之後,將CPU與GPU結合在同一矽晶粒的FUSION計畫,將打造一顆同時具備傳統程式/資料運算與圖形處理效能於一體的超級SoC晶片,涵蓋目標將從最下游CE消費性電子產品、可攜性裝置、筆記型電腦、桌上型電腦到工作站、伺服器全方位x86核心目標。


多核心的發展能到多遠的境界呢? Intel在今年二月ISSCC 2007國際固態電子電路會議中,揭露了其開發的4.1GHz 80核心的NoC多核心浮點運算晶片,可達到1.28TFLOPS的浮點運算效能。也許可以給予我們一個對明日,能將一套佔地有足球場大小的超級電腦,濃縮到一部當今你我帶著走的筆記型電腦的效能憧憬。



《圖九   Intel於ISSCC'07展示其80核心處理晶片(資料來源:Intel,ISSCC 07)》
《圖九 Intel於ISSCC'07展示其80核心處理晶片(資料來源:Intel,ISSCC 07)》

最終多核心CPU會走向怎樣的發展呢? 是走向越多核越好的『核』武軍備競賽? 還是集結各方人馬打造的菁英電路,以獨特應用取勝的思維會出線,時間會告訴我們答案。


(表一) 各家多核伺服總覽表  

廠商

IBM

IBM

Fujitsu

Sun

Intel

Intel

AMD

處理器名稱

Cell B.E

POWER6

SPARC64Ⅵ

UltraSPARC T2

Dual-Core Itanium 9050

XEON 5355

Opteron 8000

代號

 

eCLipz

Olympus

Niagara2

Montecito

Clovertown

Barcelona

CPU核心數

1PPE+8SPE

2 Native

2 Native

8 Native

2 native

4(MCM 2x2)

4 Native

CPU核心執 行線緒數

PPE:2 SPE:1

2

2

8

2

1

1

單一 CPU總 執行線緒數

2+8 SIMD

4

4

64

4

4

4

L1 Cache

64KB/PPE 32K I+32K D

128KB 64K I+64K D

256KB/core 128K I+128K D

24KB 16K I+8K D

32KB

64KB/core 32KB I+32KB D

128KB(每核心) 64KB I+64KB D

L2 Cache

PPE:512KB SPE:256KB

4MB/core (8MB Total)

6MB Shared

4MB Shared

1280KB/core 1024K I+256K D

8MB (4MBx2) 4MB Shared

512KB/core

L3 Cache

n/a

32MB

n/a

n/a

24MB

n/a

2MB (共享型)

內建記憶 體控制器

Rambus XDR (SPE)

 

 

4組雙通道 FB-DIMM控制器

 

 

雙通道 Reg DDR2

、 DDR3控制器

工作時脈

3.2~4.6GHz 5.4~6GHz(65nm)

5.5~6.1GHz

2.4GHz

1.2GHz

1.6GHz

2.66~3GHz

2.3~2.6GHz

晶粒面積 Die Size

235mm2 (90nm)

341mm2 (65nm)

400mm2 (90nm)

342mm2 (65nm)

596mm2 (90nm)

286mm2 (65nm)

283mm2 (65nm)

電晶體數量

234M

790M

540M

503M

1720M

582M

463M

設計功率

95W @ 3GHz

未揭露 (>100W)

80-120W

84W

104W

120

95~120W

最大 CPU 線路數

2-Way SMP

128-Way SMP

128-Way SMP

1-2way SMP

16-Way SMP

8-Way SMP

8-Way SMP

定址能力

2 42 =4TB

2 50 =1024TB

n/a(預估44~50)

2 40 =1TB

2 50 =1024TB

2 38 =256GB

2 48 =256TB

推出時間

2007 Q4

2007H2

2006 Q4

2007 H1

2006 H1

2006 Q4

2007 Q2

相關文章
揮別製程物理極限 半導體異質整合的創新與機遇
滿足你對生成式AI算力的最高需求
使用 P4 與 Vivado工具簡化資料封包處理設計
AI助攻晶片製造
Intel OpenVINO 2023.0初體驗—如何快速在Google Colab運行人臉偵測
comments powered by Disqus
相關討論
  相關新聞
» 豪威集團推出用於存在檢測、人臉辨識和常開功能的超小尺寸感測器
» ST推廣智慧感測器與碳化矽發展 強化於AI與能源應用價值
» ST:AI兩大挑戰在於耗能及部署便利性 兩者直接影響AI普及速度
» 慧榮獲ISO 26262 ASIL B Ready與ASPICE CL2認證 提供車用級安全儲存方案
» 默克完成收購Unity-SC 強化光電產品組合以滿足半導體產業需求


刊登廣告 新聞信箱 讀者信箱 著作權聲明 隱私權聲明 本站介紹

Copyright ©1999-2024 遠播資訊股份有限公司版權所有 Powered by O3  v3.20.2048.18.219.40.177
地址:台北數位產業園區(digiBlock Taipei) 103台北市大同區承德路三段287-2號A棟204室
電話 (02)2585-5526 #0 轉接至總機 /  E-Mail: webmaster@ctimes.com.tw