CTIMES- 多核心伺服器處理器架構介紹（下） :多核心,Intel,英代爾,英特爾,AMD,超微,Sun,HP,惠普,微處理器

│新東西市集│東西講座│影音頻道│出版中心│智動化專區│

元件次系統自動控制

最新動態

【文章精選】鍺：綠色回收與半導體科技的新未來

【東西講座】11/29 智慧製造與資訊安全

【東西講座】11/22 新一代雙臂協作機器人：多元應用與創新商業模式

產業快訊

整合創新X智造未來TIMTOS 2025 聚焦AI新商機

汽配及移動科技產業，參展熱烈報名中!

CTIMES / 文章 /

多核心伺服器處理器架構介紹（下）

【作者：陳文欽】 2007年03月26日星期一

瀏覽人次：【10587】

雙／多核心的處理器發展史－四核時代興起

雙核心戰事方歇，四核心戰事再起。2004年10月微處理器論壇上，昇陽（SUN）公佈了下一代多核心多線緒的Nigara的計畫，直接挑戰八核心、單晶片32線緒平行執行的能力，而以大型電腦起家、有多年經驗的日商富士通（Fujitsu），也同時公佈其2007年下半雙核心SPARC64Ⅵ處理器的計畫。

在x86架構的伺服器部份，繼雙核心Opteron打響名號之後，AMD也緊接著進行其原生四核心的Opteron（arcelona）的研發計畫，於2006年六月法說會中首度揭露，預計今年（2007年）下半正式推出。

Intel於2006年春季IDF中，展示將兩顆雙核心Core2 Duo以MCM封裝方式封成一顆具備四線緒執行能力的四核心CPU，並且於去年第四季分別推出桌上型Core2 Extreme QX6700、Core2 Quad（代號Kentsfield），以及針對伺服器打造的XEON 5300系列（代號Clovertown）。

而此時，多核心處理器也因需求／用途導向，從起初設計理念上出現路線的歧異。像是一開始就針對網路伺服器運算的昇陽UltraSPARC T1/T2，為高效能遊樂器與刀鋒伺服器打造的STI CELL BE，加速浮點運算的Intel 80核心的NOC晶片等等。

接續上集，我們繼續介紹針對一般網路伺服器、遊戲機／伺服器，以及最普遍的x86伺服器所設計，當今火紅的多核心伺服器CPU。

專為網路環境打造的昇陽UltraSPARC T1/T2

Sun於在2002年6月併購Afara Websystem，取得該公司多核心處理器設計後，於次年（2003）年8月的IEEE Hot Chips論壇中，首度闡述CMT（Chip Multi-Threading；晶片多執行緒）概念，2004年2月更進一步提出『Throughput Computing』─結合多核心的網路處理的效能為思考核心，設計出兼顧高效能、低耗電且網路處理最佳化的CPU。

2005年11月，Sun正式推出代號Niagara的UltraSPARC T1處理器，與採用該處理器的Sun FireT1000/T2000「CoolThreads」伺服器。由德州儀器（TI）以90奈米製程代工製造，總電晶體數兩億七千九百萬顆（279M transistors），矽晶粒面積379mm2。時脈為1.2GHz，設計功率為72～79W。

SUN UltraSPARC T1將8組64位元SPARC V9核心疊加在單一矽晶片上，每個CPU核心各自擁有內建16KB指令快取與8KB資料快取，以及管線化四個執行緒能力，因此一顆UltraSPARC T1就具備八核、共32個執行緒的執行能力。8個CPU核心共享一組FPU浮點運算處理器，並連接到共享設計的3MB L2 Cache，內建四組雙通道DDR2-533記憶體控制器，能提供ChipKill ECC記憶體錯誤修正／動態故障排除功能，提供25.6GB/s的記憶體傳輸頻寬，以及128GB記憶體容量。

《圖一昇陽發表的SUN SPARC T1-CoolThread處理器，輕鬆達成8x4=32顆核心目標》

"Sun-UltraSparcT1&block.jpg"

UltraSPARC T1八個核心各自內建一組輔助密碼運算器（Modular Arithmetic Unit），針對網路伺服器最需要的SSL編碼與RSA金鑰運算加速，同時在RAS方面，從CPU暫存器、位址轉換緩衝器（Translation Lookaside Buffer）分別支援ECC修正糾錯碼與Parity偵錯碼。

在今年下半預定推出的第二代Niagara處理器，正式名稱將稱為UltraSPARC T2。它同樣具備八核心設計，將以更先進的德儀65奈米製程打造，時脈將進步到1.4GHz，預定的電晶體數量為五億三百萬顆（503M Transistors），矽晶粒面積342mm2，設計功率仍維持在80瓦以下。

《圖二預定下半年現身的SUN UltraSPARC T2處理器》

為了使UltraSPARC T2運算效能達到上一代UltraSPARC T1兩倍的效能，UltraSPARC T2每個CPU核心內建兩倍暫存器群（Register File）、執行單元，讓每個CPU核心可以執行多達八個執行緒功能，一共具備64執行緒能力，相當於一顆實體UltraSPARCT2處理器，就內建64個邏輯處理器核心。同時為了改善浮點運算效能，每個核心都擁有獨立的浮點運算器，改良型MAU密碼處理單元，並且更大的共享型4MB L2快取記憶體設計。

在I/O擴充功能上，SUN UltraSPARC T2內建對外連接記憶體改成四組雙通道FB-DIMM全緩衝式記憶體，以應付未來伺服器記憶體擴充的需求，同時內建一組PCI Express 8x匯流排控制器，以及兩組10G/1GBps網路控制器，因此能提供網路處理運算所需要的I/O頻寬。

STI（Sony/Toshiba/IBM）CELL B.E處理器

《圖三由SCEI/Toshiba/IBM三巨頭聯手打造的CELL B.E處理器晶片》

Cell處理器是由日本新力電腦娛樂（Sony Computer Entertainment Inc；SCEI）、東芝（Toshiba）、美國國際商業機器（IBM）公司，於2001年三月聯合成立STI設計中心之後，以IBM POWER核心架構為基礎所開發針對於次世代高速遊樂器運算、刀鋒伺服器的處理器計畫。第一顆CELL Broadband Engine（CELL B.E）處理器於2005年11月三家公司聯合公開揭露。CELL處理器以90奈米銅導線SOI製程製造，電晶體數兩億五千萬（250M Transistors），矽晶面積第一版為221mm2，後來第二版增加為235mm2。

CELL由一組64位元PPE（POWER Processing Element）搭八組SPE（Synergistic Processor Unit）所組成。PPE核心採兩線緒解碼執行能力，具備32KB指令快取、32KB資料快取，以及512KB L2 Cache的設計。而八組可平行運算處理的SPE單元部份，每一個SPE內建高速Rambus XDR記憶體控制器與256MB XDR區域記憶體（Local Store），傳輸頻寬達100GBytes/sec。

《圖四 STI CELL處理器方塊圖與矽晶電路》

CELL B.E處理器起初設計的目標是用來作次世代高速遊戲機（SONY PS3）、網格運算（Grid Computing）以及強調瓦效能的刀鋒伺服器。 CELL宣佈時預定工作時脈達4GHz，但隨後在搭配延遲於2006年11月發表的SONY PLAYSTATIOn 3（PS3）遊戲機時，PS3上面的CELL處理器頻率降至3.2GHz，同時八組PPE中關掉了一組（備用），仍可提供218GFLOPs的浮點運算效能。

CELL B.E在刀鋒伺服器的運用上，搭配Toshiba設計的南橋晶片，第一個運用CELL B.E處理器的刀鋒伺服器(CELL BladeⅠ)工程原形機於2005年八月推出，起初工作頻率僅2.4GHz，並搭配512MB～1GB XDR記憶體；隨後2006年第三季，則推出CELL BladeⅡI伺服器，CELL工作頻率提升到3.2GHz，並搭配第二代Toshiba具備InfiBand匯流排的南橋晶片，搭配1GB XDR記憶體，刀鋒伺服器代號為QS20，並已經開始量產。

《圖五 IBM運用CELL B.E處理器造出的QS20刀鋒伺服器（資料來源：IBM網站）》

IBM預計在今年下半年推出Cell BladeⅢ刀鋒伺服器，預計將首度使用IBM自家設計的南橋晶片，能提供更大頻寬的InfiBand匯流排控制器，整套CELL BladeⅢ刀鋒伺服器將提供16GB記憶體，10倍I/O傳輸頻寬等規格。

Intel XEON 5355

2006年春季IDF正式宣佈Intel Core微架構，並於在2006年第三季，發表該架構下第一顆桌上型雙核心處理器Core2 Duo以及伺服器處理器雙核心XEON 5100系列（代號Woodcrest）。XEON5100具備最高3GHz的運作時脈，1066MHz前端匯流排（FSB）時脈頻率，共享型4MB L2大容量快取設計，以及僅80瓦設計功率，甫一推出立刻以較上一代XEON 7100優秀的瓦效能，迅速的搶回原先流失的XEON伺服器CPU市佔率。

而因應AMD四核心Opteron的逐漸進逼，Intel先推出以兩顆XEON 5100處理器，以65奈米製程、MCM封裝方式封裝成一顆實體外觀的四核心處理器─XEON 5300系列（代號Clovertown）。特別是目前最高效能的四核心XEON 5355，工作頻率2.66GHz，1333MHz前端匯流排，設計功率略增加到120W。總矽晶粒面積為286mm2，電晶體數為五億八千兩百萬顆（582M transistors）。

《圖六 Intel四核心XEON 5355架構》

Intel XEON 5300系列集結四個Core微架構核心，每個Core微架構均具備Wide Dynamics四線路寬執行引擎、Micro/Macro Fusion微／巨指令聚合功能、智慧型快取、智慧型記憶體存取、AdvancedDigital Media Boost（數位多媒體效能強化）以及智慧節能等功能，但智慧型快取部份僅限於兩顆CPU核心之間4MB Shared L2部份，對外仍是兩顆雙核心CPU晶片各自獨立管理4MB L2，所以L2總容量高達8MB。

每個單一CPU核心電路內建四組x86指令解碼器，每週期可以擷取、解碼四道x86指令碼，並且進入指令暫存區等待分發到五組執行單元去執行與寫回。同時記憶體位址線也增加到38條，最大控制2^38=256GB記憶體容量。Intel XEON 5100/5300系列跟桌上型Core2 Duo/Core2 Quad/Extreme開始，每單一CPU核心實作128位元寬度的SSE運算電路，執行SSE/SSE2/SSE3多媒體指令效能得以倍增。

同時XEON 5300系列具備時脈閘控制、增強型英特爾節能技術（Enhanced Intel SpeedStep Technology；EIST）、多組低電壓陣列電路設計（Low Vcc Array），以及各功能區塊電路以sleep transistor依需要動態開啟、關閉電源的設計。內部的128位元寬度匯流排採取兩段64bit分離式設計，必要時可以只啟動一半（64bit）寬度的指令匯流排與相關的解碼、執行單元，沒有動用到的則自動關閉，對外的外頻（FSB）以及終端電阻也是可以視需要來動態開啟與關閉。

受限於非原生四核心的設計限制，兩組雙核心CPU仍須透過對外的前端匯流排，繞過外部記憶體來達成兩組雙CPU核心之間快取記憶體一致性（Cache Coherence），加上Intel截至目前為止，都沒有在CPU實作記憶體控制電路的打算，這L3 cache部份以及讀寫記憶體額外的時序的延遲，將會使得XEON 5300實際運作效能，特別是對外I/O效能上，面臨到矽晶片同時內建四CPU核心、記憶體控制器的原生型四核心處理器Opteron嚴苛的挑戰與考驗。

明年08年第一季，Intel正式以45nm奈米製程打造的原生四核心Yorkfield處理器，預料Yorkfield將具備單晶粒結合四個實體CPU核心電路，並具備12MB L2 smart Cache的能力，預料它也會內建SSE4指令集，時脈目前還不確定。

超微（AMD）的原生四核心Opteron（Barcelona）

在2005年中，率先開發原生雙核心x86伺服器CPU取得優勢的超微（AMD），正進一步加速其原生四核心伺服器處理器Quadcore Opteron的開發進度。於去年（2006年）10月中旬聖荷西舉辦的MicroProcessorForum'06微處理器論壇中，正式揭露正在開發的原生四核心處理器─代號Barcelona的處理器相關細節。

《圖七 AMD原生四核心處理器矽晶電路圖》

AMD四核心Opteron（Barcelona）由AMD/IBM合作開發的65nm奈米製程，在同一矽晶粒上實作四組CPU核心電路，矽晶粒面積為283mm2；每個CPU核心擁有專屬的128KB L1快取與512KB L2快取記憶體，四顆核心並聯到一組共享（Shared）設計的2MB L3 Cache，各CPU核心的資料可以在同一矽晶粒電路內直接交換，並內建DDR2/DDR3雙型態記憶體控制器。每個CPU核心仍維持三線路x86平行解碼架構，沒有要擴增為四線路甚至五組的打算，較Intel Core2 Quad/Extreme與XEON每個核心具備四線路解碼能力相比，相形見拙了些。

《圖八 AMD四核心Opteron每個CPU有專屬L1與L2，四顆核心共享一組L3 Cache（資料來源：AMD網站）》

四核心Opteron（Barcelona）核心將首度把L1 I-Cache擴增到256bit寬度，，L1 Cache傳輸頻寬可以大幅倍增，增加較大的TLB（Transfer Lookaside Buffer）以增加記憶體分頁定址的效能，四核心Opteron也大幅強化FPU/SSE浮點運算效能，每一組CPU核心電路的浮點乘法、浮點加法單元，以及兩組SSE運算單元全都都擴增到128bit，並追加LZCNT、POPCNT（位元計次指令）、EXTRQ、INSERTQ、MOVNTSD、MOVNTSS等SSE3/SSSE3)指令集等，這點在規格上足以追上Intel Core2 Quad/Extreme以及XEON 5300系列。

四核心Opteron（Barcelona）實際位址線擴增到48bit（248=256TB），最大可以控制到高達256TeraBytes（=256K GB）的記憶體容量，遠超過Intel四核心Core2 Quad或Intel Xeon 5300系列，僅38bit(238=256GB)的實際記憶體定址能力；四核心Opteron具備的AMD Virtualization虛擬化技術，首度實作巢狀化分頁表（Nested Paging；NP）機制，可以做到讓24組Guest OS獨立管控記憶體，同時減少25％的超級監控者（Hypervisior）切換各Guest OS的切換時間。

AMD在四核心Opteron每個子CPU電路都設計了獨立的PLL時序鎖向迴路，可以針對每個核心做動態調整工作頻率的能力，當系統發現有哪個CPU核心進入閒置或負載不高的情況下，可以動態降低該子CPU核心時脈，以節省整體四核心CPU的功耗。

除了CPU核心的強化之外，四核心Opteron也內建更強悍的4埠HyperTranport 3.0匯流排控制器，時脈高達2.6GHz雙向運作，可以提供16bit雙向5.2GMT/s的傳輸交易效能，或10.6GB/s的資料傳輸頻寬，並擴充到平行串聯8顆實體處理器(16P)的能力。而AMD也開放透過HTX Slot擴充槽與HTX附加子卡的方式，讓其他業界開發特殊應用的運算晶片，透過HyperTransport匯流排直接跟CPU連通。

AMD在2006年11月30日，實機展示原生四核心Barcelona處理器的效能展示，在跑Windows Server2003 64位元版作業系統下，AMD宣稱比原先雙核Opteron多出70％的效能，在浮點運算項目則提升了1.8倍，並也超越包雙核四核心架構的Intel Xeon 5335（代號Clovertown）處理器搭配的伺服器約40％的效能。

根據AMD伺服器最新規劃，四核心Opteron處理器初期具備2MB L3，支援雙通道援ECC Reg DDR2模組，核心時脈由1.9GHz起跳至最高的2.5GHz，最高功耗擁有68W、 95W及120W三個不同版本。之後在2008年，會有個代號Shanghai（上海）的新四核心Opteron處理器，提供FB-DIMM記憶體的支援能力。

結論：多核心處理器的利弊與後續發展

多核心CPU的發展在優勢上，由於用已經驗證過的單一核心，以對稱式的疊加起來，只要IC製程跟著上，同時控制好設計功率，再搭配多線緒化的軟體，可以非常快的推出到市場上（Time to market），用最佳的效能／功耗比來直接提升平行運算的效能。

特別是在伺服器電腦系統，向來就是最早導入雙顆、四顆甚至多顆CPU所謂平行對稱多處理器運算（Symetric Multi-Processor；SMP）的方式設計，相關的伺服器作業系統、專屬應用軟體也已經多線緒化（MultiThreading），導入多核心CPU不僅相關硬體平台與軟體環境搭配都最為成熟，同時還能縮減原先做四顆、八顆處理器的伺服器平台的大小與建製成本，縮減到僅以往一顆實體CPU所需的系統，就能享有以往四顆、八顆甚至更多顆實體CPU平行運算的效能。

但比較傷腦筋的，則是多核心CPU的軟體開發，許多『單線思考』的軟體，在一個1GHz、四核心CPU上怎麼跑，就是沒有在一顆4GHz但單核心的CPU還來得快，換言之就是沒有成相同或對等比例的增加，因此如何擺脫數十年來單線循序化撰寫軟體的思維，並督促廠商提供如何高度多線緒化的語言開發工具與編譯器，成為極為嚴苛的挑戰。

另外在授權金的計算上，過去伺服器、大型資料庫軟體，大多以系統佈建CPU實際顆數來計費，但是當多核心CPU發展並普及到一定程度，以往能在一套4-Way單核心CPU系統收四倍CPU計價單位的錢，遇到一套1-Way四核心甚至八核心CPU系統，是要算一顆實體CPU的錢呢? 還是要算四顆甚至八顆的錢，用戶能不能接受呢? 因此要如何制定新多核時代的授權金額，同時不會縮減自己營收，遭致以往多線單核心CPU客戶的反彈，也成為這類軟體廠商該謹慎思考的。

每一家多核心處理器的設計，一種是屬於同質多核心（Homogenous Multi-Cores），以相同運算性質的多顆CPU核心電路疊在一起，各CPU核心可能有獨立專用的L1/L2 Cache，也有將L2、L3快取記憶體以共同連接（共享）方式連接在一起，也有將原本CPU核心予以簡化後再連接在一起。像IBM POWER5+/POWER6、Intel XEON、AMD Opteron、SUN UltraSPARC T1/T2等就屬於此類。

另外也有異質多核心（Heterogeneous Multi-Cores），則是針對不同線緒的任務需要，將不同處理特性的CPU核心疊加起來，像STI開發的CELL處理器，就是一組64bit PPE搭八組32bit SPE的組合。超微併購ATI之後，將CPU與GPU結合在同一矽晶粒的FUSION計畫，將打造一顆同時具備傳統程式/資料運算與圖形處理效能於一體的超級SoC晶片，涵蓋目標將從最下游CE消費性電子產品、可攜性裝置、筆記型電腦、桌上型電腦到工作站、伺服器全方位x86核心目標。

多核心的發展能到多遠的境界呢? Intel在今年二月ISSCC 2007國際固態電子電路會議中，揭露了其開發的4.1GHz 80核心的NoC多核心浮點運算晶片，可達到1.28TFLOPS的浮點運算效能。也許可以給予我們一個對明日，能將一套佔地有足球場大小的超級電腦，濃縮到一部當今你我帶著走的筆記型電腦的效能憧憬。

《圖九 Intel於ISSCC'07展示其80核心處理晶片（資料來源：Intel，ISSCC 07）》

最終多核心CPU會走向怎樣的發展呢? 是走向越多核越好的『核』武軍備競賽? 還是集結各方人馬打造的菁英電路，以獨特應用取勝的思維會出線，時間會告訴我們答案。

(表一) 各家多核伺服總覽表　

廠商	IBM	IBM	Fujitsu	Sun	Intel	Intel	AMD
處理器名稱	Cell B.E	POWER6	SPARC64Ⅵ	UltraSPARC T2	Dual-Core Itanium 9050	XEON 5355	Opteron 8000

代號		eCLipz	Olympus	Niagara2	Montecito	Clovertown	Barcelona
CPU核心數	1PPE+8SPE	2 Native	2 Native	8 Native	2 native	4(MCM 2x2)	4 Native
CPU核心執行線緒數	PPE:2 SPE:1	2	2	8	2	1	1

單一 CPU總執行線緒數	2+8 SIMD	4	4	64	4	4	4

L1 Cache	64KB/PPE 32K I+32K D	128KB 64K I+64K D	256KB/core 128K I+128K D	24KB 16K I+8K D	32KB	64KB/core 32KB I+32KB D	128KB(每核心) 64KB I+64KB D

L2 Cache	PPE:512KB SPE:256KB	4MB/core (8MB Total)	6MB Shared	4MB Shared	1280KB/core 1024K I+256K D	8MB (4MBx2) 4MB Shared	512KB/core

L3 Cache	n/a	32MB	n/a	n/a	24MB	n/a	2MB (共享型)
內建記憶體控制器	Rambus XDR (SPE)			4組雙通道 FB-DIMM控制器			雙通道 Reg DDR2 、 DDR3控制器

工作時脈	3.2~4.6GHz 5.4~6GHz(65nm)	5.5~6.1GHz	2.4GHz	1.2GHz	1.6GHz	2.66~3GHz	2.3~2.6GHz

晶粒面積 Die Size	235mm2 (90nm)	341mm2 (65nm)	400mm2 (90nm)	342mm2 (65nm)	596mm2 (90nm)	286mm2 (65nm)	283mm2 (65nm)

電晶體數量	234M	790M	540M	503M	1720M	582M	463M
設計功率	95W @ 3GHz	未揭露 (>100W)	80-120W	84W	104W	120	95～120W
最大 CPU 線路數	2-Way SMP	128-Way SMP	128-Way SMP	1-2way SMP	16-Way SMP	8-Way SMP	8-Way SMP

定址能力	2 42 =4TB	2 50 =1024TB	n/a(預估44~50)	2 40 =1TB	2 50 =1024TB	2 38 =256GB	2 48 =256TB
推出時間	2007 Q4	2007H2	2006 Q4	2007 H1	2006 H1	2006 Q4	2007 Q2

‧	揮別製程物理極限半導體異質整合的創新與機遇
‧	滿足你對生成式AI算力的最高需求
‧	使用 P4 與 Vivado工具簡化資料封包處理設計
‧	AI助攻晶片製造
‧	Intel OpenVINO 2023.0初體驗—如何快速在Google Colab運行人臉偵測

comments powered by Disqus

相關討論