至強處理器:我這十二年
說起X86服務器,相信你一定會想到英特爾及其針對服務器、工作站的處理器平臺:至強(Xeon),畢竟X86服務器芯片這塊市場十之八九的份額都在英特爾的手中。而且,更重要的是,在一定程度上,至強代表了X86服務器的技術核心。
眾所周知,英特爾的CPU先后經歷了8086、80286、80386、80486以及此后的奔騰系列、賽揚系列和至強系列,奔騰系列又包括奔騰1、2、3、4,其中,具有里程碑性質的是8086、80486和奔騰。1993年,英特爾公司推出“奔騰”Pentium芯片,被稱為586或P5,含有310萬個晶體管,速度達60 MHz。1995年11月,英特爾推出“新奔騰”Pentium PRO,這是自從1979年以來的芯片家族的第六代,代號為P6,有550萬個晶體管,第一批芯片運行速度為150-200 MHz。這種“新奔騰”就是至強的前身,目標直接定位于商業用高性能計算機、服務器等企業級計算領域。
翻開至強處理器12年的發展歷史,我們看到,這款處理器已經發生了巨大的變化:經過了P6(奔騰III)、Netburst(奔騰4)、酷睿、Nehalem等幾代微架構的變遷,制造工藝從最早的250納米提升了現在的45納米,CPU內核數量從單核發展到了6核,主頻從400MHz提升到3.8GHz,前端總線帶寬從100MHz發展到了1.6GHz,并最終轉換到了全新的QPI直聯架構,指令集和諸如超線程、智能節能、虛擬化等功能不斷推陳出新……
至強的商標雖然經歷了幾代x86和x86-64處理器,但仍然保留了下來,舊型號是將至強放到對應的處理器名字的末尾,如奔騰II至強,奔騰III至強,但2001轉換到奔騰4架構上之后,新型號則一率直接叫至強,這似乎也意味著基于至強的PC服務器正一步步脫離PC的色彩,更加強大,也更加獨立。比較而言,至強 CPU除了多重處理能力、在同一主板上支持多顆處理器外,比對應的桌面級CPU擁有更多的緩存。
筆者按照處理器微架構的不同,將至強這12年的歷史分成了四個階段,分別加以闡述。#P#
1998-2000年 P6微架構時代
包括250納米的奔騰II至強Drake、奔騰III至強Tanner以及180納米工藝的奔騰III至強Cascades,共20多款處理器,插座接口是Slot 2,指令集只有MMX和SSE。
P6時代,CPU主頻幾乎完全代表了產品高低檔的不同——型號中的數字與主頻是一致的,不過,主頻都很低,直到2000年的8月22日才出現了1GHz的“奔騰III至強1000”;前端總線帶寬也很低,只有100MT/s或133MT/s。
也許最讓今天人們感慨的是,P6處理器的功耗低得驚人,最高也不過46.7瓦特,最低的一款只有23瓦特。比較來看,從250納米到180納米制造工藝的進步對于P6主頻提升和功耗降低都是非常明顯的:250納米時代,主頻在400-550MHz之間徘徊,而到了180納米的奔騰III至強Cascades,主頻已經躍升至1GHz,功耗則下降了10瓦特左右,跟今天八九十瓦、甚至100多瓦的CPU相比,只有20-30瓦特的Cascades真的是相當“涼快”!
#p#2001-2006年 NetBusrt微架構時代
這是至強歷史上持續時間跨度最長的一代架構了,甚至到2007年一季度還發布了一款基于Netburst架構的產品,包括的處理器型號非常多:180納米的至強Foster,130納米的至強Prestonia和Gallatin,90納米的至強Nocona、Irwindale、Paxville、Cranford、Potomac,以及65納米的Dempsey和Tulsa,一共有70多款處理器,CPU插座有LGA 771、Socket 603。
這時至強已經開始逐漸擺脫PC的影響,型號前面也不在加上“奔騰III”、“奔騰4”的標稱,正在朝面向企業計算的獨立平臺轉化,至強出現了按UP(單路系統)、DP(雙路系統)和MP(多路系統)的劃分方式。可以說,在NetBurst時代,至強發生了脫胎換骨式的蛻變,企業計算的特征越來越明顯,同時在2003年也直接受到了AMD皓龍處理器的強有力挑戰。
在這六年當中,至強的主要特性變化特點有:
1)能效計算:制造工藝從180納米提升到了65納米;伴隨著制造工藝的進步,主頻和功耗之間的關系變得微妙起來,“要獲得高主頻往往得付出高功耗的代價”——180納米(1.4-2GHz,48-77W)、130納米(1.5-3.2GHz,30-90W)、90納米(2.6-3.8GHz,55-165W)、65納米(2.5-3.7GHz,95-150W),比如主頻3GHz的雙核至強7040(Paxville MP)的TDP功耗就高達165W,“每瓦特性能”的概念開始出現并廣泛流行,同時,英特爾也開始通過一系列技術創新如制造工藝改進、低功耗版處理器、EIST等,來保證平臺更新時“在功耗不變的條件下提升性能”。英特爾甚至在2006年還嘗試動用了用于筆記本電腦的處理器微架構,推出基于Pentium M (Yonah)架構的雙核至強DP處理器(Sossaman),TDP功耗為31W,使用Socket M插座,不過,主頻最大僅2.166GHz。
2)唯主頻論過時:由于唯主頻論開始過時,至強的命名型號也發生了大的變化,從2006年開始,英特爾不再用“至強UP/DP/MP+主頻”來的方式來命名、區別不同型號,而是分為針對雙路平臺的至強5000系列和針對多路平臺的至強7000系列,如至強50XX(Dempsey)、至強70XX(Paxville MP)、至強71XX(Tulsa),后面兩位數用來標識CPU的不同,一般數字越大,表示性能越高;而且,由于這一階段還開始出現核心數量、功耗的區別,所以有些產品前面也開始加上Dual Core(雙核)、后面加上Low-voltage(低功耗)等字樣。
3)64位計算:2004年6月,在AMD64位皓龍的競爭推動下,英特爾放棄過去單純依靠安騰主打64位計算市場的策略,推出EMT64的Nocano,走上32位/64位兼容型計算道路;
4)多核計算:2005年開始出現雙核芯,多核計算開始走上快車道;
5)多功能:指令集和CPU的功能得到了頻繁更新,跟P6架構相比,新增了SSE2、SSE3指令集,以及許多過去聞所未聞的新技術,如超線程、EIST(Enhanced Intel SpeedStep Technology)智能降頻節電技術、EMT64兼容32位和64位計算、XD bit(No eXecute)防病毒防惡意攻擊技術、intel-vt硬件輔助虛擬化技術等。
6)均衡計算:隨著處理器的性能越來越強,但前端總線的帶寬提升幅度卻不大,從400、533、667、800提升到1066MT/s,I/O瓶頸也越來越突出,尤其是對于四路以上的系統。在這一階段,雖然AMD已經在2003年推出了“直連架構,集成內存控制器”的皓龍,但英特爾仍然堅持FSB架構。于是,我們看到,為了緩解CPU“吃不飽”的狀況,這一時期英特爾主要是不斷進行大容量L2緩存設計,甚至開始引入大容量L3緩存,如針對多路系統、FSB帶寬僅有667 MT/s的雙核至強7150N(Tulsa)就擁有2x1MB二級緩存和高達16MB的三級緩存。
7)虛擬化:隨著X86服務器虛擬化的流行,英特爾在2006年5月份發布的Dempsey處理器中開始引入其硬件輔助虛擬化技術intel-vt,以緩解VMware等虛擬化軟件的性能損耗,提高虛擬化的效率,此后,英特爾VT得到了長足的發展,直至今天。
總之,這是新舊交替的六年,也是英特爾歷盡蛻變的六年,不僅要面對功耗攀升的棘手問題,還要面對來自AMD的挑戰,期間雙方在64位、雙核、功耗等方面多次交手,雖然各有勝負,但總體來說,英特爾在這一時期失誤頗多,最終讓AMD皓龍在市場中占穩了腳跟。
#p#2006-2008年 酷睿(Core)微架構時代
2006年其實是Netburst和酷睿兩種架構并存的一年。差不多也是從這一年開始,英特爾引入了其新的產品更新策略:Tick-Tock,這其實也是英特爾對市場的一種承諾,即當年更新微架構,下一年更新制造工藝,依次類推,不斷推動處理器技術的發展。于是我們看到2006年是酷睿微架構年,2007是45納米工藝Penryn,2008是Nehalem微架構,2009是32納米工藝的Westmere,2010年是Sandy Bridge全新架構......
Core架構盡管歷時才3年左右,但英特爾一共推出了近90款CPU,包括:65納米針對單路平臺的的雙核Allendale(至強3000系列)、雙核Conroe(至強3000系列)、四核Kentsfield(至強3200系列),針對雙路平臺的雙核Woodcrest(至強5100系列)和四核Clovertown(至強5300系列),針對四路以上平臺的Tigerton(雙核至強7200系列、四核至強7300系列),以及45納米針對單路平臺的雙核Wolfdale(至強3100系列)和四核Yorkfield(至強3300系列),針對雙路平臺的雙核Wolfdale-DP(至強5200系列)、四核Harpertown(至強5400系列),還有針對四路平臺的四核/六核Dunnington(至強7400系列)等十來個類別。
和Netburst微架構相比,Core時代至強處理器的變化主要有:
1) 制造工藝從65納米升級到了45納米(統稱為Penryn),使用了高K材料,這一工藝的進步為英特爾在CPU中集成更多的晶體管、提高主頻、降低功耗、進行下一代微架構創新等提供了基礎;
2) 多核計算得到進一步發展,出出四核(最早出現在Clovertown至強5300系列中)與六核(最出現在Dunnington至強7400系列中)產品;
3) 指令集得到進一步發展,新增SSE4.1,在虛擬化、智能節能等方面也得到了進一步增強;
4) 針對單路服務器的處理器統一到至強3000系列名下;
5) 為了將CPU功耗控制在可接受的范圍以內,英特爾一方面通過多核設計來提升性能,另一方面通過工藝進步來實現主頻與功耗的平衡,跟Netburst相比來看,主頻甚至有所降低,但功耗基本得到了有效控制,65納米(1.6-3GHz,35-150瓦特)45納米(1.866-3.5GHz,20-150瓦特);
6) 由于Core時代仍然采用前端總線結構,為了提升I/O帶寬,降低I/O延遲,英特爾一方面提升總線帶寬(1066、1333、1600 MT/s),另一方面繼續采用大容量L2和L3緩存設計,如六核心的至強7460主頻為2.667GHz,FSB為1066MT/s,L2緩存為3x3MB,L3緩存為16MB。
7) 這一時期的CPU插座也發生了變化,主要有LGA 771、LGA 775和Socket 604。
#p#2009年 Nehalem微架構時代
雖然Nehalem微架構在2008年就已經在個人電腦的i7處理器上得到采用,但在服務器上的應用卻是今年3月30日Nehalem-EP至強處理器的發布——包括45納米的針對單路系統的雙核/四核Bloomfield(至強3500系列)以及針對雙路系統的雙核/四核Gainestown(至強5500系列)。
對英特爾而言,基于45納米的Nehalem代表了一個全新時代的到來:放棄傳統前端總線架構,轉向QPI直連架構,打破傳統I/O瓶頸的束縛,QPI帶寬高達4.8-6.4 GT/s,遠遠高于FSB時代的1.6 GT/s!
如果說當年的奔騰Pro開創了X86工業標準服務器大批量生產和普及的時代,那么,至強5500則是15年來性能提升幅度最顯著的一代,其性能是2005年單核至強的9倍,是上一代至強5400的2.5倍,同時空閑狀態下的平臺功耗降低了50%,其背后采用了一系列技術包括45納米工藝、全新內存子系統、快速通道互聯技術(QPI)、智能節能技術、全新I/O子系統。在性能方面,智能加速技術可以滿足對CPU主頻比較敏感的應用需求,超線程技術則可以滿足高度并行的應用需求,針對能耗方面,則有集成功率門限、自動低功耗、節點管理器等等。這些創新的技術使得今天的用戶“可以在需要的時候提高性能,也可以在不需要性能的時候自動降低功耗。”
針對四路以上的系統,英特爾將在今年下半年投產、明年初上市八核心Nehalem-EX(估計命名為至強7500,代號Beckton)。Nehalem-EX將擁有23億晶體管,擁有4個QPI鏈接,可以讓服務器從雙路一直輕輕松松地擴展到8路,且無須第三方芯片組技術支持,從而最高可以支持到64核、128個線程,擁有24MB共享L3緩存,每個處理器支持16個內存插槽,引入了原來只在安騰上采用的RAS特性:MCA(機器檢驗體系結構)功能。根據英特爾的測試,Nehalem-EX與上一代的至強7400相比,在性能和帶寬兩方面都實現了“前所未有”的飛躍:內存帶寬高達9倍,數據庫性能超過2.5倍,整數吞吐量超過1.7倍,浮點吞吐量超過2.2倍!
【編輯推薦】