杜絕宕機 不同行業(yè)服務(wù)器RAS側(cè)重點
隨著IT的發(fā)展以及企業(yè)業(yè)務(wù)的增加,服務(wù)器成為了很多企業(yè)業(yè)務(wù)支持的平臺。尤其是在我國,服務(wù)器的增長勢頭非常強勢。但由于我國IT科技發(fā)展較晚,所以企業(yè)用戶在選購服務(wù)器的時候往往不知道從何下手,甚至在采購過程中遭遇奸商欺騙等行為。錢財損失是小,但耽誤企業(yè)業(yè)務(wù)的正常運行可以說那就大了。
服務(wù)器在采購的時候要考慮多方面的因素,而安全性在“棱鏡”事件后也成迅速得到了企業(yè)事業(yè)單位用戶的重視。服務(wù)器的安全性主要體現(xiàn)在RAS性能上。RAS性能是指服務(wù)器的可靠性(Reliability)、可用性(Availability)以及可服務(wù)性(Serviceability)。具體RAS性能我們主要看一下幾個方面:System級別的RAS特性、CPU RAS特性、內(nèi)存RAS特性、I/O RAS特性等。
可以看出,RAS性能是一個綜合性指標(biāo),對于不同行業(yè)的用戶來說,其對RAS性能的要求也不盡相同。下面我們就來具體看一下這些內(nèi)容:
內(nèi)存的RAS性能尤其重要
服務(wù)器內(nèi)存在RAS性能中起到非常關(guān)鍵的作用,因為服務(wù)器中的所有計算幾乎都是跑在內(nèi)存中的,內(nèi)存性能的好壞直接影響到服務(wù)器的穩(wěn)定性,從而影響企業(yè)業(yè)務(wù)的可靠性。內(nèi)存的錯誤率其實比想象中的要高(refer),內(nèi)存也因為老化等原因會出現(xiàn)性能降低,從而產(chǎn)生問題而影響企業(yè)業(yè)務(wù)。
針對內(nèi)存方面的重要性,很多企業(yè)也采用了相應(yīng)優(yōu)化。例如目前許多x86服務(wù)器經(jīng)銷商的賣點宣傳就是集中在內(nèi)存上,比如服務(wù)器內(nèi)存的ECC特性,Spare Row、Chip Kill、Single Device Data Correction (SDDC)等,其中Chip Kill是IBM的專利技術(shù),主要用在高端服務(wù)器上。惠普服務(wù)器曾連續(xù)跑了二十年而沒有停機,而寶德也有連續(xù)跑了五年沒有停機的例子。
#p#
處理器的RAS性能的重要性
處理器相信是大家都熟悉的一個部件,很多人在購買PC和手機的時候,首先關(guān)注的就是處理器。
而在服務(wù)器領(lǐng)域,其服務(wù)器處理器與PC市場的型號并不相同,而是針對服務(wù)器市場的特定需求,英特爾推出了針對企業(yè)級的Xeon處理器,Xeon E3面向低端市場,Xeon E5處理器面向中端市場,面向高端市場的則是Xeon E7服務(wù)器。

Xeon平臺的可靠性、可用性和可維護性相比上一代處理器產(chǎn)品有了明顯的提升,其繼承了很多大型企業(yè)開發(fā)中驗證過的RAS技術(shù)。通過所有的CPU電路間的無檢測和恢復(fù)機制,避免由于CPU錯誤帶來的系統(tǒng)故障,并可保證CPU內(nèi)部的數(shù)據(jù)傳輸和存儲的隨機錯誤通過ECC數(shù)據(jù)糾正處理和指令重試技術(shù)恢復(fù)。
而且如今的處理器即使在發(fā)生不可恢復(fù)的錯誤的時候也不會停止工作,只會繼續(xù)記錄所有的錯誤信息,因此任何錯誤原因都能夠迅速檢測出來。例如,Xeon E7在英特爾上一代的Xeon 7500為基礎(chǔ),建立了面向諸多高端計算應(yīng)用的支持,包括商業(yè)智能、實時數(shù)據(jù)分析和虛擬化等全新標(biāo)準(zhǔn)。可以確保數(shù)據(jù)的完整性能,從而提供整個數(shù)據(jù)中心的安全。
#p#
不同行業(yè)RAS性能的側(cè)重點不同
RAS能力是評判服務(wù)器的重要標(biāo)準(zhǔn)。但是由于RAS能力提升需要服務(wù)器的制造成本提升,而且對于不同行業(yè)的用戶來說,并不是所有的用戶都需要那些RAS指標(biāo),所以服務(wù)器提供商并不是將所有服務(wù)器的RAS性能都設(shè)定的面面俱到。需要根據(jù)具體業(yè)務(wù)來判定具體需求。
可靠性在行業(yè)應(yīng)用中最主要的是指雙擊熱備份。這是用戶非常喜歡提供服務(wù)器穩(wěn)定性的方式,雙擊熱備份就是一臺主機為工作計劃,另一臺主機為備份機器,在系統(tǒng)正常的情況下,工作機為信息系統(tǒng)提供支持,備份集提供監(jiān)視工作機的運行,工作機也同時監(jiān)視備份機是否正在。

當(dāng)工作機出現(xiàn)問題的時候,不能夠支持業(yè)務(wù)運行,那么備份機就會主動接管工作機的工作,繼續(xù)支持業(yè)務(wù)的運行,從而確保業(yè)務(wù)的不間斷運行。當(dāng)工作機經(jīng)過維修恢復(fù)正常后,它將會將原來的工作自動抓回,恢復(fù)以往服務(wù)器的工作狀態(tài)。而備份集也有可能由于某些原因而出現(xiàn)異常,工作機則是負責(zé)通知工作人員,確保下一次切換的可靠性。
在不同行業(yè)中,不同的而延誤對可靠性的要求不同,例如在金融、電力和醫(yī)療等行業(yè),他們對計算機的可靠性要求非常高,所以習(xí)慣采用的是雙擊備份系統(tǒng)。雙擊備份可以時間運行時的互相監(jiān)控,在發(fā)生故障的時候自動切換保證業(yè)務(wù)7*24小時的穩(wěn)定運行,從而提升了數(shù)據(jù)的安全性和業(yè)務(wù)的可靠性。
#p#
可用性指的是系統(tǒng)被請求使用時能夠迅速反饋并被正確操作的可能性。在一些行業(yè)中許多關(guān)鍵業(yè)務(wù)是不能在運行過程中間斷的。例如商業(yè)智能分析、業(yè)務(wù)流程處理、核心數(shù)據(jù)庫等等,特別是在政務(wù)、國防、電信、金融等領(lǐng)域更是注重系統(tǒng)的可用性。
企業(yè)的關(guān)鍵業(yè)務(wù)一旦出現(xiàn)意外會給用戶造成極大的傷害,甚至是無法彌補的,所以這就對支持他的IT平臺提出了非常嚴格的要求。亞馬遜宕機時間一分中的損失就高達5萬美元,所以停機事件在一些行業(yè)是不能出現(xiàn)的。雙備份技術(shù)可以迅速恢復(fù)系統(tǒng)性能,另外還有多子星系統(tǒng),滿足多節(jié)點服務(wù)需求等。
高鐵的IT系統(tǒng)是一個非常重要的部門,其IT系統(tǒng)出現(xiàn)故障會造成整個交通的癱瘓,在高鐵運營管理中用到一種SSI標(biāo)準(zhǔn)刀片服務(wù)器,是由六個計算刀片和14個存儲刀片組成,集成度高,非常適合分散狀況下的運行管理。
其實這個方案很簡單,采用的是寶德PR6000M刀片服務(wù)器和雙擊熱備軟件,就形成了一個雙擊熱備系統(tǒng),兩臺服務(wù)器通過心跳線相連,在一臺服務(wù)器出現(xiàn)故障時,另一臺機器能夠承擔(dān)全部的工作負荷,真正解決了集中管理與安全穩(wěn)定的問題。
#p#
可維護性是指整個IT系統(tǒng)非常巨大,而又要求實時、動態(tài)和效率時,其承載平臺要有非常出色的擴展能力。比如在需要高性能的時候需要增加處理器數(shù)量,內(nèi)存的擴充和硬盤的擴充等等,就像寶德的模塊化服務(wù)器、存儲服務(wù)器等,提供快速的解決問題的能力。
例如,在銀行的核心業(yè)務(wù)數(shù)據(jù)庫方面,其要求確保7*24小時業(yè)務(wù)不當(dāng)機。如何解決這個難題呢?寶德服務(wù)器針對這個需求將銀行的核心業(yè)務(wù)部署在寶德的PR6850N服務(wù)器雙擊系統(tǒng)上,該服務(wù)器為6U四路服務(wù)器,擁有超過20項的RAS特性。
在發(fā)生故障后,兩臺PR6850N部署的虛擬機可以實現(xiàn)互相的接管,保證業(yè)務(wù)的不中斷,同時虛擬機部署的存儲實現(xiàn)整個虛擬機連同業(yè)務(wù)和數(shù)據(jù)庫的備份。而且這個方面還擁有非常出色的擴展能力。。
文章總結(jié):服務(wù)器RAS性能能夠大幅提升系統(tǒng)的安全性,保證用戶的關(guān)鍵業(yè)務(wù)不間斷運行,但是在提升RAS性能方面,隨之成本也會隨之上升。所以對于用戶來說,還應(yīng)該安裝自己行業(yè)的業(yè)務(wù)性能來選擇服務(wù)器。讓企業(yè)IT基礎(chǔ)架構(gòu)實現(xiàn)***性價比的配置。