賁鋒:啟迪設(shè)計私有云數(shù)據(jù)中心建設(shè)實踐|V課堂第109期
第109期【智造+V課堂】“優(yōu)秀CIO”主題分享月第一期,啟迪設(shè)計集團股份有限公司信息技術(shù)中心主任、高級工程師賁峰,賁主任從啟迪設(shè)計私有云架構(gòu)設(shè)計、平臺功能、數(shù)據(jù)中心機房建設(shè)等幾個方面深度暢聊了啟迪設(shè)計企業(yè)部署私有云數(shù)據(jù)中心的實戰(zhàn)和探索。
一、分享嘉賓
啟迪設(shè)計集團股份有限公司信息技術(shù)中心主任 賁 鋒
1. 個人簡介
- 啟迪設(shè)計集團股份有限公司信息技術(shù)中心主任/高級工程師;
- 從業(yè)30余年一直工作在信息化建設(shè)第一線,推進并見證了啟迪信息化的發(fā)展歷程,主持完成企業(yè)信息化規(guī)劃、ERP、協(xié)同設(shè)計及數(shù)字化交付平臺等全部信息化項目實施。
2. 獲獎情況
- 主持完成的項目獲省勘察設(shè)計行業(yè)軟件二等獎;
- 所帶領(lǐng)的團隊連續(xù)獲中國勘察設(shè)計行業(yè)“十一五”、“十二五”信息化建設(shè)單位先進稱號、2017年度江蘇省企業(yè)信息化優(yōu)秀團隊;
- 個人獲中國勘察設(shè)計行業(yè)“十二五”信息化建設(shè)先進個人、2016年全國優(yōu)秀CIO、2017年江蘇省企業(yè)優(yōu)秀CIO等殊榮。
二、分享主題
《啟迪設(shè)計私有云數(shù)據(jù)中心建設(shè)實踐》
三、分享大綱
1. 啟迪設(shè)計概況;
2. 啟迪設(shè)計私有云架構(gòu)設(shè)計;
3. 平臺功能;
4. 與傳統(tǒng)架構(gòu)的對比;
5. 有待優(yōu)化部分;
6. 數(shù)據(jù)中心機房建設(shè)。
四、原文實錄
原文實錄context:
今天很高興在這個地方跟大家歡聚一堂,與大家分享有關(guān)企業(yè)私有云建設(shè)的一些心得,首先也要感謝江蘇省企業(yè)信息化協(xié)會,讓我們有機會在這個平臺上面共同的交流、學(xué)習(xí)。
今年是江蘇省企業(yè)信息化企業(yè)上云的推廣年,江蘇省剛剛頒布了企業(yè)上云工作指南,以及星級上云企業(yè)評定的標準,我們也就順應(yīng)潮流,一起來談?wù)勗啤J紫劝凑諔T例,先簡單的介紹一下我們啟迪設(shè)計集團的情況。
啟迪設(shè)計集團創(chuàng)建于50年代,到現(xiàn)在已經(jīng)走過將近60余年的歷程:
2002年由蘇州市人民政府直屬的蘇州市建筑設(shè)計研究院改制成民營企業(yè)。 2016年2月正式在深圳上市,股票代碼300500,大家可以關(guān)注一下。2017年3月8日,清華大學(xué)啟迪控股參股蘇州設(shè)計(也就是我們原來的前身)啟迪設(shè)計正式更名而成。目前整個的啟迪設(shè)計集團股份有限公司在全國各地有近20多個分公司與子公司。
這是一張我們
啟迪設(shè)計在信息化過程當中所走過的一個縮影。
啟迪設(shè)計是整個勘察設(shè)計行業(yè)當中比較早投入信息化工作的。九十年代開始,我們通過甩圖板進入了計算機的時代,2004年正式的進入局域網(wǎng)的運營時代,2004年我們又成為全國較先開展協(xié)同設(shè)計以及信息化管理的設(shè)計企業(yè)。2006-2015年是我們信息化的發(fā)展跨越年。在這個過程當中,我們注重項目的全過程的信息化管理:從設(shè)計輸入->設(shè)計輸出->一體化的協(xié)同設(shè)計平臺的建設(shè)。2015年適應(yīng)公司股改以后的集團化的運作和資源整合,為了順應(yīng)集團全國化布局戰(zhàn)略,我們開始進行私有云建設(shè)的嘗試。通過私有云建設(shè)的過程來實現(xiàn)了我們核心信息系統(tǒng):ERP系統(tǒng)、一體化協(xié)同設(shè)計與數(shù)字化交付以及數(shù)字化檔案的全過程信息化應(yīng)用平臺等的云端部署。
2016年我們建成了現(xiàn)有的一個私有云數(shù)據(jù)中心,這張圖是我們的私有云架構(gòu)設(shè)計圖。
底層是我們常說的核心物理層基礎(chǔ)架構(gòu)層:存儲、網(wǎng)絡(luò)以及計算單元。其實,再怎么的“云里霧里”還是離不開IT基礎(chǔ)架構(gòu)的建設(shè)。
在IT物理基礎(chǔ)架構(gòu)之上,我們搭建了虛擬化環(huán)境,也就是圖中的中間層;再上層,我們通過云服務(wù)組件來實現(xiàn)了自動交付,自動部署;最上層是基于EMC的EHC私有云門戶。
圖的左側(cè)是保護整個云環(huán)境數(shù)據(jù)安全完整的數(shù)據(jù)備份解決方案。
圖的右側(cè)是我們的日志管控,智能化運維的組件。
在與外界交流當中,經(jīng)常我聽到一些同仁受某些系統(tǒng)集成商的蠱惑,把虛擬化和云混為一談,經(jīng)常會出現(xiàn)搞了幾臺虛擬器,然后跟大家說我們已經(jīng)云化了,已經(jīng)部署了私有云……。
通過這張圖,大家應(yīng)該比較能夠清晰地了解私有云的一個完整架構(gòu)所應(yīng)涵蓋的,必須具備基本要素。它除了虛擬化層面以外,底層架構(gòu),自動化的部署服務(wù)和交付,數(shù)據(jù)安全以及智能運維,這些元素都是不可或缺的。
接下來這張圖是私有云平臺的功能模型。
我們知道,私有云建設(shè)第一步是需要把所有的資源進行池化和整合,在這個解決方案中我們有計算資源池、存儲資源池以及網(wǎng)絡(luò)資源池,然后通過虛擬化的管理和自動編排,實現(xiàn)計算即服務(wù)、存儲即服務(wù),以及備份即服務(wù)。
這張圖是我們私有云平臺的邏輯架構(gòu)圖。
底層是x86的服務(wù)器,上面從左至右是計算虛擬化、存儲虛擬化以及網(wǎng)絡(luò)虛擬化。這三個虛擬化構(gòu)成了三個不同的資源池。
圖的右側(cè)是我們基于云的全方位完整備份系統(tǒng),是整個云數(shù)據(jù)安全的保障。當然其實這個私有云平臺最終是可以與公有云形成一個完整的混合云的架構(gòu),在這個環(huán)境中可以加入公有云資源進行共同管理。
圖的上方是我們資源池的集中監(jiān)控、運維管理組件和平臺門戶。
接著上面一張圖,這張圖是前面一張圖的軟件模塊投射上去以后的成果展示。
包括我們的硬件投射上去以后,形成的基于VMwarevCloud技術(shù)結(jié)合IT基礎(chǔ)架構(gòu)所形成的一個私有云云平臺邏輯架構(gòu)。
這張圖也就是基于VMware vCloud實現(xiàn)自動化交付的所有云組件,其中包括:實現(xiàn)資源調(diào)配流程的流轉(zhuǎn)以及自動部署組件+EHC的企業(yè)門戶來構(gòu)成的云平臺的租戶隔離系統(tǒng)。
我們剛剛講到,我們私有云平臺基本的架構(gòu)設(shè)計和平臺的一些功能模型,同時我們也談到了私有云的邏輯架構(gòu)。這個圖給大家展示的是私有云從物理層面架構(gòu)的組成部分。
從底層來開始:存儲這一塊我們是基于EMC做了兩個存儲分區(qū),一個是文件存儲是一臺NAS,當時部署是5個節(jié)點Isilon,400TB的總?cè)萘浚饕脕肀4嫖覀兎墙Y(jié)構(gòu)化文件;第二個存儲是一臺SAN存儲,部署了一臺EMC高端的存儲Vmax100K,作為核心存儲存放虛擬化環(huán)境數(shù)據(jù)及應(yīng)用數(shù)據(jù)庫等結(jié)構(gòu)化數(shù)據(jù)。存儲全部通過兩臺8GB的光纖交換機與我們上面的云計算節(jié)點進行連接,這兩臺8GB的光纖也是虛擬化實踐常用到的存儲光纖交換機DS6510,全萬兆模塊置備。
云計算節(jié)點在初期的時候我們配置了四臺的X86服務(wù)器,作為私有云的數(shù)據(jù)中心來部署。另外我們部署了三臺置備虛擬化專業(yè)顯卡的X86服務(wù)器搭建虛擬桌面服務(wù)器群。X86的虛擬桌面服務(wù)器群重點是解決我們?nèi)S設(shè)計的VDI桌面虛擬化應(yīng)用。
圖的最上層是我們兩臺局域網(wǎng)數(shù)據(jù)中心三層核心交換機,通過這兩臺萬兆的數(shù)據(jù)中心交換機,與我們整個集團總部的局域網(wǎng)進行相連。我們目前的網(wǎng)絡(luò)布局是干線萬兆+千兆到桌面的部署。
圖的右側(cè)是我們的備份單元,是基于EMC的備份存儲DATA DOMAIN,加上EMC整個的備份管理套件Network+AVMAR分別來備份我們的虛擬化環(huán)境、核心應(yīng)用數(shù)據(jù)庫,以及我們大批量的非結(jié)構(gòu)化文件備份。
這張圖是我們整個云環(huán)境部署以后的拓撲結(jié)構(gòu)圖。
底層除了剛剛講過的SAN存儲和NAS存儲,底層的右側(cè)還有一臺備份存儲。然后通過EMC的ViPR組件進行存儲的虛擬化。中間是我們的虛擬化層,整個虛擬化數(shù)據(jù)中心的計算單元里面一共部署了大概40多臺的業(yè)務(wù)虛機,加在私有云平臺組件虛機20余臺一共是六十幾臺虛機。
講到計算單元和存儲單元的時候,我們重點要強調(diào)在云的部署過程當中,我們很容易忽視掉的一個是什么?就是云環(huán)境本身所占用的資源,其實這一塊的資源消耗量也是比較大的。首先從計算單元來講,整個云環(huán)境所要的虛機數(shù)大概要20臺左右,存儲也要將近3~4個TB的存儲,作為核心存儲的開銷,其實這個開銷的成本是非常大的。在這一點上,大家在做私有云數(shù)據(jù)中心計算單元的評估、評價時,需要想清楚或者說預(yù)留我們相應(yīng)的云本身所需要的資源,包括存儲資源和計算資源,這點非常重要。
圖中虛擬化層當中是我們基于Citrix部署的一個虛擬桌面環(huán)境,它重點解決我們部分研發(fā)上對VDI虛擬桌面的應(yīng)用需求。當然在這個過程當中,我們意識到由于我們行業(yè)的特性,我們對顯卡的要求加上非結(jié)構(gòu)化數(shù)據(jù)傳輸?shù)牧勘容^大,在虛擬桌面的使用過程當中,我們的網(wǎng)絡(luò)流量開銷是比較大的。在內(nèi)網(wǎng)并沒有覺得這一點,但是當要把它投射到外網(wǎng)的時候,基本上一個用戶所占用的網(wǎng)絡(luò)帶寬是在10~15兆,這一點跟我們一般辦公的虛擬桌面是不太一樣的。
因為這一塊的部署,我們是在2016年的初期完成的,當時使用的GPU虛擬化顯卡是英偉達的K2。但是現(xiàn)在我們希望在進行擴容的時候會發(fā)現(xiàn),因為GPU虛擬化這一塊的成本急劇的提升,英偉達對新一代GPU虛擬化顯卡的收費除顯卡購置費之外還需要每一年為GPU虛擬化通道的license授權(quán)繳納相應(yīng)的服務(wù)費,所以感覺GPU虛擬化成本壓力過大。在這里我也正好向大家提出來,不知道其他的同仁有沒有更好的GPU虛擬化解決方案?之后能一起來溝通交流,相互學(xué)習(xí)。
圖中虛擬化層的右側(cè)就是云服務(wù)平臺,包括EMC的云門戶EHC、存儲虛擬化組件及備份套件等。
然后是我們對整個的應(yīng)用做幾個分區(qū),和一個是桌面虛擬化分區(qū)。
圖右側(cè)還有一個是綜合管理分區(qū)。綜合管理分區(qū),我們部署了相應(yīng)的一些網(wǎng)管軟件、性能監(jiān)控軟件,以及我們的AD、日志服務(wù)、DHCP等,一些運維管理服務(wù)也部署在綜合管理區(qū)。
圖右下是剛剛講到的數(shù)據(jù)備份,我們是用了基于DD250備份存儲基礎(chǔ)+EMC備份套件來構(gòu)成完整的備份。
在容災(zāi)這一塊,我們是利用了原有我們的一個數(shù)據(jù)中心和我們原有存儲、計算單元,然后通過RP4VM進行我們的核心虛機的保護。當然不可能對所有的應(yīng)用服務(wù)器進行容災(zāi)保護。我們所有的應(yīng)用加在一起應(yīng)該是六十幾臺的虛機,包括云環(huán)境本身的20臺機虛機。因為我們買的RP4VM容災(zāi)保護license也不夠,所以說只能保護15個關(guān)鍵應(yīng)用虛機環(huán)境,當我們的云數(shù)據(jù)中心出現(xiàn)問題的時候,我們的備份數(shù)據(jù)中心就是我們的容災(zāi)中心,這就是我們利舊的原來的計算資源和存儲單元,是可以在降性能的情況下進行業(yè)務(wù)連續(xù)性的保護。
網(wǎng)絡(luò)層這一塊,我們除了核心交換機以外,我們部署了一個邊界防火墻、二臺數(shù)據(jù)中心防火墻,同時也部署了上網(wǎng)行為管理以及無線管控等。
核心交換機之下就是我們的樓層交換機了,我們也是通過核心交換機與樓層交換機之間進行萬兆互聯(lián)。樓層交換機與樓層交換機之間,我們也是通過萬兆光纖進行相互的級聯(lián)。
剛剛講了我們云平臺的建設(shè),從架構(gòu)到設(shè)計,到我們的拓樸結(jié)構(gòu)。這張圖主要是展示我們應(yīng)用層跑上去以后的云平臺情況。
我們?yōu)槭裁匆ㄔ?我們建云跑哪些應(yīng)用?
我們重點的是頂端生產(chǎn)平臺,從設(shè)計輸入->設(shè)計輸出->數(shù)字化檔案,完整的協(xié)同設(shè)計的生產(chǎn)平臺。
ERP這一塊重點是上了幾個應(yīng)用:財務(wù)、人力資源、合同管理,也就是項目管理,包括收入確認;還有就是費控預(yù)算及采購了。通過人力資源完成的人事基本信息以及我們組織架構(gòu),對整個集團所有的簽入、簽出合同、收入確認、對接財務(wù)管理,實現(xiàn)財務(wù)、業(yè)務(wù)一體化的過程。當然我們還有實現(xiàn)了OA的移動化應(yīng)用,都在這個云平臺基礎(chǔ)上完成集團化應(yīng)用。
基于這樣一個云的平臺,我們所有的核心應(yīng)用都能通過我們集團數(shù)據(jù)中心來支撐各地的分、子公司的業(yè)務(wù)(這一塊是通過我們專有的VPN防火墻來接入進來的)。講到公有云,我們實際上使用了財務(wù)業(yè)務(wù)一體化ERP系統(tǒng)當中,金蝶的“云之家”的一個公有云移動平臺。重點解決移動辦理流程、審批以及IM的一些功能。
作為一個傳統(tǒng)企業(yè)上云,我的體會就是,上云之后與原來虛擬化環(huán)境之間的最大的改變在于:
- 第一個,資源的整合更緊密了;
- 第二點,資源的管理也更嚴謹了;
- 第三點是資源的監(jiān)控更到位了;
- 第四點是數(shù)據(jù)安全更有保障了;
因為通過云的平臺管理構(gòu)成了一個完整的數(shù)據(jù)備份以及容災(zāi)解決方案。
我們原來初期建虛擬化的時候,我們往往對虛擬化環(huán)境的備份會覺得非常困惑。其實很多場景下Vmware ESXi所提供的快照及備份方案是不可能解決虛擬化環(huán)境自身數(shù)據(jù)安全的基本問題地。
我們?yōu)槭裁匆显?上云對我們有什么好處?跟我們原來的傳統(tǒng)架構(gòu)之間有什么樣的一個區(qū)別?
我想通過這張圖跟大家來表達一下。
首先云平臺建設(shè)對我們啟迪設(shè)計,短時間內(nèi)具備了一些敏捷自動化和標準化的云的服務(wù)提供能力。云應(yīng)用回歸到傳統(tǒng)企業(yè)來講,更關(guān)注的并不一定是它的敏捷和自動化,其實更關(guān)注的應(yīng)該是它的標準化的云服務(wù)提供能力,智能化的運維能力以及剛剛講的完整的安全架構(gòu)。
也正因為這樣,云平臺所能提供的整個資源全生命周期的自動化管理,與傳統(tǒng)架構(gòu)相比,是有一個顯著的人力資源的節(jié)約,同時也的確確地提升了IT基礎(chǔ)架構(gòu)的彈性。還有就是剛才不斷的重復(fù)的,資源標準化的供給和整體運營效率和智能運維能力。
從2016年到現(xiàn)在,已經(jīng)將近兩年的時間,在這一塊我們項目過程當中,我們在不斷地做一些更進一步的嘗試。我們現(xiàn)在還是通過一個數(shù)據(jù)庫的評價軟件,在進行了數(shù)據(jù)庫的性能評價之后,我們把兩個核心數(shù)據(jù)庫全部虛擬化了,然后把四臺的原來做數(shù)據(jù)庫服務(wù)的計算單元,4U X86PC服務(wù)器接入到了我們原有的數(shù)據(jù)中心來,有效地擴展了我們現(xiàn)有的云數(shù)據(jù)中心的計算單元和服務(wù)能力。
當然我們數(shù)據(jù)中心在建的時候,資源模板相對來講比較單一,云的一些資源模板也在不斷地增加當中,來確保我們后面整個計算單元提供的能力。還有,為一步迎合我們后續(xù)對全國化布局的需要,我們后續(xù)將重點解決混合云的對接問題。當然我前面也提過EHC有一個先天的優(yōu)勢,本身它是一個基本的混合云的架構(gòu)。在做一些相應(yīng)的配置和擴展也是能夠?qū)崿F(xiàn)混合云的管理能力。
前面跟大家重點交流和分享的是我們云數(shù)據(jù)中心,云架構(gòu)這一塊。從物理架構(gòu)再底層就是我們私有云數(shù)據(jù)中心的機房。機房的建設(shè)過程當中也會涉及到很多具體的一些問題,我大概簡單的羅列一下。
下面這張圖就是我們云數(shù)據(jù)中心機房的一個布局圖。
我們看到左圖中央的開孔地板是下送風(fēng)單元。右側(cè)上方分別是我們樓層的光纖接入交換機及配電單元。右下側(cè)是一臺我們講的NAS存儲。再右側(cè)是我們的一個核心存儲,EMC的VMAX。
在上面這張圖上我們可以看到,最左側(cè)的小柜子是我們的UPS,左圖的右側(cè)兩個是我們的精密空調(diào)。右圖是我們的UPS電池組,電池組的上方是一個排風(fēng)單元和我們的一個自動噴淋。
大家不知道清不清楚,往往數(shù)據(jù)中心火災(zāi)大都是因為電池在運行過程當中產(chǎn)生的微量氫氣遇到火花所造成的,這種是占了數(shù)據(jù)中心機房火災(zāi)80-90%的的原因。所以在數(shù)據(jù)中心機房建設(shè)過程當中,電池組一定要跟數(shù)據(jù)中心機房進行物理隔離,同時增設(shè)排風(fēng)單元,將有可能散發(fā)出來的一些微量氫氣抽到室外去。
我們知道,數(shù)據(jù)中心本身它的滅火系統(tǒng)通常是氣體滅火,但是電池這一塊我們可能就沒那么講究了,我們就采用自動噴淋的方式。如果是特別大的IDC機房,它的電池組的滅火系統(tǒng)也同樣是氣體滅火,但氣體滅火的成本遠遠比自動噴淋的成本要高得多得多,有錢當然也就可以任性。
這張圖是我們數(shù)據(jù)中心機房內(nèi)的一張火災(zāi)氣體滅火的裝置,它的右側(cè)是我們氣體滅火的控制箱。氣體滅火其實是在數(shù)據(jù)中心機房建設(shè)當中的一個強制標準。這一塊一定要做的,你如果不做,出現(xiàn)問題也比較大,但是在這一塊要引起注意的是,我們一般的正常的氣體滅火是通過手動來控制的,。如果設(shè)置為自動狀態(tài),一旦出現(xiàn)煙感或者溫感的誤報,氣體滅火如果啟動,人如果在數(shù)據(jù)中心機房里面是沒有辦法逃生的。
在企業(yè)數(shù)據(jù)中心機房建設(shè)當中,大家一直會有個疑惑,就是精密空調(diào)成本比較高(大概要幾萬塊錢一臺),為什么不能用舒適性的空調(diào),就是我們的柜機替代呢?這兩個空調(diào)最大的區(qū)別是什么?
舒適性空調(diào)可以控溫度,但是不能控濕度。在冬季,舒適性空調(diào)制冷也是比較困難的。另外,機房除了溫度的要求,它是有一個標準的濕度要求地。控制濕度基本上是在50%左右,過高過低都不利于電氣性能的運行。
機房建設(shè)除了剛剛講的這幾塊以外,還有一塊重要的一個問題,就是我們在機房建設(shè)的過程當中,我們放在什么地方?一層樓還是二層樓?正常的我們一般的辦公樓,樓板如果沒有做特殊加固,每平方米的承重壓力在200公斤到300公斤之間。一個機柜如果是600毫米X1000毫米,也就是0.6個平方,折算下來,你機柜里面只能裝載一百多公斤的設(shè)備。大家知道一臺滿配硬盤的服務(wù)器,是在65公斤到70公斤之間,也就是說我們一個機柜里面也只能放三臺服務(wù)器。
我們經(jīng)常會奇怪一些機房的機柜里面為什么不滿配?除了剛剛講的荷載的作用因素以外,還有一個就是每個機柜的散熱能力,正常的講一個機柜的用電負荷不能超過8KW,超過8KW可能就要在機柜底部加一個ADU的強制送風(fēng)單元才能保證機柜散熱了。
另外,在機房的設(shè)計過程當中,千萬不要忘了等電位器的部署。為了保證我們機柜的布線清晰和理線能力,建議大家選用80公分寬度的機柜,多出的20公分是左右各安置一個垂直理線架。這樣的垂直理線比60公分寬度的機柜水平理線,能夠更保證機柜里面的線路的清晰和整齊。