專(zhuān)訪云智慧COO潘濤:移動(dòng)互聯(lián)時(shí)代 云監(jiān)控如何助力IT運(yùn)維管理
原創(chuàng)云計(jì)算、移動(dòng)互聯(lián)網(wǎng)的快速發(fā)展正在引發(fā)一場(chǎng)新的變革。隨著IT系統(tǒng)、業(yè)務(wù)環(huán)境的復(fù)雜性增加,傳統(tǒng)的IT運(yùn)維方式已經(jīng)不能適應(yīng)企業(yè)快速發(fā)展的業(yè)務(wù)需求。企業(yè)不再只著眼于硬件開(kāi)發(fā),而是對(duì)應(yīng)用技術(shù)、運(yùn)營(yíng)維護(hù)的需求越來(lái)越高,這給企業(yè)的應(yīng)用性能管理帶來(lái)新的挑戰(zhàn)和機(jī)遇。
不久前,云智慧(北京)科技有限公司COO潘濤與51CTO記者談到,目前國(guó)內(nèi)很多公司IT架構(gòu)與業(yè)務(wù)是割裂的,往往是根據(jù)常規(guī)運(yùn)行經(jīng)驗(yàn)來(lái)制定業(yè)務(wù)計(jì)劃。但這種方式效率極低、誤差很大,可能導(dǎo)致網(wǎng)絡(luò)和服務(wù)器閑置或過(guò)載。下面讓我們一起看看潘老師和他的團(tuán)隊(duì),在為企業(yè)提供這些問(wèn)題的應(yīng)對(duì)方案的過(guò)程中,有著怎樣獨(dú)到的見(jiàn)解。
方向:移動(dòng)互聯(lián)時(shí)代的應(yīng)用性能管理應(yīng)該轉(zhuǎn)向立體化
隨著移動(dòng)互聯(lián)網(wǎng)的發(fā)展,傳統(tǒng)的PC用戶(hù)逐漸轉(zhuǎn)向APP。潘濤告訴記者,雖然現(xiàn)在的APP平臺(tái)已經(jīng)開(kāi)始提供一體化的APP開(kāi)發(fā)環(huán)境,但傳統(tǒng)企業(yè)在這個(gè)過(guò)程中仍然前進(jìn)的比較艱難。
支撐移動(dòng)互聯(lián)網(wǎng)產(chǎn)品和服務(wù)的是軟件和數(shù)據(jù),其背后是所構(gòu)成的代碼。代碼的實(shí)現(xiàn)很復(fù)雜,那么交付和持續(xù)優(yōu)化就變得非常重要。在此之外,傳統(tǒng)行業(yè)的客服跟蹤在移動(dòng)互聯(lián)網(wǎng)會(huì)涉及問(wèn)題反饋、問(wèn)題定位,***確認(rèn)具體錯(cuò)誤和負(fù)責(zé)人解決問(wèn)題。在這種冗長(zhǎng)復(fù)雜的問(wèn)題定位和處理流程下,即使問(wèn)題得以解決,用戶(hù)也很難得到好的體驗(yàn)。
要解決這個(gè)問(wèn)題,只有確保自身IT支撐系統(tǒng)穩(wěn)定高效的運(yùn)行,這就需要強(qiáng)有力的IT運(yùn)維管理體系,來(lái)時(shí)刻監(jiān)控和管理IT環(huán)境各組件的性能質(zhì)量。目前很多時(shí)候,我們都將網(wǎng)站監(jiān)控、服務(wù)性能監(jiān)控、服務(wù)器監(jiān)控、網(wǎng)頁(yè)性能管理等割裂開(kāi)來(lái),但實(shí)際這些組件相互間對(duì)性能影響的是存在關(guān)聯(lián)的。如果對(duì)它們獨(dú)立進(jìn)行監(jiān)控管理,不僅使運(yùn)維人員工作繁多,也很難快速、準(zhǔn)確地對(duì)問(wèn)題發(fā)生的環(huán)節(jié)定位。
為解決這個(gè)問(wèn)題,云智慧的做法是,提供端到端的性能和可用性監(jiān)控的立體化APM方案,來(lái)將這些獨(dú)立的監(jiān)控項(xiàng)目整合在一起并建立關(guān)系,做到實(shí)時(shí)監(jiān)控并快速定位問(wèn)題。這也開(kāi)創(chuàng)了國(guó)內(nèi)市場(chǎng)的先河。
潘濤告訴我們,IT應(yīng)用的最終實(shí)現(xiàn)就是從用戶(hù)端發(fā)起到服務(wù)器最終執(zhí)行的過(guò)程,也就是我們常說(shuō)的end to end。云智慧APM將IT各組件性能的監(jiān)控分為六段,覆蓋從用戶(hù)、內(nèi)容傳輸、防火墻、服務(wù)器、服務(wù)商內(nèi)網(wǎng)數(shù)據(jù)庫(kù)和存儲(chǔ)的每個(gè)環(huán)節(jié),能夠?qū)崿F(xiàn)代碼級(jí)問(wèn)題定位和實(shí)時(shí)數(shù)據(jù)監(jiān)測(cè)分析,對(duì)外部容區(qū)性能的RS并發(fā)率、吞吐率等關(guān)鍵性指標(biāo),提供準(zhǔn)確的監(jiān)控?cái)?shù)據(jù)。不論是移動(dòng)APP還是Web應(yīng)用,都可通過(guò)自身功能構(gòu)建起立體化的企業(yè)風(fēng)險(xiǎn)預(yù)警、解決、優(yōu)化方案。
根源:后端接口問(wèn)題才是改善用戶(hù)體驗(yàn)的關(guān)鍵
越來(lái)越多的應(yīng)用服務(wù)封裝成一系列的API開(kāi)放出去供第三方使用,很多在線服務(wù)應(yīng)用都可以通過(guò)API數(shù)據(jù)接口調(diào)用的方式快速獲取。因此,應(yīng)用接口數(shù)據(jù)服務(wù)性能的差異會(huì)直接關(guān)系到業(yè)務(wù)運(yùn)營(yíng)質(zhì)量。前端的性能問(wèn)題可能影響到某個(gè)平臺(tái)或是部分用戶(hù),而如果服務(wù)端的接口調(diào)用出現(xiàn)問(wèn)題,則會(huì)影響到所有用戶(hù)的服務(wù)質(zhì)量。這是最容易被忽略掉的問(wèn)題,卻也是非常關(guān)鍵的問(wèn)題。
因此,整個(gè)應(yīng)用交付數(shù)據(jù)接口的一致性、完整性和正確性,才是問(wèn)題的根源,只有識(shí)別、區(qū)分、解決和控制了這些問(wèn)題,才能從根本上消除和改善最終用戶(hù)體驗(yàn)質(zhì)量。在解決手機(jī)這一端應(yīng)用問(wèn)題的時(shí)候,云智慧更多的是采用API的方式,基于目前通用的移動(dòng)端和服務(wù)器端的數(shù)據(jù)通訊的標(biāo)準(zhǔn)接進(jìn)API性能的監(jiān)控,快速定位和解決問(wèn)題根源。
- 首先通過(guò)收集和診斷數(shù)據(jù)信息,來(lái)測(cè)量應(yīng)用接口性能是否可用。
- 再針對(duì)響應(yīng)時(shí)間和可用時(shí)長(zhǎng)統(tǒng)計(jì)分析來(lái)進(jìn)行可用率的統(tǒng)計(jì),辨別數(shù)據(jù)請(qǐng)求和返回是否正確,實(shí)現(xiàn)從API和數(shù)據(jù)支撐層來(lái)保障用戶(hù)的數(shù)據(jù)通信運(yùn)行邏輯始終符合預(yù)期結(jié)果。
- 具有強(qiáng)大的數(shù)據(jù)驗(yàn)證引擎,可以支持JSON、XML甚至Text、Response Status驗(yàn)證,實(shí)現(xiàn)跨多平臺(tái)的應(yīng)用。
判斷:基于數(shù)據(jù)流間的邏輯找準(zhǔn)問(wèn)題節(jié)點(diǎn)
現(xiàn)在,運(yùn)營(yíng)人員在監(jiān)管過(guò)程中常常陷入這樣的痛苦:雖然不斷收到告警,但是究竟該處理什么問(wèn)題,運(yùn)營(yíng)人員卻很難準(zhǔn)確和迅速定位。
如果通過(guò)對(duì)數(shù)據(jù)流的邏輯關(guān)系加以分析判斷,來(lái)給系統(tǒng)架構(gòu)中的交換機(jī)、路由器、防火墻等貼上不同層級(jí)的標(biāo)簽,采用分級(jí)的告警機(jī)制,就可以大大減少運(yùn)營(yíng)人員的痛苦了。如果從一級(jí)到十級(jí)劃分,***級(jí)是最前面的防火墻。***級(jí)發(fā)生故障,后面的指標(biāo)肯定都不通了,如果都報(bào)警,運(yùn)營(yíng)人員肯定吃不消。當(dāng)重要級(jí)別高的部分發(fā)出告警了之后,底下的告警我們就不用去看了,只要去做它的維護(hù)就行了。分層的告警機(jī)制可以解決現(xiàn)在大家收到的警告太多,卻對(duì)怎么解決問(wèn)題,解決哪里的問(wèn)題無(wú)從下手。
潘濤告訴我們,云智慧在做到分級(jí)的故障分發(fā)之外,還可以通過(guò)對(duì)高凝指標(biāo)數(shù)據(jù)之間流邏輯關(guān)系的分析,來(lái)提供更加智通的監(jiān)控和告警方案。用戶(hù)可以根據(jù)自己的情況和需求去編制告警策略,根據(jù)它的邏輯去編制,這樣一旦出現(xiàn)故障和緊急情況這種方式很容易幫他去找到問(wèn)題的節(jié)點(diǎn),而不是像現(xiàn)在一堆告警卻不知道到底處理哪個(gè)。而且,根據(jù)故障的緊迫和重要程度,也可以選擇通知不同的對(duì)象,是先通知我們的運(yùn)維人員,還是先通知網(wǎng)站的CTO。都可以在定制策略中通過(guò)設(shè)置告警閾值,來(lái)進(jìn)行靈活的自定義告警設(shè)置,來(lái)幫助用戶(hù)更加及時(shí)的捕捉突發(fā)變化,進(jìn)行性能調(diào)優(yōu)。
#p#
探索:利用大數(shù)據(jù)技術(shù)實(shí)現(xiàn)對(duì)問(wèn)題的預(yù)見(jiàn)
大數(shù)據(jù)技術(shù)的迅速發(fā)展,對(duì)性能測(cè)試實(shí)時(shí)性和持續(xù)性問(wèn)題的分析和發(fā)現(xiàn)帶來(lái)很大的幫助。目前,云智慧也在基于大數(shù)據(jù)技術(shù),不斷完善對(duì)監(jiān)測(cè)故障預(yù)見(jiàn)性課題的研究。潘濤告訴我們,兩個(gè)端所有的新聞數(shù)據(jù),包含故障的數(shù)據(jù),和運(yùn)行正常的數(shù)據(jù)。如何挖掘這些數(shù)據(jù)的價(jià)值,來(lái)進(jìn)行預(yù)測(cè)的體驗(yàn),是非常重要的。
這里面有很多預(yù)測(cè)算法,比如說(shuō)根據(jù)某個(gè)時(shí)點(diǎn)的流量,將用戶(hù)設(shè)備的儲(chǔ)存性能,物理性能和數(shù)據(jù)庫(kù)的性能中的數(shù)據(jù)提取出來(lái),來(lái)預(yù)見(jiàn)優(yōu)化方案,假設(shè)再有一個(gè)分點(diǎn)的時(shí)候機(jī)器可能應(yīng)該加什么,是在前面繼續(xù)做LB的均衡負(fù)載呢,還是說(shuō)應(yīng)該提升你的儲(chǔ)存的硬件的配置或者物理級(jí)的配置,這實(shí)際是在一個(gè)大的模型里面。只有通過(guò)數(shù)據(jù)的大量積累,而且歷史曾經(jīng)出現(xiàn)過(guò)的這種問(wèn)題多的時(shí)候,這個(gè)模型才會(huì)更加完整,因?yàn)檫@些數(shù)據(jù)本身一定是有相關(guān)性的,但又未必必然。有時(shí)你的流量很大,服務(wù)負(fù)載很低;但是有時(shí)候你的流量很小,負(fù)載卻很大,這里面的問(wèn)題到底在哪兒呢?硬件還是架構(gòu)本身,還是代碼寫(xiě)得不好?到底是怎樣的邏輯關(guān)系在起作用,云智慧現(xiàn)在還在探索預(yù)測(cè)算法,也是希望大家共同貢獻(xiàn)智慧的部分。
有待完善:國(guó)內(nèi)云監(jiān)控市場(chǎng)發(fā)展現(xiàn)狀
監(jiān)控不是什么新鮮事物了,IT監(jiān)控在有了Windows這種軟件以后就開(kāi)始存在。而在潘濤的眼中,這個(gè)發(fā)展多年的市場(chǎng)里還有兩個(gè)問(wèn)題,值得大家探討。
***個(gè)就是立體化的監(jiān)控。現(xiàn)在大多數(shù)產(chǎn)品往往關(guān)注的還是在服務(wù)器端,缺乏的立體化子監(jiān)控的提供方案。云智慧開(kāi)創(chuàng)的六段的立體化監(jiān)控對(duì)這塊的發(fā)展提供了很好的價(jià)值。
第二個(gè)就是監(jiān)控意識(shí)的提高。縱觀全國(guó)大概共有300多萬(wàn)個(gè)網(wǎng)站,隨著云智慧服務(wù)的不斷加深,目前已經(jīng)對(duì)國(guó)內(nèi)80多家網(wǎng)站提供了基于SaaS的APM方案。而在國(guó)外基本上80%的網(wǎng)站都有監(jiān)控服務(wù)區(qū),我們雖然說(shuō)已經(jīng)有了十幾年的歷史監(jiān)控,但是還是不夠成熟。這個(gè)市場(chǎng)是非常大的。對(duì)于APM的發(fā)展,它的預(yù)見(jiàn)性是最重要的,這個(gè)預(yù)見(jiàn)性很可怕又很神奇,有些東西用戶(hù)可以一起參與。因?yàn)槭占降臉颖驹蕉啵ㄟ^(guò)實(shí)時(shí)數(shù)據(jù)構(gòu)建起來(lái)的預(yù)見(jiàn)模型和算法就更完善。所以我們國(guó)內(nèi)監(jiān)控市場(chǎng)的發(fā)展,首先要基于大家監(jiān)控意識(shí)的提高。
趨勢(shì):PaaS發(fā)展帶來(lái)新的市場(chǎng)潛力
APM概念真正意義的提出是在2008年,當(dāng)時(shí),國(guó)內(nèi)企業(yè)在這一領(lǐng)域的涉足還很少,少數(shù)幾個(gè)傳統(tǒng)的IT巨頭盡管擁有類(lèi)似的服務(wù),但并不能滿(mǎn)足中小企業(yè)的需要,而且由于當(dāng)時(shí)還處在套裝軟件階段,SaaS的理念才剛剛興起,基于SaaS的APM市場(chǎng)更是一片空白。
據(jù)潘濤介紹,云智慧提供的服務(wù)已經(jīng)構(gòu)建在SaaS之上,是在IaaS平臺(tái)上客戶(hù)端的一個(gè)SaaS服務(wù)。從今年的發(fā)展趨勢(shì)來(lái)看,PaaS發(fā)展速度更為迅猛。因?yàn)镻aaS的好處在于,它的體系是成套的,能夠給創(chuàng)業(yè)者提供一體化的服務(wù),尤其是在手機(jī)APP的應(yīng)用和游戲的應(yīng)用上面是非常多的。
做為云智慧來(lái)說(shuō),提供的服務(wù)中本身既有公有的IaaS的部分,也提供功能性自建的服務(wù),實(shí)際是一個(gè)混合的概念,這也是目前國(guó)內(nèi)的主流態(tài)勢(shì)。未來(lái),云智慧雖然不會(huì)將服務(wù)遷移到PaaS上去,但是會(huì)有很多標(biāo)準(zhǔn)的開(kāi)放的接口給大家提供,大家通過(guò)這些開(kāi)放的標(biāo)準(zhǔn)的API可以集成很多的服務(wù)。PaaS平臺(tái)的開(kāi)發(fā)也會(huì)調(diào)用到這個(gè)接口。所以PaaS層的發(fā)展對(duì)于云監(jiān)控服務(wù)是會(huì)起到推動(dòng)作用的。
歸根結(jié)底,大家首先關(guān)注的還是服務(wù)本身的能力以及對(duì)客戶(hù)的可用性,另外很重要的就是用戶(hù)的體驗(yàn)。在用戶(hù)的體驗(yàn)里有幾個(gè)緯度的指標(biāo),比如響應(yīng)的時(shí)間,首頁(yè)加載的時(shí)間,操作流程的時(shí)間,這都是很重要的客戶(hù)體驗(yàn)的指標(biāo)。“其實(shí)大家會(huì)越來(lái)越往往兩端走,一端就是用戶(hù)這個(gè)體驗(yàn)這端,還有一端就是你整個(gè)運(yùn)行的這一端,這兩端是很重要的。”