阿里巴巴程超:監控系統的終極發展是實現智能化
原創【51CTO.com原創稿件】七年一劍,華麗蛻變。自2012年起連續6年15場峰會,凝聚大量技術專家,博觀而約取,厚積而薄發。2018WOT全球軟件與運維技術峰會揚帆起航,圍繞12大核心熱點,匯聚海內外60位一線專家,打造高端技術盛宴!在5月18-19日的2018WOT全球軟件與運維技術峰會上,阿里巴巴高級技術專家程超先生將為廣大技術同仁帶來題為《構建超大規模的秒級監控平臺》的精彩演講。
程超先生擁有近十年的運維系統開發經驗,現任職于阿里巴巴基礎設施事業群,負責阿里巴巴集團的監控平臺建設。主導構建了***代的阿里巴巴CMDB系統。近幾年專注在監控領域,現在負責的監控平臺覆蓋了阿里巴巴的所有事業群。具有構建大規范,分布式監控系統的研發經驗。
阿里巴巴高級技術專家程超
阿里巴巴三代監控系統的演進
在去年的雙11全球購物狂歡節中,天貓全天交易額1682億元,交易峰值32.5萬/秒,承載這些秒級數據監控的是阿里巴巴第三代監控系統。回顧數據監控平臺的演進歷程,程超先生給予了概括性的描述:***代監控系統主要是基于開源系統搭建的,很快就碰到了穩定性和規模化的問題;第二代監控系統解決了穩定性和規模化應用的問題,但范圍主要定位在系統,應用層面的監控,缺少鏈路,業務等關鍵點的監控;第三代監控系統主要面向dev Ops的監控系統,重點關注智能化,標準化,業務全鏈路等全新的業務要求。
穩定性是考察監控系統最重要的指標
程超先生坦言,監控系統最重要的基礎就是自身的穩定性。團隊在不斷的實踐和試錯中改進,形成良性循環。要確保監控系統的穩定性,就需要建立一個自身監控+演習常態化的反饋機制。自身監控的問題解決相對簡單,阿里巴巴早期時用開源的監控系統來監控自己的監控系統,后來逐漸衍變為自己監控自己的系統。這樣的優勢在于,自己就是用戶,能不斷的在使用過程中去優化產品體驗。
所謂的演習常態,就是阿里巴巴自身特有的監控機制,通常以月為單位,定期演習各個模塊在故障中(比較機房斷網,日志量突增,CMDB數據同步異常)的表現。除此之外,還要在線上跑實時回歸,不斷的去校驗數據,保證每次變更后不會有邏輯上的錯誤。
監控系統的三個發展趨勢
作為監控平臺開發領域的專家,程超先生基于自己的工作領域,對監控平臺的發展趨勢有著深入的理解。他認為,在阿里巴巴集團這個大規模的場景中,監控系統的發展會有幾個方向:其一是標準化,需要預先定義標準化的指標,模板。實現標準化的目標是降低基礎監控的門檻,為智能化提供數據基礎。其次是一體化,包括橫向、縱向的打通監控數據,以業務為核心來組織所有緯度的數據,一體化的目標是展示業務全貌,縮短故障定位的時間。***是智能化,這個方向能探索的可能性是最多的,其目標是使監控系統成為運維大腦,最終實現無人值守。
想要了解更多?5月18-19日,北京粵財JW萬豪酒店,全球最值得關注的IT技術盛宴與您不見不散。2018WOT全球軟件與運維技術峰會一定是您發現全新思路、挖掘***思想、拓展人脈的重要平臺。
目前我們的各項票種已全面發售。需要提醒您的是,購票越早,折扣越大!與KOL零距離交流,呈現不一樣的"英雄盛宴"!
點擊官網了解詳情:wot.51cto.com
【51CTO原創稿件,合作站點轉載請注明原文作者和出處為51CTO.com】