WOT架構師系列訪談(8)—— 奇虎360孔德亮
原創【編者按】 51CTO 2014 WOT全球軟件技術峰會將在2014年7月25-26日在北京富力萬麗酒店召開。從本周開始,我們將陸續公布會議內容,并針對即將參會的架構師訪談,以便大家進一步了解會議內容。會議詳細議程見: http://wot.51cto.com/2014/。
本次訪談的對象是孔德亮。他是奇虎 360 WEB平臺部高級技術經理,HULK私有云架構師,主要負責360私有云建設。在本次的WOT軟件技術峰會中,孔德亮將在自動化運維專場分享《奇虎360的自動化運維升級之路》,著重介紹軟件管理、配置管理、集群管理在360的演變過程。敬請期待!
【講師簡歷】
孔德亮,2009年加入360,在一個不到20人的部門,作為唯一的運維工程師維護60多臺服務器,隨著360的發展,開始了內部創業之旅,通過逐步積累形成私有云平臺,吸引更多部門使用,目前平臺已經服務于90%的業務線。
孔德亮(@Randy素年錦時)
以下是訪談實錄:
記者:您認為自動化運維是什么,奇虎360在實施自動化運維的過程中遇到了哪些困難?最終是如何克服的?
孔德亮:我認為實現運維自動化是每個運維人員的基本素養,即使是管理十臺服務器也應該實施自動化。把復雜的、重復的工作變簡單,節省出時間投入到更有意義的技術研究中去。
我經歷了360從十幾個項目到幾百個項目;幾十臺服務器到上萬臺服務器的發展過程,360創業初期都是開發工程師兼職運維工作,各自為戰,不規范、不統一,使自運維自動化遇到很大麻煩。我們從以下幾點進行改進:
- 基于Puppet,將軟件包、配置文件作為管理對象,形成集群配置管理系統。
- 采用開源的salt-stack作為命令系統的底層,上層封裝業務邏輯層和命令調度層,形成命令執行系統。
- 以項目為中心,將域名、負載均衡、主機、配置文件、軟件環境、數據庫實例、通用基礎服務等相關聯,使得關聯關系清晰可見,形成基礎信息庫。
記者:實施自動化運維后,在日志分析和性能監測等方面是不是也有了相對應的改進?主要用了哪些技術來實現?
孔德亮:在日志分析和性能監測方面確實做了很多改進。
1、日志分析方面,我們規約了用戶日志的存儲路徑,日志收集采用Puppet+Scribe模式,通過Puppet確保Scribe的配置的強一致性以及確保服務的可用性,Scribe作為客戶端的日志發送代理,將日志寫入到Storm中,Storm分析后寫入Hbase,這樣不管是計算層還是存儲層的擴張,都能夠實現平滑擴容。
2、性能檢測方面,我們不是單純以服務器、核心軟件緯度進行檢測,而是結合基礎信息庫的關聯關系,將項目中各模塊檢測數據進行匯總,進行綜合評定,很像360安全衛士的體檢功能。
記者:對于奇虎360當前的自動化運維架構而言,您認為還有哪些方面可以優化的?
孔德亮:在剛入行的時候看到一個前輩提到運維閉環體系,通過不斷摸索,結合360環境希望在如下方面不斷優化:
- 容量評估,輔助決策
- 硬件選型,機房建設
- 制定項目的運維架構方案
- 配置管理、包管理、集群管理
- 日常運維事務、故障處理
- 監控與分析
記者:作為HULK私有云平臺架構師而言,談談它對于360以及你個人的意義。
孔德亮:初期因為運維自動化才有了HULK的雛形,時至今日運維自動化已僅僅是HULK的一部分。在我從事運維工作7年之癢的臨界點,我做了件讓自己感覺很酷的事情,每當想到自己的平臺,能讓運維、開發、產品、運營的同事通過友好的交互,點點鼠標完成以前復雜的事情,我就會變得異常興奮,有了好的想法,我就馬上用Axure畫成原型圖和團隊的兄弟論證試錯,不斷改進。
HULK私有云目前主要意義總結為如下幾點:
- 解決運維自動化的問題
- 提供通用基礎服務,避免項目開發過程中重復造輪子
- 將各團隊技術沉淀通過平臺傳播,維護技術共享的氛圍
相信通過我和團隊兄弟的持續努力,專注鉆研,時間會給予我們豐厚的回報。(全文完)
阿里、百度、京東、淘寶、谷歌、Facebook、Tesla都到2014 WOT全球軟件技術峰會了,你還等什么?這些頂級的公司將首次對外公開技術,涵蓋八大主題,共有40+課程,部署實施、運維開發、大數據、Spark、敏捷開發一個都不少。除了第一手的經驗之外,還有未來兩三年的技術趨勢,你會讓自己錯過這樣的技術大會嗎?