云上資源編排的思與悟
一、背景
2018年7月9日,我通過校招加入阿里云,開啟了職業(yè)生涯。有幸參與了資源編排服務(wù)從1.0到2.0的全部設(shè)計(jì)、開發(fā)、測試工作,這對(duì)我了解云上服務(wù)起到了啟蒙作用。當(dāng)然,本文源于我在設(shè)計(jì)開發(fā)過程中的思考和感悟。
在傳統(tǒng)軟件架構(gòu)下,撇開業(yè)務(wù)層代碼,都需要部署計(jì)算節(jié)點(diǎn)、存儲(chǔ)資源、網(wǎng)絡(luò)資源,然后安裝、配置操作系統(tǒng)等。而云服務(wù)本質(zhì)上是實(shí)現(xiàn) IT 架構(gòu)軟件化和 IT 平臺(tái)智能化,通過軟件的形式定義這些硬件資源,充分抽象并封裝其操作接口,任何資源均可直接調(diào)用相關(guān) API 完成創(chuàng)建、刪除、修改、查詢等操作。
有賴于阿里云對(duì)資源的充分抽象以及高度統(tǒng)一的OpenAPI,這讓基于阿里云構(gòu)建一套完整的 IT 架構(gòu)并對(duì)各資源進(jìn)行生命周期管理成為可能。客戶按需求提供資源模板,編排服務(wù)將會(huì)根據(jù)編排邏輯自動(dòng)完成所有資源的創(chuàng)建和配置。
二、架構(gòu)設(shè)計(jì)
伴隨著業(yè)務(wù)場景的增加和業(yè)務(wù)規(guī)模的指數(shù)級(jí)增長,原有架構(gòu)逐漸暴露出租戶隔離粒度大、并發(fā)量小、服務(wù)依賴嚴(yán)重等問題,對(duì)于服務(wù)架構(gòu)的重構(gòu)迫在眉睫,其中最重要三個(gè)方面就是拓?fù)湓O(shè)計(jì)、并發(fā)模型設(shè)計(jì)和工作流設(shè)計(jì)。
1、架構(gòu)設(shè)計(jì)
拓?fù)湓O(shè)計(jì)的核心問題是明確產(chǎn)品形態(tài)和用戶需求、解決數(shù)據(jù)通路問題。站在產(chǎn)品角度考慮的點(diǎn)包括:
- 資源所有者(服務(wù)資源[計(jì)費(fèi)單元]、用戶資源)
- 資源訪問權(quán)限(隔離、授權(quán))。站在用戶角度需要考慮的點(diǎn)包括: (1)服務(wù)類型(WebService型-需公網(wǎng)訪問、數(shù)據(jù)計(jì)算型-阿里云內(nèi)網(wǎng)訪問);(2)數(shù)據(jù)打通(源數(shù)據(jù)、目的數(shù)據(jù))。
資源所有者分為服務(wù)賬號(hào)和用戶賬號(hào)。資源屬于服務(wù)賬號(hào)的模式又叫做大賬號(hào)模式,該模式優(yōu)點(diǎn)有: 1. 管控能力更強(qiáng);2.計(jì)費(fèi)更容易。但易成為瓶頸的點(diǎn)包括:1.資源配額;2. 依賴服務(wù)的接口流控。很顯然,全量資源托管是不現(xiàn)實(shí)的,比如VPC、VSwitch、SLB、SecurityGroup等資源客戶往往需要和其他系統(tǒng)打通,這部分資源通常是用戶提供的,而ECS實(shí)例則比較適合通過大賬號(hào)創(chuàng)建。
多租戶隔離在大賬號(hào)模式下是非常重要的問題。既要保證某一用戶的資源彼此可以相互訪問,又要保證多個(gè)客戶之間不能有越界行為。一個(gè)常見的例子是,所有用戶的ECS均開在同一個(gè)服務(wù)VPC內(nèi),同一個(gè)VPC內(nèi)實(shí)例默認(rèn)是可以相互訪問的,存在安全風(fēng)險(xiǎn),因此在系統(tǒng)設(shè)計(jì)初期就需要考慮到相關(guān)問題的應(yīng)對(duì)方案。
對(duì)于上述問題我們的設(shè)計(jì)是,ECS實(shí)例通過大賬號(hào)模式創(chuàng)建在服務(wù)賬號(hào)下的資源VPC內(nèi), 通過企業(yè)級(jí)安全組實(shí)現(xiàn)不同用戶實(shí)例的訪問隔離。涉及用戶數(shù)據(jù)(NAS、RDS等)訪問的操作時(shí),需要用戶提供這些訪問點(diǎn)所在的VPC和Vswitch,通過在實(shí)例上創(chuàng)建ENI并綁定到用戶VPC上,實(shí)現(xiàn)對(duì)用戶數(shù)據(jù)的訪問。具體數(shù)據(jù)通路如圖所示。
常見的服務(wù)架構(gòu)
2、并發(fā)模型設(shè)計(jì)
模型設(shè)計(jì)的核心是解決高并發(fā)(High Concurrency)、高性能(High Performance)、高可用(High Availability)問題。
資源編排的高并發(fā)主要指標(biāo)為QPS(Queries-per-second),對(duì)于動(dòng)輒以分鐘為單位的資源編排邏輯而言,同步模型顯然不能支撐較高并發(fā)請(qǐng)求。資源編排的高性能主要指標(biāo)為TPS(Transactions-per-second),在根據(jù)用戶資源模板編排資源的過程中,資源彼此間存在一定的依賴關(guān)系,線性地創(chuàng)建資源會(huì)導(dǎo)致大量時(shí)間處于忙等狀態(tài),服務(wù)吞吐嚴(yán)重受限。資源編排的高可用主要指標(biāo)為SLA(Service Level Agreement),在HA基礎(chǔ)上若能解耦CRUD對(duì)內(nèi)部服務(wù)的依賴,在服務(wù)升級(jí)或發(fā)生異常時(shí)就可以減小對(duì)SLA的影響。
對(duì)于上述問題我們的設(shè)計(jì)是,在服務(wù)前端僅進(jìn)行簡單的參數(shù)檢查后立即將用戶模板寫入持久化層,寫入成功后立即返回資源ID,已持久化的資源模板將被視為未處理完成的任務(wù)等待調(diào)度處理。隨后,我們周期性掃表探測任務(wù),有序創(chuàng)建資源并同步其狀態(tài),如遇資源狀態(tài)不滿足向下推進(jìn)的條件則立即返回,經(jīng)過多輪次處理,最終達(dá)到期望的狀態(tài), 一個(gè)簡化的分布式模型如圖所示。
分布式并發(fā)模型
為了避免任務(wù)較多情況下的鎖爭搶問題,我們設(shè)計(jì)一套任務(wù)發(fā)現(xiàn) + 租約續(xù)租的機(jī)制,一旦集群從數(shù)據(jù)庫池子中被某個(gè)節(jié)點(diǎn)爭搶到之后會(huì)被添加到該節(jié)點(diǎn)的調(diào)度池中并設(shè)定租約, 租約管理系統(tǒng)會(huì)對(duì)即將到期的租約進(jìn)行續(xù)租(加鎖)。這樣可以確保一個(gè)集群在下一次服務(wù)被拉起前一直只被某個(gè)節(jié)點(diǎn)處理,如果服務(wù)重啟,則任務(wù)會(huì)因超時(shí)自動(dòng)解鎖并被其他節(jié)點(diǎn)捕獲。
3、工作流設(shè)計(jì)
流程設(shè)計(jì)的核心是解決依賴問題。依賴問題包含兩種情況:前序資源的狀態(tài)不符合預(yù)期和資源本身狀態(tài)不符合預(yù)期。我們假設(shè)各資源的狀態(tài)只有可用和不可用,并且假定可用的資源不會(huì)跳轉(zhuǎn)到不可用狀態(tài),最簡單的情況就是一個(gè)線性任務(wù),如圖所示。考慮到部分子資源的編排工作可以并行,編排過程就可以看作是一個(gè)有向無環(huán)圖( DAG, Direct Acyclic Graph)任務(wù)。
資源線性編排結(jié)構(gòu)
世界不只是非黑即白,資源的狀態(tài)也是一樣,有向無環(huán)成為了美好的愿望,有向有環(huán)才符合真實(shí)世界的運(yùn)行規(guī)律。對(duì)于這種情況,簡單的工作流很難覆蓋復(fù)雜的流程,只有進(jìn)一步對(duì)工作流抽象,設(shè)計(jì)符合要求的有限狀態(tài)機(jī)(FSM, Finite State Machine)。有限狀態(tài)機(jī)說起來過于抽象,但ECS實(shí)例的狀態(tài)轉(zhuǎn)移大家都接觸過,下圖就是ECS實(shí)例的狀態(tài)轉(zhuǎn)移模型。
ECS實(shí)例狀態(tài)轉(zhuǎn)移模型
結(jié)合實(shí)際業(yè)務(wù)需求,我設(shè)計(jì)了如下圖所示的集群狀態(tài)轉(zhuǎn)移模型。該模型簡化了狀態(tài)轉(zhuǎn)移邏輯,有且僅有Running這一穩(wěn)態(tài),其他三種狀態(tài)(Rolling、Deleting、Error)均為中間態(tài)。處于中間態(tài)的資源會(huì)根據(jù)當(dāng)前資源狀態(tài)嘗試向著穩(wěn)態(tài)越遷,每次狀態(tài)越遷過程均按照一定的Workflow執(zhí)行相關(guān)操作。
集群狀態(tài)轉(zhuǎn)移模型
從這時(shí)起,服務(wù)的整體架構(gòu)和設(shè)計(jì)思路基本確立。
三、核心競爭力
資源(ECS)短缺問題日益嚴(yán)峻,加上粗粒度的擴(kuò)縮容、升降配功能已不能滿足客戶的需求,資源池化(Resource Pooling)、自動(dòng)伸縮(Auto Scaling)、滾動(dòng)升級(jí)(Rolling Update)被提上日程并成為提升產(chǎn)品競爭力的一大利器。
1、資源池化
資源池化簡單來說就是提前預(yù)留某些資源以備不時(shí)之需,很顯然,資源池化的前提一定是大賬號(hào)模式。對(duì)開發(fā)者而言,線程池不是陌生的詞匯,但資源池卻相對(duì)比較遙遠(yuǎn),實(shí)際上,資源池解決的就是資源創(chuàng)建、刪除時(shí)間開銷很大以及庫存不可控的問題。當(dāng)然, 池化資源另一個(gè)假設(shè)是,被池化的資源會(huì)被頻繁使用且可被回收利用(規(guī)格、配置相對(duì)單一)。
由于計(jì)算資源創(chuàng)建周期較長且經(jīng)常被資源庫存等問題困擾,加之產(chǎn)品期望在業(yè)務(wù)上有所拓展,因此我們設(shè)計(jì)了如圖所示的資源池化模型并對(duì)多種計(jì)算資源進(jìn)行抽象,提供了一套可以應(yīng)對(duì)異構(gòu)資源的處理邏輯。
資源池化模型
資源池化可以大大縮短資源創(chuàng)建等待時(shí)間,解決庫存不足問題,另外,它可以幫上層使用到資源的服務(wù)解耦復(fù)雜的狀態(tài)轉(zhuǎn)移邏輯,對(duì)外提供的資源狀態(tài)可以精簡到Available和Unknown兩種,所得即可用。但不得不考慮的問題包括:
ECS實(shí)例的創(chuàng)建是否受用戶資源的限制(如用戶提供VSwitch會(huì)限制ECS可用區(qū))。
如何解決資源閑置問題(成本問題)。
對(duì)于第一個(gè)問題,目前受制于VSwitch由客戶提供,暫時(shí)還沒有比較好的解法,只能盡量要求客戶提供的VSwitch覆蓋更多的可用區(qū),如果VSwitch屬于服務(wù)賬號(hào),就可以比較好規(guī)劃資源池建在哪個(gè)AZ。對(duì)于第二個(gè)問題,資源池本身也是一種資源,成本控制我們可以從接下來提到的自動(dòng)伸縮上得到答案。
2、自動(dòng)伸縮
云計(jì)算最大的吸引力就是降低成本,對(duì)資源而言,最大的好處就是可以按量付費(fèi)。實(shí)際上,幾乎所有線上服務(wù)都有其峰谷,而自動(dòng)伸縮解決的正是成本控制問題。它在客戶業(yè)務(wù)增長時(shí)增加ECS實(shí)例以保證算力,業(yè)務(wù)下降時(shí)減少ECS實(shí)例以節(jié)約成本,如圖所示。
自動(dòng)伸縮示意圖
我對(duì)自動(dòng)伸縮的設(shè)計(jì)思路是,先對(duì)時(shí)間分片觸發(fā)定時(shí)任務(wù),再對(duì)時(shí)間段內(nèi)配置伸縮策略。伸縮策略也包含兩部分,一部分是最大ECS規(guī)模和最小ECS規(guī)模,它指定了該時(shí)間段內(nèi)集群規(guī)模的浮動(dòng)范圍,另一部分是監(jiān)控指標(biāo)、耐受度和步進(jìn)規(guī)則,它提供了伸縮依據(jù)和標(biāo)準(zhǔn)。這里監(jiān)控指標(biāo)是比較有意思的點(diǎn),除了采集云監(jiān)控的CPU、Memory利用率外,還可以通過對(duì)ECS空閑、忙碌狀態(tài)的標(biāo)記,計(jì)算出工作節(jié)點(diǎn)占比率,一旦超出耐受范圍,即可按步進(jìn)大小觸發(fā)一次擴(kuò)容或縮容事件。
3、滾動(dòng)升級(jí)
客戶服務(wù)架構(gòu)的修改往往涉及復(fù)雜的重建邏輯,在重建過程中不可避免的會(huì)影響服務(wù)質(zhì)量,如何優(yōu)雅平滑地做升降配成為了諸多客戶的剛需。滾動(dòng)升級(jí)正是解決不停服、可調(diào)控的升降配問題的。
滾動(dòng)升級(jí)示意圖
一次簡化的滾動(dòng)升級(jí)過程如上圖所示。滾動(dòng)升級(jí)的核心是對(duì)升級(jí)進(jìn)行灰度,按照一定比例開出Standby資源直到它們可以順利服役,隨后再下線掉相應(yīng)臺(tái)數(shù)的資源。經(jīng)過多次滾動(dòng)之后,使其全部資源更新到最新預(yù)期,通過冗余實(shí)現(xiàn)升級(jí)不停服。
四、可觀測性
服務(wù)可觀測性將來必將成為云服務(wù)的核心競爭力之一,它包括面向用戶的可觀測行和面向開發(fā)者的可觀測性兩部分。時(shí)至今日,仍然記得半夜被客戶電話支配的恐懼,仍記得對(duì)著海量日志調(diào)查問題的不知所措,仍記得客戶一通抱怨后毫無頭緒的茫然。
1、面向用戶
是的,我希望用戶在向我們反饋遇到的問題時(shí),提供的信息是有效的,甚至是能直接指向病灶的。對(duì)用戶而言,能夠直接通過API獲取資源編排所處的階段以及各階段對(duì)應(yīng)資源的狀態(tài)信息,確實(shí)能夠極大地提高用戶體驗(yàn)。針對(duì)這個(gè)問題,我分析了系統(tǒng)處理流程, 設(shè)計(jì)了面向“階段 - 事件 - 狀態(tài)”的運(yùn)行狀態(tài)收集器。
具體包括:對(duì)的業(yè)務(wù)流程進(jìn)行拆分得到多個(gè)處理階段,對(duì)每個(gè)階段依賴的事件(資源及其狀態(tài))進(jìn)行整理,對(duì)每個(gè)事件可能出現(xiàn)的狀態(tài)做結(jié)構(gòu)化定義(尤其是異常狀態(tài))。一個(gè)典型的樣例如代碼樣例所示。
- [ { "Condition":"Launched", "Status":"True", "LastTransitionTime":"2021-06-17T18:08:30.559586077+08:00", "LastProbeTime":"2021-06-18T14:35:30.574196182+08:00" }, { "Condition":"Authenticated", "Status":"True", "LastTransitionTime":"2021-06-17T18:08:30.941994575+08:00", "LastProbeTime":"2021-06-18T14:35:30.592222594+08:00" }, { "Condition":"Timed", "Status":"True", "LastTransitionTime":"2021-06-17T18:08:30.944626198+08:00", "LastProbeTime":"2021-06-18T14:35:30.599628262+08:00" }, { "Condition":"Tracked", "Status":"True", "LastTransitionTime":"2021-06-17T18:08:30.947530873+08:00", "LastProbeTime":"2021-06-18T14:35:30.608807786+08:00" }, { "Condition":"Allocated", "Status":"True", "LastTransitionTime":"2021-06-17T18:08:30.952310811+08:00", "LastProbeTime":"2021-06-18T14:35:30.618390582+08:00" }, { "Condition":"Managed", "Status":"True", "LastTransitionTime":"2021-06-18T10:09:00.611588546+08:00", "LastProbeTime":"2021-06-18T14:35:30.627946404+08:00" }, { "Condition":"Scaled", "Status":"False", "LastTransitionTime":"2021-06-18T10:09:00.7172905+08:00", "LastProbeTime":"2021-06-18T14:35:30.74967891+08:00", "Errors":[ { "Action":"ScaleCluster", "Code":"SystemError", "Message":"cls-13LJYthRjnrdOYMBug0I54kpXum : destroy worker failed", "Repeat":534 } ] }]
代碼樣例:集群維度狀態(tài)收集
2、面向開發(fā)者
對(duì)開發(fā)者而言,可觀測性包含監(jiān)控和日志兩部分,監(jiān)控可以幫助開發(fā)者查看系統(tǒng)的運(yùn)行狀態(tài),而日志可以協(xié)助問題的排查和診斷。產(chǎn)品從基礎(chǔ)設(shè)施、容器服務(wù)、服務(wù)本身、客戶業(yè)務(wù)四個(gè)維度進(jìn)行了監(jiān)控和數(shù)據(jù)聚合,具體用到的組件如圖所示。
各級(jí)別監(jiān)控、告警體系
基礎(chǔ)設(shè)施主要依托云監(jiān)控(Cloud Monitor)追蹤C(jī)PU、Memory等使用率;容器服務(wù)主要依賴普羅米修斯(Prometheus)監(jiān)控部署服務(wù)的K8S集群情況。對(duì)服務(wù)本身,我們在各個(gè)運(yùn)行階段都接入了Trace用于故障定位;對(duì)最難處理的客戶業(yè)務(wù)部分,我們按通過SLS收集客戶使用情況,通過UserId和ProjectId進(jìn)行數(shù)據(jù)聚合,并整理出普羅米修斯的DashBoard,可以快速分析某個(gè)用戶的使用情況。
除監(jiān)控外,已接入云監(jiān)控告警、普羅米修斯告警和SLS告警,系統(tǒng)、業(yè)務(wù)分別設(shè)置不同告警優(yōu)先級(jí),并整理了豐富的應(yīng)急響應(yīng)方案。
五、其他
從懵懂到能夠獨(dú)立負(fù)責(zé)資源編排服務(wù)的設(shè)計(jì)、開發(fā)工作,阿里云提供了寶貴的學(xué)習(xí)平臺(tái)。