11個高可用設計實戰技巧,輕松應對大廠面試
大家好,我是Tom哥。
大型互聯網架構設計,講究一個四件套組合拳玩法,高并發、高性能、高可用、高擴展。
如果能掌握這四個方面,應付大廠面試以及日常工作中的架構方案設計基本不是什么難題。
今天,Tom哥就帶大家學習下高可用都有哪些設計技巧?
圖片
一、系統拆分
有句古話 "牽一發而動全身"。
面對一個龐然大物,如果沒有一個合理的分工分層。任何一個小小失誤都會被無限放大,釀成巨大災難。
萬物相通,回到我們的軟件架構。
早前的系統都是單體系統,比如電商業務,會員、商品、訂單、物流、營銷等模塊都堆積在一個系統。每到節假日搞個大促活動,系統擴容時,一擴全擴,一掛全掛。只要一個接口出了問題,整個系統都不可用。
“雞蛋不能放在一個籃子里”,這種連帶風險換誰都承受不起。
因此,系統拆分 成了更多人的選擇。
慢慢的就有了我們現在看到的微服務架構,將一個復雜的業務域按DDD的思想拆分成若干子系統,每個子系統負責專屬的業務功能,做好垂直化建設,各個子系統之間做好邊界隔離,降低風險蔓延。
二、解耦
軟件開發有個重要原則“高內聚、低耦合”。
小到接口抽象、MVC 分層,大到 SOLID 原則、23種設計模式。核心都是降低不同模塊間的耦合度,避免一處錯誤改動影響到整個系統。
就以開閉原則為例,對擴展是開放的,對修改是關閉的。隨著業務功能迭代,如何做到每次改動不對原來的舊代碼產生影響。
Spring 框架給我們提供了一個很好的思路,里面有個重要設計 AOP ,全稱(Aspect Oriented Programming),面向切面編程。
核心就是采用動態代理技術,通過對字節碼進行增強,在方法調用的時候進行攔截,以便于在方法調用前后,增加我們需要的額外處理邏輯。
當然還有一個重要思路就是事件機制,通過發布訂閱模式,新增的需求,只需要訂閱對應的事件通知,針對性消費即可。不會對原來的代碼侵入性修改,是不是會好很多。
三、異步
同步指一個進程在執行請求的時候,若該請求需要一段時間才能返回信息,那么這個進程將會一直等待下去,直到收到返回信息才繼續執行下去。
效率會大大降低,聰明的人想到了 異步 方式。
如果是非實時響應的動作可以采用異步來完成,線程不需要一直等待,而是繼續執行后面的邏輯。
如:線程池(ThreadPoolExecutor)、消息隊列 等都是這個原理
圖片
比如一個用戶在淘寶下了一筆購物訂單,關心的是訂單是否創建成功,能否進行后續的付款流程
至于其他業務動作,如短信通知、郵件通知、生成訂單快照、創建超時任務記錄,這些非核心動作用戶并不是特別關心。
我們可以采用消息隊列的發布/訂閱 機制,數據庫插入訂單記錄后,發布一條消息到 MQ,然后就可以告知用戶下單成功。
其他事情,由不同的 Task 任務訂閱消息異步處理,彼此間互不干擾。
四、重試
重試主要是體現在遠程的RPC調用,受 網絡抖動、線程資源阻塞 等因素影響,請求無法及時響應。
為了提升用戶體驗,調用方可以通過 重試 方式再次發送請求,嘗試獲取結果。比過:瀏覽器的 F5 刷新機制就是類似道理。
接口重試是一把雙刃劍,雖然客戶端收到了響應超時結果,但是我們無法確定,服務端是否已經執行完成。如果盲目地重試,可能會帶來嚴重后果。比如:銀行轉賬。
重試通常跟冪等組合使用,如果一個接口支持了 冪等,那你就可以隨便重試
關于的 冪等 的解決方案
- 插入前先執行查詢操作,看是否存在,再決定是否插入
- 增加唯一索引
- 建防重表
- 引入狀態機,比如付款后,訂單狀態調整為已付款,SQL 更新記錄前 增加條件判斷
- 增加分布式鎖
- 采用 Token 機制,服務端增加 token 校驗,只有第一次請求是合法的
五、補償
我們知道不是所有的請求都能收到成功響應。除了上面的 重試 機制外,我們還可以采用補償玩法,實現數據最終一致性。
業務補償根據處理的方向分為兩部分:
- 正向。多個操作構成一個分布式事務,如果部分成功、部分失敗,我們會通過最大努力機制將失敗的任務推進到成功狀態
- 逆向。同上道理,我們也可以采用反向操作,將部分成功任務恢復到初始狀態
注意:補償操作有個重要前提,業務能接受短時間內的數據不一致。
補償有很多的實現方式:
1、本地建表方式,存儲相關數據,然后通過定時任務掃描提取,并借助反射機制觸發執行
2、也可以采用簡單的消息中間件,構建業務消息體,由下游的的消費任務執行。如果失敗,可以借助MQ的重試機制,多次重試
六、備份
任何服務器都有宕機的可能性,一旦存儲了數據,帶上狀態,如果發生故障,數據丟失,后果是我們無法承受的。
所以,容災備份也就變成了互聯網的基本能力。
那如何備份,不同的框架有不用的玩法。我們以 Redis 為例:
圖片
Redis 借助 RDB 和 AOF 來實現兩臺服務器間的數據同步
- RDB,全量數據同步
- AOF,增量數據同步,回放日志
一旦主節點掛了怎么辦?
這里引入哨兵機制。哨兵機制可以實現主從庫的自動切換,有效解決了故障轉移。整個過程分為三個階段:監控、選主、通知。
除了 Redis 中間件外,其他常見的 MySQL、Kafka 消息中間件、HBase 、ES 等 ,凡是涉及到數據存儲的介質,都有備份機制,一旦主節點掛了,會啟用備份節點,保證數據不會丟失。
七、多活策略
雖然有了上面的備份策略,那是不是就萬事大吉呢?
在一些極端情況,如:機房斷電、機房火災、地震、山洪等不可抗力因素,所有的服務器都可能出現故障,無法對外提供服務,導致整體業務癱瘓。
為了降低風險,保證服務的24小時可用性,我們會采用 多活策略。
常見的多活方案有,同城雙活、兩地三中心、三地五中心、異地雙活、異地多活
不同的方案技術要求、建設成本、運維成本也都不一樣。
多活的技術方案復雜,需要考慮的問題點也非常多,這里只是拋磚引玉就不過多展開
八、隔離
隔離屬于物理層面的分割,將若干的系統低耦合設計,獨立部署,從物理上隔開。
每個子系統有自己獨立的代碼庫,獨立開發,獨立發布。一旦出現故障,也不會相互干擾。當然如果不同子系統間有相互依賴,這種情況比較特殊,需要有默認值或者異常特殊處理,這屬于業務層面解決方案。
隔離屬于分布式技術的衍生產物,我們最常見的微服務解決方案。
將一個大型的復雜系統拆分成若干個微服務系統,這些微服務子系統通常由不同的團隊開發、維護,獨立部署,服務之間通過 RPC 遠程調用。
隔離使得系統間邊界更加清晰,故障可以更加隔離開來,問題的發現與解決也更加快速,系統的可用性也更高。
九、限流
高并發系統,如果遇到流量洪峰,超過了當前系統的承載能力。我們要怎么辦?
一種方案,照單全收,CPU、內存、Load負載飚的很高,最后處理不過來,所有請求都超時無法正常響應。
另一種解決方案,“舍得,有舍有得”,多余的流量我們直接丟棄。
限流定義:
限制到達系統的并發請求數量,保證系統能夠正常響應部分用戶請求,而對于超過限制的流量,則通過拒絕服務的方式保證整體系統的可用性。
根據作用范圍:限流分為單機版限流、分布式限流
1、單機版限流
主要借助于本機內存來實現計數器,比如通過AtomicLong#incrementAndGet(),但是要注意之前不用的key定期做清理,釋放內存。
純內存實現,無需和其他節點統計匯總,性能最高。但是優點也是缺點,無法做到全局統一化的限流。
2、分布式限流
單機版限流僅能保護自身節點,但無法保護應用依賴的各種服務,并且在進行節點擴容、縮容時也無法準確控制整個服務的請求限制。而分布式限流,以集群為維度,可以方便的控制這個集群的請求限制,從而保護下游依賴的各種服務資源。
限流支持多個維度:
- 整個系統一定時間內(比如每分鐘)處理多少請求
- 單個接口一定時間內處理多少流量
- 單個IP、城市、渠道、設備id、用戶id等在一定時間內發送的請求數
- 如果是開放平臺,則為每個appkey設置獨立的訪問速率規則
常見的限流算法:
- 計數器限流
- 滑動窗口限流
- 漏桶限流
- 令牌桶限流
十、熔斷
熔斷,其實是對調用鏈路中某個資源出現不穩定狀態時(如:調用超時或異常比例升高),對這個資源的調用進行限制,讓請求快速失敗,避免影響到其它的資源而導致級聯錯誤。
熔斷的主要方式是使用斷路器阻斷對故障服務器的調用
斷路器有三種狀態,關閉、打開、半打開。
狀態機:
圖片
1、關閉(Closed)狀態:在這個狀態下,請求都會被轉發給后端服務。同時會記錄請求失敗的次數,當請求失敗次數在一段時間超過一定次數就會進入打開狀態。
2、打開(Open)狀態:在這個狀態下,熔斷器會直接拒絕請求,返回錯誤,而不去調用后端服務。同時,會有一個定時器,時間到的時候會變成半打開狀態。目的是假設服務會在一段時間內恢復正常。
3、半打開(Half Open)狀態:在這個狀態下,熔斷器會嘗試把部分請求轉發給后端服務,目的是為了探測后端服務是否恢復。如果請求失敗會進入打開狀態,成功情況下會進入關閉狀態,同時重置計數。
目前,市面流行的解決方案是阿里的開源框架 Sentinel,提供了Dashboard控制臺用于定義資源以及規則配置
十一、降級
降級是系統保護的一種重要手段。
正如 “好鋼用在刀刃上”,為了使有限資源發揮最大價值,我們會臨時關閉一些非核心功能,減輕系統壓力,并將有限資源留給核心業務。
比如電商大促,業務在峰值時刻,系統抵擋不住全部的流量時,系統的負載、CPU 的使用率都超過了預警水位,可以對一些非核心的功能進行降級,降低系統壓力,比如把商品評價、成交記錄等功能臨時關掉。棄車保帥,保證 創建訂單、訂單支付 等核心功能的正常使用。
當然,不同業務、不同公司,處理方式也各不相同,需要結合實際場景,和業務方同學一塊討論,最后達成一個統一認可的降級方案。
總結下來:降級是通過暫時關閉某些非核心服務或者組件從而保護核心系統的可用性。