并發-分布式鎖質量保障總結
原創一、背景
并發問題是電商系統最常見的問題之一,例如庫存超賣、抽獎多發、券多發放、積分多發少發等場景;之所以會出現上述問題,是因為存在多機器多請求同時對同一個共享資源進行修改,如果不加以限制,將導致數據錯亂和數據不一致性;解決并發問題的方式有很多,例如:隊列、異步、響應式、鎖都可以;由于當前互聯網都是分布式系統,因此本文只針對使用較為廣泛的分布式鎖的方式來進行敘述如何進行質量保障。
二、分布式鎖介紹
1. 什么是分布式鎖
先了解一下什么是鎖,在單機系統中,多個線程同時改變一個變量時,需要對變量或者代碼塊做同步從而保證串行修改變量,該同步實質上就是通過鎖來實現。為了實現多個線程在同一個時刻針對同一塊代碼串行執行,就需要在某個地方做個標記,該標記必須每個線程都能看到,當標記不存在時可以設置該標記,其余后續線程發現已經有標記了則等待擁有標記的線程結束同步代碼塊取消標記后再去嘗試設置標記,此標記可以理解為鎖。分布式鎖就是在多機系統下的該標記。
2. 實現分布式鎖的主流方式
目前分布式鎖的實現方式有3種主流方法,即:
(1) 基于數據庫實現分布式鎖,此處的數據庫指的是MySQL關系型數據庫
- 基于MySQL鎖表
- 數據庫版本號樂觀鎖
(2) 基于緩存實現分布式鎖,此處的緩存指的是Redis
(3) 基于zookeeper/etcd實現分布式鎖
具體的關于鎖的實現方式,已經有太多的文章進行介紹,本文就不再贅述。
三、質量保障
并發問題一旦涉及到錢,通常都會導致不同程度的資損,而且在我們的功能測試中是很難發現,因此對于并發的質量保障顯得尤為的重要,可以抽象為3層來保障:事前、事中、事后三大步驟;事前保障通過Review 方式提前規避技術上的風險,事中保障驗證在技術實現過程中是否存在漏洞,事后保障校驗數據是否符合預期,對于有并發風險的項目上述三個步驟的保障缺一不可。
1. 事前質量保障
事前保障的階段發生在技術評審階段,在此階段,我們需要評估出當前業務場景下是否存在并發風險;如果存在,確定我們的技術選型。
評估并發風險
評估并發風險的關鍵點在于是否存在多個進程同時訪問共享資源,簡單來說是否存在多個進程在同一時間對同一個數據進行更新的操作;例如:電商中的庫存,多人同時購買同一個商品,也就是會存在同一時間對同一個商品的庫存進行更新,此處就存在并發風險。
技術選型
要做到正確的技術選型,我們就需要對上述種方式實現的鎖的優缺點以及應用場景需要進行了解。
MySQL數據庫表的樂觀鎖適用于讀多寫少的場景且共享資源為數據庫的單行數據;MySQL表鎖實現的鎖一般都不推薦使用;ZooKeeper分布式鎖雖然適用于大部分分布式場景,但是由于其實現復雜度相對較高以及需要額外引入中間件,在大部分業務場景中的應用比較少,而基于Redis的緩存分布式鎖應用較為廣泛;但是具體業務實現采用哪種類型的分布式鎖,還是需要基于當前的業務特性來進行決定;
在技術評審階段,一方面我們要評估出是否存在并發風險,另外一方面,我們需要識別開發同學在技術的實現上可能存在的漏洞,針對分布式鎖的實現漏洞可參考下文的CodeReview的關注點。
2. 事中保障
CodeReview
(1) Redis緩存分布式鎖
Redis通常可以使用setnx(key,value)函數來實現分布式鎖。key和value就是基于緩存的分布式鎖的兩個屬性,其中key表示鎖id。setnx函數返回1表示獲得鎖,返回0表示其他服務器已經獲得了鎖;
Redis緩存分布式鎖CodeReview注意點:
1)Redis Key
- 全面梳理業務場景,對于同一共同資源,key要保持一致;
- key是識別共享資源的唯一鍵,key的設計既需要能夠鎖住當前共享資源又不能影響到其他資源;
例如:商品庫存,我們的key應該是具體到某個商品,而不是所有商品,鎖住A商品,不會影響B商品。
2)鎖釋放
- 鎖一定需明確釋放,try/finally 結構加鎖解鎖,finally內釋放鎖;
- 鎖只能被加鎖的對象釋放,此處是經常出問題的點,如下圖所示,A加鎖被B釋放鎖,導致鎖失效,鎖被C搶占到;
針對上述問題,釋放鎖時需要先讀取當前key的value,再和傳入的value進行比較;上述是兩個步驟一定要保證原子性,如果原生Redis可采用lua腳本保證原子性;如果tair,可采取TairString的cad方法;value必須是一個唯一值,唯一標記是當前對象加的鎖。
3)鎖超時
a. 一定要設置key的超時時間;例如:客戶端A 搶到鎖后,系統突然異常,A就無法釋放鎖,變成死鎖;設置超時時間就是為了防止此種情況發生,在時間到期后,自動刪除key,間接釋放鎖;
b. 超時時間的設置一般來講大于服務的最大執行時間即可,但是服務最大的執行時間會受很多因素影響,是不可控的;例如:A服務一般執行時間是30ms,設置的鎖超時時間為100ms,受網絡影響服務執行時間變成了200ms,在100ms的時候鎖就會被釋放了;在大部分場景下,開發不會處理此種情況,此種極端情況是否需要處理,需要進行協商;處理方式如下兩種:
- 可以再開啟一個線程,為當前超時時間續時,但增加了系統的復雜度;
- 將過期時間設置非常長,一定能保證邏輯在鎖釋放之前能夠執行完成;此方案簡單但是有缺陷,當遇到系統突發異常時,鎖無法被釋放,只能等待redis key超時,而超時時間又設置的較長,因此在當前時間內誰都無法獲取到鎖,阻斷業務執行,很有可能造成故障;
4)鎖粒度
如果針對某個共享資源的寫是基于另外一個共享資源的值計算而來,那么鎖的范圍必須包含讀共享資源;范圍不包含讀共享資源會導致臟讀,最終導致數據的錯誤,如下圖所示,Client B最終計算的B的結果就是錯誤的。
5)獲取鎖失敗
由于其他線程已經獲取到了鎖,當前線程獲取鎖失敗后有3種處理方式:異常拋出讓用戶重試;通過自旋再次進行搶鎖;發布訂閱,訂閱鎖釋放消息;在并發度低的場景下異常拋出以及自旋搶鎖都可以,在高并發場景下異常拋出和自旋搶鎖都不可取。
(2) MySQL數據庫鎖CR點
1)數據庫版本號樂觀鎖
在數據庫的表中需要包含一個數字類型的字段version,讀取數據時把version字段讀出來,更新數據時判斷當前version是否等于讀取出來的version,并對當前version+1;如果等于就更新成功,不等于表示數據已過期更新失敗。例如以積分體系為例,存在多種場景增加積分,通過樂觀鎖來保證數據的正確性。
樂觀鎖CR注意點:
- where 條件一定要命中索引(最好是主鍵或者唯一索引),否則會鎖表;
- update table set 中必須要包含version = version + 1;
- update 返回結果為0時,一定要根據業務場景進行相應的處理,自主重試或者拋異常;
2)基于MySQL鎖表
其實現原理是:創建一張鎖表,對臨界資源做唯一性約束,通過增加一條記錄對某一資源上鎖,釋放鎖時刪除記錄;一般不推薦此種用法。
并發測試
并發測試總體上可以分為三大類:
(1) 復雜的并發場景,一次請求共享資源存在多個,且前后存在各種依賴關系,此種場景適合于鏈路級別壓測,壓測模型需要精心設計。
(2) 單一并發場景,一個共享資源,可以處理多次,例如:扣除某個商品的庫存,可以反復調用。
- 可以通過接口壓測的方式進行測試,通過查看最終數據是否會存在與預期不一致情況即可;
- 壓測工具:jmeter 即可進行壓測(集團可直接采用pas-server進行壓測,方便快捷);
(3) 單一并發場景,一個共享資源,且只能處理1次,例如:用戶只有一次抽獎機會,連續點2次會不會抽2次;
- 可以利用JVM的并發函數CountDownLatch,CyclicBarrier等,CountDownLatch片段代碼:
public void invokeAllTask(ConcurrencyRequest request, Runnable task) {
final CountDownLatch startCountDownLatch = new CountDownLatch(1);
final CountDownLatch endCountDownLatch = new CountDownLatch(request.getConcurrency());
for (int i = 0; i < request.getConcurrency(); i++) {
Thread t = new Thread(() -> {
try {
startCountDownLatch.await();
try {
task.run();
} finally {
endCountDownLatch.countDown();
}
} catch (Exception ex) {
log.error("異常", ex);
}
});
t.start();
}
startCountDownLatch.countDown();
try {
endCountDownLatch.await();
} catch (InterruptedException ex) {
log.error("線程異常中斷", ex);
}
}
- 利用jmeter的定時器 Synchronizing Timer也可以實現此功能。
3. 事后保障
數據對賬
數據對賬(數據一致性校驗)是我們在系統上線后對并發問題的最后一道防線,通過對賬來識別我們的數據的不一致性問題;壓測有成本,且受技巧熟練度和壓測設計的影響,不一定能暴露問題;如果被測場景評估并發問題的發生概率極低,即使發生了影響也比較小,此時review+對賬方式也不失為一種好的選擇;
如何進行對賬,不同的業務場景有不同的對賬方法,例如:
- 互動積分體系每個用戶的扣除以及增加積分都會落流水表;每個用戶目前有多少積分都會放在積分表;只需要把流水表的積分加總和積分表的積分進行對賬;
- 互動任務體系,一筆訂單只能推進一個任務,對賬只需要檢查任務記錄中一筆訂單是否存在多條記錄;
select count(*) as task_count,
scene_code,
order_id
from task_record
where unique_id is not null
group by scene_code,
order_id
having count(*)> 1
四、總結
作為質量保障同學一定要時刻繃著一根弦,當前場景下是否會存在并發問題;并發問題的識別簡單而言就是是否存在同時更新同一個數據,如果是就一定要注意開發同學是否處理了并發,并發的實現主要是上面闡述的幾種,然后按照場景進行分析即可;關于并發場景的質量保障,大體原則可以概括為如下:
- 梳理并發場景
- 帶著注意點CR 代碼
- 并發測試(非銀彈,不是所有場景都具備可測性)
- 監控對賬進行兜底識別并發問題