說出來你可能不信,分布式鎖竟然這么簡單...
大家好,我是小?。
作為一個后臺開發,不管是工作還是面試中,分布式一直是一個讓人又愛又恨的話題。它如同一座神秘的迷宮,時而讓你迷失方向,時而又為你揭示出令人驚嘆的寶藏。
今天,讓我們來聊聊分布式領域中那位不太引人注意卻功不可沒的角色,它就像是分布式系統的守衛,保護著資源不被隨意訪問——這就是分布式鎖!
想象一下,如果沒有分布式鎖,多個分布式節點同時涌入一個共享資源的訪問時,就像一群饑腸轆轆的狼匯聚在一塊肉前,誰都想咬一口,最后弄得肉丟了個精光,大家都吃不上。
而有了分布式鎖,就像給這塊肉上了道堅固的城墻,只有一只狼能夠穿越,享受美味。
那它具體是怎么做的呢?這篇文章中,小?將帶大家一起了解分布式鎖是如何解決分布式系統中的并發問題的。
什么是分布式鎖?
在分布式系統中,分布式鎖是一種機制,用于協調多個節點上的并發訪問共享資源。
這個共享資源可以是數據庫、文件、緩存或任何需要互斥訪問的數據或資源。分布式鎖確保了在任何給定時刻只有一個節點能夠對資源進行操作,從而保持了數據的一致性和可靠性。
為什么要使用分布式鎖?
1. 數據一致性
在分布式環境中,多個節點同時訪問共享資源可能導致數據不一致的問題。分布式鎖可以防止這種情況發生,確保數據的一致性。
2. 防止競爭條件
多個節點并發訪問共享資源時可能出現競爭條件,這會導致不可預測的結果。分布式鎖可以有效地防止競爭條件,確保操作按照預期順序執行。
3. 限制資源的訪問
有些資源可能需要限制同時訪問的數量,以避免過載或資源浪費。分布式鎖可以幫助控制資源的訪問。
分布式鎖要解決的問題
分布式鎖的核心問題是如何在多個節點之間協調,以確保只有一個節點可以獲得鎖,而其他節點必須等待。
這涉及到以下關鍵問題:
1. 互斥性
只有一個節點能夠獲得鎖,其他節點必須等待。這確保了資源的互斥訪問。
2. 可重入性
指的是在同一線程內,外層函數獲得鎖之后,內層遞歸函數仍然可以獲取到該鎖。
說白了就是同一個線程再次進入同樣代碼時,可以再次拿到該鎖。它的作用是:防止在同一線程中多次獲取鎖產生競性條件而導致死鎖發生。
3. 超時釋放
確保即使節點在業務過程中發生故障,鎖也會被超時釋放,既能防止不必要的線程等待和資源浪費,也能避免死鎖。
分布式鎖的實現方式
在分布式系統中,有多種方式可以實現分布式鎖,就像是鎖的品種不同,每種鎖都有自己的特點。
- 有基于數據庫的鎖,就像是廚師們用餐具把菜肴鎖在柜子里,每個人都得排隊去取。
- 還有基于 ZooKeeper 的鎖,它像是整個餐廳的門衛,只允許一個人進去,其他人只能在門口等。
- 最后,還有基于緩存的鎖,就像是一位服務員用號碼牌幫你占座,先到先得。
1. 基于數據庫的分布式鎖
使用數據庫表中的一行記錄作為鎖,通過事務來獲取和釋放鎖。
例如,使用 MySQL 來實現事務鎖。首先創建一張簡單表,在某一個字段上創建唯一索引(保證多個請求新增字段時,只有一個請求可成功)。
CREATE TABLE `user` (
`id` bigint(20) NOT NULL AUTO_INCREMENT,
`uname` varchar(255) DEFAULT NULL,
PRIMARY KEY (`id`),
UNIQUE KEY `name` (`uname`) USING BTREE
) ENGINE=InnoDB AUTO_INCREMENT=4 DEFAULT CHARSET=utf8mb4
當需要獲取分布式鎖時,執行以下語句:
INSERT INTO `user` (uname) VALUES ('unique_key')
由于 name 字段上加了唯一索引,所以當多個請求提交 insert 語句時,只有一個請求可成功。
使用 MySQL 實現分布式鎖的優點是可靠性高,但性能較差,而且這把鎖是非重入的,同一個線程在沒有釋放鎖之前無法獲得該鎖。
2. 基于ZooKeeper的分布式鎖
Zookeeper(簡稱 zk)是一個為分布式應用提供一致性服務的中間組件,其內部是一個分層的文件系統目錄樹結構。
zk 規定其某一個目錄下只能有唯一的一個文件名,其分布式鎖的實現方式如下:
- 創建一個鎖目錄(ZNode):首先,在 zk 中創建一個專門用于存儲鎖的目錄,通常稱為鎖根節點。這個目錄將包含所有獲取鎖的請求以及用于鎖協調的節點。
- 獲取鎖:當一個節點想要獲取鎖時,它會在鎖目錄下創建一個臨時順序節點(Ephemeral Sequential Node)。zk 會為每個節點分配一個唯一的序列號,并根據序列號的大小來確定鎖的獲取順序。
- 查看是否獲得鎖:節點在創建臨時順序節點后,需要檢查自己的節點是否是鎖目錄中序列號最小的節點。如果是,表示節點獲得了鎖;如果不是,則節點需要監聽比它序列號小的節點的刪除事件。
- 監聽鎖釋放:如果一個節點沒有獲得鎖,它會設置一個監聽器來監視比它序列號小的節點的刪除事件。一旦前一個節點(序列號小的節點)釋放了鎖,zk 會通知等待的節點。
- 釋放鎖:當一個節點完成了對共享資源的操作后,它會刪除自己創建的臨時節點,這將觸發 zk 通知等待的節點。
zk 分布式鎖提供了良好的一致性和可用性,但部署和維護較為復雜,需要仔細處理各種邊界情況,例如節點的創建、刪除、網絡分區等。
而且 zk 實現分布式鎖的性能不太好,主要是獲取和釋放鎖都需要在集群的 Leader 節點上執行,同步較慢。
3. 基于緩存的分布式鎖
使用分布式緩存,如 Redis 或 Memcached,來存儲鎖信息,緩存方式性能較高,但需要處理分布式緩存的高可用性和一致性。
接下來,我們詳細討論一下在 Redis 中如何設計一個高可用的分布式鎖以及可能會遇到的幾個問題,包括:
- 死鎖問題
- 鎖提前釋放
- 鎖被其它線程誤刪
- 高可用問題
1)死鎖問題
早期版本的 redis 沒有 setnx 命令在寫 key 時直接設置超時參數,需要用 expire 命令單獨對鎖設置過期時間,這可能會導致死鎖問題。
比如,設置鎖的過期時間執行失敗了,導致后來的搶鎖都會失敗。
Lua腳本或SETNX
為了保證原子性,我們可以使用 Lua 腳本,保證SETNX + EXPIRE兩條指令的原子性,我們還可以巧用Redis 的 SET 指令擴展參數:SET key value[EX seconds][PX milliseconds][NX|XX],它也是原子性的。
SET key value [EX seconds] [PX milliseconds] [NX|XX]
- NX:表示 key 不存在的時候,才能 set 成功,即保證只有第一個客戶端請求才能獲得鎖,而其他客戶端請求只能等待鎖釋放后,才能獲取
- EX seconds :設定 key 的過期時間,默認單位時間為秒
- PX milliseconds: 設定 key 的過期時間,默認單位時間為毫秒
- XX: 僅當 key 存在時設置值
在 Go 語言里面,關鍵代碼如下所示:
func getLock() {
methodName := "getLock"
val, err := client.Do("set", methodName, "lock_value", "nx", "ex", 100)
if err != nil {
zaplog.Errorf("%s set redis lock failed, %s", methodName, err)
return
}
if val == nil {
zaplog.Errorf("%s get redis lock failed", methodName)
return
}
... // 執行臨界區代碼,訪問公共資源
client.Del(lock.key()).Err() // 刪除key,釋放鎖
}
2)鎖提前釋放
上述方案解決了加鎖過期的原子性問題,不會產生死鎖,但還是可能存在鎖提前釋放的問題。
如圖所示,假設我們設置鎖的過期時間為 5 秒,而業務執行需要 10 秒。
圖片
在線程 1 執行業務的過程中,它的鎖被過期釋放了,這時線程 2 是可以拿到鎖的,也開始訪問公共資源。
很明顯,這種情況下導致了公共資源沒有被嚴格串行訪問,破壞了分布式鎖的互斥性。
這時,有愛動腦瓜子的小伙伴可能認為,既然加鎖時間太短,那我們把鎖的過期時間設置得長一些不就可以了嗎?
其實不然,首先我們沒法提前準確知道一個業務執行的具體時間。其次,公共資源的訪問時間大概率是動態變化的,時間設置得過長也不好。
Redisson框架
所以,我們不妨給加鎖線程一個自動續期的功能,即每隔一段時間檢查鎖是否還存在,如果存在就延長鎖的時間,防止鎖過期提前釋放。
這個功能需要用到守護線程,當前已經有開源框架幫我們解決了,它就是——Redisson,它的實現原理如圖所示:
圖片
當線程 1 加鎖成功后,就會啟動一個 Watch dog 看門狗,它是一個后臺線程,每隔 1 秒(可配置)檢查業務是否還持有鎖,以達到線程未主動釋放鎖,自動續期的效果。
3)鎖被其它線程誤刪
除了鎖提前釋放,我們可能還會遇到鎖被其它線程誤刪的問題。
圖片
如圖所示,加鎖線程 1 執行完業務后,去釋放鎖。但線程 1 自己的鎖已經釋放了,此時分布式鎖是由線程 2 持有的,就會誤刪線程 2 的鎖,但線程 2 的業務可能還沒執行完畢,導致異常產生。
唯一 Value 值
要想解決鎖被誤刪的問題,我們需要給每個線程的鎖加一個唯一標識。
比如,在加鎖時將 Value 設置為線程對應服務器的 IP。對應的 Go 語言關鍵代碼如下:
const (
// HostIP,當前服務器的IP
HostIP = getLocalIP()
)
func getLock() {
methodName := "getLock"
val, err := client.Do("set", methodName, HostIP, "nx", "ex", 100)
if err != nil {
zaplog.Errorf("%s redis error, %s", methodName, err)
return
}
if val == nil {
zaplog.Errorf("%s get redis lock error", methodName)
return
}
... // 執行臨界區代碼,訪問公共資源
if client.Get(methodName) == HostIP {
// 判斷為當前服務器線程加的鎖,才可以刪除
client.Del(lock.key()).Err()
}
}
這樣,在刪除鎖的時候判斷一下 Value 是否為當前實例的 IP,就可以避免誤刪除其它線程鎖的問題了。
為了保證嚴格的原子性,可以用 Lua 腳本代替以上代碼,如下所示:
if redis.call('get',KEYS[1]) == ARGV[1] then
return redis.call('del',KEYS[1])
else
return 0
end;
4)Redlock高可用鎖
前面幾種方案都是基于單機版考慮,而實際業務中 Redis 一般都是集群部署的,所以我們接下來討論一下 Redis 分布式鎖的高可用問題。
試想一下,如果線程 1 在 Redis 的 master 主節點上拿到了鎖,但是還沒同步到 slave 從節點。
這時,如果主節點發生故障,從節點升級為主節點,其它線程就可以重新獲取這個鎖,此時可能有多個線程拿到同一個鎖。即,分布式鎖的互斥性遭到了破壞。
為了解決這個問題,Redis 的作者提出了專門支持分布式鎖的算法:Redis Distributed Lock,簡稱 Redlock,其核心思想類似于注冊中心的選舉機制。
Redis 集群內部署多個 master 主節點,它們相互獨立,即每個主節點之間不存在數據同步。
且節點數為單數個,每次當客戶端搶鎖時,需要從這幾個 master 節點去申請鎖,當從一半以上的節點上獲取成功時,鎖才算獲取成功。
優缺點和常用實現方式
以上是業界常用的三種分布式鎖實現方式,它們各自的優缺點如下:
- 基于數據庫的分布式鎖:可靠性高,但性能較差,不適合高并發場景。
- 基于ZooKeeper的分布式鎖:提供良好的一致性和可用性,適合復雜的分布式場景,但部署和維護復雜,且性能比不上緩存的方式。
- 基于緩存的分布式鎖:性能較高,適合大部分場景,但需要處理緩存的高可用性。
其中,業界常用的分布式鎖實現方式通常是基于緩存的方式,如使用 Redis 實現分布式鎖。這是因為 Redis 性能優秀,而且可以滿足大多數應用場景的需求。
小結
盡管分布式世界曲折離奇,但有了分布式鎖,我們就像是看電影的觀眾,可以有條不紊地入場,分布式系統里的資源就像膠片一樣,等待著我們一張一張地觀賞。
這就是分布式的魅力!它或許令人又愛又恨,但正是科技世界的多樣復雜性,才讓我們的技術之旅變得更加精彩。