跨機(jī)房問題解決方案

作者：chuanhui 2012-05-09 10:08:41

跨機(jī)房問題一直都是一個(gè)老大難的問題，先看傳統(tǒng)數(shù)據(jù)庫(kù)的跨機(jī)房方案。

Master/Slave方案

這是最常用的方案，適用于大多數(shù)需求。Master將操作日志實(shí)時(shí)地發(fā)送到Slave，Slave當(dāng)成Master的一個(gè)Hot Backup。Master宕機(jī)時(shí)，服務(wù)切換到Slave，需要修改客戶端邏輯使得Master失效時(shí)自動(dòng)尋找新的Master。

這個(gè)方案有一個(gè)問題就是數(shù)據(jù)庫(kù)的Master和Slave一般不是強(qiáng)同步的，所以，切換到Slave后可能丟失宕機(jī)前的少量更新。如果將Master和Slave做成強(qiáng)同步的，即：所有的數(shù)據(jù)必須同時(shí)寫成功Master和Slave才成功返回客戶端，這樣又帶來了另外一個(gè)問題：Master和Slave中任何一臺(tái)機(jī)器宕機(jī)都不允許寫服務(wù)，可用性太差。因此，Oracle有一種折衷的模式：正常情況下Master和Slave是強(qiáng)同步的，當(dāng)Master檢測(cè)到Slave故障，比如Slave宕機(jī)或者M(jìn)aster與Slave之間網(wǎng)絡(luò)不通時(shí)，Master本地寫成功就返回客戶端。采用這種折衷的同步模式后，一般情況下Master和Slave之間是強(qiáng)同步的，Master宕機(jī)后切換到Slave是安全的。當(dāng)然，為了確保數(shù)據(jù)安全后，宕機(jī)的Master重啟后可以和新的Master(原有的Slave)對(duì)比***更新的操作日志，如果發(fā)現(xiàn)不一致可以提醒DBA手工介入，執(zhí)行數(shù)據(jù)訂正過程。

Master和Slave之間強(qiáng)同步還有一個(gè)問題就是跨機(jī)房延時(shí)，對(duì)于關(guān)鍵業(yè)務(wù)，同城的機(jī)房可以部署專用光纖，在硬件層面上解決這個(gè)問題；異地的機(jī)房一般用來做備份，與主機(jī)房之間的數(shù)據(jù)同步一般是異步的，可能有秒級(jí)延時(shí)。

Bigtable跨機(jī)房方案

Bigtable跨機(jī)房部署兩套集群，每個(gè)機(jī)房有各自的GFS存儲(chǔ)和Bigtable Master。機(jī)房之間的數(shù)據(jù)同步方式為異步，類似Master/Slave方案。Bigtable Tablet Server將操作日志Flush到GFS成功后返回客戶端，并生成異步任務(wù)將操作日志同步到備機(jī)房。這里的難點(diǎn)在于Tablet Server宕機(jī)時(shí)，某些操作日志還沒有完成同步，因此，操作日志同步點(diǎn)也需要記錄到GFS中，當(dāng)其它Tablet Server加載宕機(jī)Tablet Server原先服務(wù)的tablet時(shí)，將繼續(xù)發(fā)送沒有同步完成的操作日志到備機(jī)房。如果主機(jī)房整體發(fā)生故障，比如機(jī)房停電，可以手工將服務(wù)切換到備機(jī)房，這時(shí)會(huì)丟失***的一部分更新操作，需要人工執(zhí)行訂正操作。

Bigtable跨機(jī)房方案還有一個(gè)問題，為了提高壓縮率，Bigtable跨機(jī)房的同步是按列進(jìn)行的，而Bigtable保證行事務(wù)，這樣就可能出現(xiàn)某些行的部分列同步成功，部分列同步失敗，破壞行事務(wù)。早期的Google App Engine底層存儲(chǔ)為Bigtable，這個(gè)問題沒有給出自動(dòng)化的解決方案。

Megastore跨機(jī)房方案(基于Paxos)

一般來說，實(shí)際中使用的方案都是Master/Slave方案，Megastore中基于Paxos的方案理論上是目前***的，但是實(shí)現(xiàn)過于復(fù)雜，只有Google在工程上做了實(shí)現(xiàn)。Master/Slave方案的問題在于Master宕機(jī)時(shí)切換到Slave需要時(shí)間，為了保證不會(huì)同時(shí)出現(xiàn)兩個(gè)Master的情況，這個(gè)時(shí)間一般比較長(zhǎng)，比如30s ~ 1分鐘，而且不能做到自動(dòng)化。Paxos的好處在于允許多個(gè)機(jī)房同時(shí)做Master，同時(shí)提供寫服務(wù)，Paxos協(xié)議將通過Quorum-Based的策略保證達(dá)成一致。一般情況下，主機(jī)房作為Paxos協(xié)議的Leader提供寫服務(wù)，當(dāng)Leader發(fā)生故障時(shí)，備機(jī)房的節(jié)點(diǎn)可以被選為新的Leader提供寫服務(wù)。即使多個(gè)機(jī)房認(rèn)為自己是Leader，Paxos協(xié)議也能保證同一時(shí)刻只有一個(gè)Leader的寫操作被大家同意并生效，并且做到了宕機(jī)切換的自動(dòng)化。只要超過一半的機(jī)房沒有出現(xiàn)故障，Paxos協(xié)議就能夠保證不停寫服務(wù)。

Google App Engine目前依賴于Google Megastore，解決了機(jī)房宕機(jī)可能破壞行事務(wù)的問題。Amazon Dynamo也給出了一種Vector Clock的做法解決多點(diǎn)同時(shí)寫入的問題，這是一種事后驗(yàn)證的做法，理論上很有意思，但由于弱一致性，實(shí)踐上沒有特別成功的案例。

需要注意的是，Megastore中的復(fù)制方案在理論上很***，但實(shí)現(xiàn)過于復(fù)雜，基本沒有可行性。另外，無論采用怎樣的跨機(jī)房同步和切換方案，都不能解決強(qiáng)同步寫操作延時(shí)較長(zhǎng)的問題，一般來說，這個(gè)延時(shí)將達(dá)到幾十到幾百毫秒。

一種回避Paxos的切換方案

選主一般可以通過引入開源的Zookeeper做到，不過Zookeeper本身的穩(wěn)定性尚待考驗(yàn)，有一種回避Paxos的切換方案比較有意思。機(jī)房宕機(jī)切換自動(dòng)化成本太高，但是對(duì)于很多單點(diǎn)服務(wù)，機(jī)房?jī)?nèi)部宕機(jī)切換的自動(dòng)化很有必要。Oceanbase采用Linux的一個(gè)開源方案：Pacemaker，通過heartbeat和虛IP漂移的方式實(shí)現(xiàn)機(jī)房?jī)?nèi)部宕機(jī)自動(dòng)切換。由于主備切換本質(zhì)上是一個(gè)選主問題，理論上只有Paxos或者類似協(xié)議可以解決，而Pacemaker沒有采用復(fù)雜的Paxos協(xié)議，它對(duì)硬件是有依賴的，比如要求主備節(jié)點(diǎn)之間通過直連線保證網(wǎng)絡(luò)不會(huì)發(fā)生故障，而這在機(jī)房?jī)?nèi)部是可以做到的。機(jī)房之間采用前面提到的Master/Slave方案，可以寫一個(gè)腳本ping主機(jī)房的Master，當(dāng)確認(rèn)主機(jī)房Master宕機(jī)時(shí)(比如一分鐘不通)將服務(wù)切換到備機(jī)房并報(bào)警。

【編輯推薦】

在OpenSSH中設(shè)置SSH的無密碼登陸
Linux服務(wù)器的16個(gè)監(jiān)控命令
服務(wù)器性能指標(biāo)：撥開服務(wù)器評(píng)測(cè)體系迷霧

責(zé)任編輯：趙寧寧

跨機(jī)房

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

跨機(jī)房問題解決方案