漫画:什么是ZooKeeper
轉(zhuǎn)載自?漫畫(huà):什么是ZooKeeper
Zookeeper的數(shù)據(jù)模型
Zookeeper的數(shù)據(jù)模型是什么樣子呢?它很像數(shù)據(jù)結(jié)構(gòu)當(dāng)中的樹(shù),也很像文件系統(tǒng)的目錄。
樹(shù)是由節(jié)點(diǎn)所組成,Zookeeper的數(shù)據(jù)存儲(chǔ)也同樣是基于節(jié)點(diǎn),這種節(jié)點(diǎn)叫做Znode。
但是,不同于樹(shù)的節(jié)點(diǎn),Znode的引用方式是路徑引用,類似于文件路徑:
?/ 動(dòng)物 / 倉(cāng)鼠
?/ 植物 / 荷花
這樣的層級(jí)結(jié)構(gòu),讓每一個(gè)Znode節(jié)點(diǎn)擁有唯一的路徑,就像命名空間一樣對(duì)不同信息作出清晰的隔離。
data:
Znode存儲(chǔ)的數(shù)據(jù)信息。
ACL:
記錄Znode的訪問(wèn)權(quán)限,即哪些人或哪些IP可以訪問(wèn)本節(jié)點(diǎn)。
stat:
包含Znode的各種元數(shù)據(jù),比如事務(wù)ID、版本號(hào)、時(shí)間戳、大小等等。
child:
當(dāng)前節(jié)點(diǎn)的子節(jié)點(diǎn)引用,類似于二叉樹(shù)的左孩子右孩子。
這里需要注意一點(diǎn),Zookeeper是為讀多寫(xiě)少的場(chǎng)景所設(shè)計(jì)。Znode并不是用來(lái)存儲(chǔ)大規(guī)模業(yè)務(wù)數(shù)據(jù),而是用于存儲(chǔ)少量的狀態(tài)和配置信息,每個(gè)節(jié)點(diǎn)的數(shù)據(jù)最大不能超過(guò)1MB。
Zookeeper的基本操作和事件通知
Zookeeper包含了哪些基本操作呢?這里列舉出比較常用的API:
create
創(chuàng)建節(jié)點(diǎn)
delete
刪除節(jié)點(diǎn)
exists
判斷節(jié)點(diǎn)是否存在
getData
獲得一個(gè)節(jié)點(diǎn)的數(shù)據(jù)
setData
設(shè)置一個(gè)節(jié)點(diǎn)的數(shù)據(jù)
getChildren
獲取節(jié)點(diǎn)下的所有子節(jié)點(diǎn)
這其中,exists,getData,getChildren屬于讀操作。Zookeeper客戶端在請(qǐng)求讀操作的時(shí)候,可以選擇是否設(shè)置Watch。
Watch是什么意思呢?
我們可以理解成是注冊(cè)在特定Znode上的觸發(fā)器。當(dāng)這個(gè)Znode發(fā)生改變,也就是調(diào)用了create,delete,setData方法的時(shí)候,將會(huì)觸發(fā)Znode上注冊(cè)的對(duì)應(yīng)事件,請(qǐng)求Watch的客戶端會(huì)接收到異步通知。
具體交互過(guò)程如下:
1.客戶端調(diào)用getData方法,watch參數(shù)是true。服務(wù)端接到請(qǐng)求,返回節(jié)點(diǎn)數(shù)據(jù),并且在對(duì)應(yīng)的哈希表里插入被Watch的Znode路徑,以及Watcher列表。
2.當(dāng)被Watch的Znode已刪除,服務(wù)端會(huì)查找哈希表,找到該Znode對(duì)應(yīng)的所有Watcher,異步通知客戶端,并且刪除哈希表中對(duì)應(yīng)的Key-Value。
Zookeeper的一致性
Zookeeper的集群長(zhǎng)成什么樣呢?就像下圖這樣:
Zookeeper Service集群是一主多從結(jié)構(gòu)。
在更新數(shù)據(jù)時(shí),首先更新到主節(jié)點(diǎn)(這里的節(jié)點(diǎn)是指服務(wù)器,不是Znode),再同步到從節(jié)點(diǎn)。
在讀取數(shù)據(jù)時(shí),直接讀取任意從節(jié)點(diǎn)。
為了保證主從節(jié)點(diǎn)的數(shù)據(jù)一致性,Zookeeper采用了ZAB協(xié)議,這種協(xié)議非常類似于一致性算法Paxos和Raft。
在學(xué)習(xí)ZAB之前,我們需要首先了解ZAB協(xié)議所定義的三種節(jié)點(diǎn)狀態(tài):
Looking?:選舉狀態(tài)。
Following?:Follower節(jié)點(diǎn)(從節(jié)點(diǎn))所處的狀態(tài)。
Leading?:Leader節(jié)點(diǎn)(主節(jié)點(diǎn))所處狀態(tài)。
我們還需要知道最大ZXID的概念:
最大ZXID也就是節(jié)點(diǎn)本地的最新事務(wù)編號(hào),包含epoch和計(jì)數(shù)兩部分。epoch是紀(jì)元的意思,相當(dāng)于Raft算法選主時(shí)候的term。
假如Zookeeper當(dāng)前的主節(jié)點(diǎn)掛掉了,集群會(huì)進(jìn)行崩潰恢復(fù)。ZAB的崩潰恢復(fù)分成三個(gè)階段:
1.Leader election
選舉階段,此時(shí)集群中的節(jié)點(diǎn)處于Looking狀態(tài)。它們會(huì)各自向其他節(jié)點(diǎn)發(fā)起投票,投票當(dāng)中包含自己的服務(wù)器ID和最新事務(wù)ID(ZXID)。
接下來(lái),節(jié)點(diǎn)會(huì)用自身的ZXID和從其他節(jié)點(diǎn)接收到的ZXID做比較,如果發(fā)現(xiàn)別人家的ZXID比自己大,也就是數(shù)據(jù)比自己新,那么就重新發(fā)起投票,投票給目前已知最大的ZXID所屬節(jié)點(diǎn)。
每次投票后,服務(wù)器都會(huì)統(tǒng)計(jì)投票數(shù)量,判斷是否有某個(gè)節(jié)點(diǎn)得到半數(shù)以上的投票。如果存在這樣的節(jié)點(diǎn),該節(jié)點(diǎn)將會(huì)成為準(zhǔn)Leader,狀態(tài)變?yōu)長(zhǎng)eading。其他節(jié)點(diǎn)的狀態(tài)變?yōu)镕ollowing。
這就相當(dāng)于,一群武林高手經(jīng)過(guò)激烈的競(jìng)爭(zhēng),選出了武林盟主。
2.Discovery
發(fā)現(xiàn)階段,用于在從節(jié)點(diǎn)中發(fā)現(xiàn)最新的ZXID和事務(wù)日志?;蛟S有人會(huì)問(wèn):既然Leader被選為主節(jié)點(diǎn),已經(jīng)是集群里數(shù)據(jù)最新的了,為什么還要從節(jié)點(diǎn)中尋找最新事務(wù)呢?
這是為了防止某些意外情況,比如因網(wǎng)絡(luò)原因在上一階段產(chǎn)生多個(gè)Leader的情況。
所以這一階段,Leader集思廣益,接收所有Follower發(fā)來(lái)各自的最新epoch值。Leader從中選出最大的epoch,基于此值加1,生成新的epoch分發(fā)給各個(gè)Follower。
各個(gè)Follower收到全新的epoch后,返回ACK給Leader,帶上各自最大的ZXID和歷史事務(wù)日志。Leader選出最大的ZXID,并更新自身歷史日志。
3.Synchronization
同步階段,把Leader剛才收集得到的最新歷史事務(wù)日志,同步給集群中所有的Follower。只有當(dāng)半數(shù)Follower同步成功,這個(gè)準(zhǔn)Leader才能成為正式的Leader。
自此,故障恢復(fù)正式完成。
什么是Broadcast呢?簡(jiǎn)單來(lái)說(shuō),就是Zookeeper常規(guī)情況下更新數(shù)據(jù)的時(shí)候,由Leader廣播到所有的Follower。其過(guò)程如下:
1.客戶端發(fā)出寫(xiě)入數(shù)據(jù)請(qǐng)求給任意Follower。
2.Follower把寫(xiě)入數(shù)據(jù)請(qǐng)求轉(zhuǎn)發(fā)給Leader。
3.Leader采用二階段提交方式,先發(fā)送Propose廣播給Follower。
4.Follower接到Propose消息,寫(xiě)入日志成功后,返回ACK消息給Leader。
5.Leader接到半數(shù)以上ACK消息,返回成功給客戶端,并且廣播Commit請(qǐng)求給Follower。
Zab協(xié)議既不是強(qiáng)一致性,也不是弱一致性,而是處于兩者之間的單調(diào)一致性。它依靠事務(wù)ID和版本號(hào),保證了數(shù)據(jù)的更新和讀取是有序的。
Zookeeper的應(yīng)用
1.分布式鎖
這是雅虎研究員設(shè)計(jì)Zookeeper的初衷。利用Zookeeper的臨時(shí)順序節(jié)點(diǎn),可以輕松實(shí)現(xiàn)分布式鎖。
2.服務(wù)注冊(cè)和發(fā)現(xiàn)
利用Znode和Watcher,可以實(shí)現(xiàn)分布式服務(wù)的注冊(cè)和發(fā)現(xiàn)。最著名的應(yīng)用就是阿里的分布式RPC框架Dubbo。
3.共享配置和狀態(tài)信息
Redis的分布式解決方案Codis,就利用了Zookeeper來(lái)存放數(shù)據(jù)路由表和 codis-proxy 節(jié)點(diǎn)的元信息。同時(shí) codis-config 發(fā)起的命令都會(huì)通過(guò) ZooKeeper 同步到各個(gè)存活的 codis-proxy。
此外,Kafka、HBase、Hadoop,也都依靠Zookeeper同步節(jié)點(diǎn)信息,實(shí)現(xiàn)高可用。
總結(jié)
以上是生活随笔為你收集整理的漫画:什么是ZooKeeper的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: IP测量探索(七)——利用交换机检查IP
- 下一篇: 这 30 个常用的 Maven 命令你必