成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

自己動手寫SQL執行引擎

運維 數據庫運維
在造輪子的過程中一開始是非常有激情非常快樂的。但隨著系統越來越龐大,復雜性越來越高,進度就會越來越慢,還時不時要推翻自己原來的設想并重新設計,然后再協同修改關聯的所有代碼,就如同泥沼,越陷越深。

[[344553]]

自己動手寫SQL執行引擎

前言

在閱讀了大量關于數據庫的資料后,筆者情不自禁產生了一個造數據庫輪子的想法。來驗證一下自己對于數據庫底層原理的掌握是否牢靠。在筆者的github中給這個database起名為Freedom。

整體結構

既然造輪子,那當然得從前端的網絡協議交互到后端的文件存儲全部給擼一遍。下面是Freedom實現的整體結構,里面包含了實現的大致模塊:

 

最終存儲結構當然是使用經典的B+樹結構。當然在B+樹和文件系統block塊之間的轉換則通過Buffer(Page) Manager來進行。當然了,為了完成事務,還必須要用WAL協議,其通過Log Manager來操作。

Freedom采用的是索引組織表,通過DruidSQL Parse來將sql翻譯為對應的索引操作符進而進行對應的語義操作。

MySQL Protocol結構

client/server之間的交互采用的是MySQL協議,這樣很容易就可以和mysql client以及jdbc進行交互了。

query packet

mysql通過3byte的定長包頭去進行分包,進而解決tcp流的讀取問題。再通過一個sequenceId來在應用層判斷packet是否連續。

 

result set packet

mysql協議部分最復雜的內容是其對于result set的讀取,在NIO的方式下加重了復雜性。

Freedom通過設置一系列的讀取狀態可以比較好的在Netty框架下解決這一問題。

 

row packet

還有一個較簡單的是對row格式進行讀取,如上圖所示,只需要按部就班的解析即可。

 

由于協議解析部分較為簡單,在這里就不再贅述。

SQL Parse

Freedom采用成熟好用的Druid SQL Parse作為解析器。事實上,解析sql就是將用文本表示

的sql語義表示為一系列操作符(這里限于篇幅原因,僅僅給出select中where過濾的原理)。

對where的處理

例如where后面的謂詞就可以表示為一系列的以樹狀結構組織的SQL表達式,如下圖所示:

當access層通過游標提供一系列row后,就可以通過這個樹狀表達式來過濾出符合where要求的數據。Druid采用了Parse中常用的visitor很方便的處理上面的表達式計算操作。

對join的處理

對join最簡單處理方案就是對兩張表進行笛卡爾積,然后通過上面的where condition進行過濾,如下圖所示:

 

Freedom對于縮小笛卡爾積的處理

由于Freedom采用的是B+樹作為底層存儲結構,所以可以通過where謂詞來界定B+樹scan(搜索)的范圍(也即最大搜索key和最小搜索key在B+樹種中的位置)。考慮sql

  1. select a.*,b.* from t_archer as a join t_rider as b where a.id>=3 and a.id<=11 b.id and b.id>=19 b.id<=31 

那么就可以界定出在id這個索引上,a的scan范圍為[3,11],如下圖所示:

 

b的scan范圍為[19,31],如下圖所示(假設兩張表數據一樣,便于繪圖):

 

scan少了從原來的15*15(一共15個元素)次循環減少到4*4次循環,即循環次數減少到7.1%

當然如果存在join condition的話,那么Freedom在底層cursor遞歸處理的過程中會預先過濾掉一部分數據,進一步減少上層的過濾。

B+Tree的磁盤結構

leaf磁盤結構

Freedom的B+Tree是存儲到磁盤里的。考慮到存儲的限制以及不定長的key值,所以會變得非常復雜。Freedom以page為單位來和磁盤進行交互。葉子節點和非葉子節點都由page承載并刷入磁盤。結構如下所示:

 

一個元組(tuple/item)在一個page中分為定長的ItemPointer和不定長的Item兩部分。

其中ItemPointer里面存儲了對應item的起始偏移和長度。同時ItemPointer和Item如圖所示是向著中心方向進行伸張,這種結構很有效的組織了非定長Item。

leaf和node節點在Page中的不同

雖然leaf和node在page中組織結構一致,但其item包含的項確有區別。由于Freedom采用的是索引組織表,所以對于leaf在聚簇索引(clusterIndex)和二級索引(secondaryIndex)中對item的表示也有區別,如下圖所示:

 

其中在二級索引搜索時通過secondaryIndex通過index-key找到對應的clusterId,再通過

clusterId在clusterIndex中找到對應的row記錄。

由于要落盤,所以Freedom在node節點中的item里面寫入了index-key對應的pageno,

這樣就可以容易的從磁盤恢復所有的索引結構了。

B+Tree在文件中的組織

有了Page結構,我們就可以將數據承載在一個個page大小的內存里面,同時還可以將page刷新到對應的文件里。有了node.item中的pageno,我們就可以較容易的進行文件和內存結構之間的互相映射了。

B+樹在磁盤文件中的組織如下圖所示:

 

B+樹在內存中相對應的映射結構如下圖所示:

 

文件page和內存page中的內容基本是一致的,除了一些內存page中特有的字段,例如dirty等。

每個索引一個B+樹

在Freedom中,每個索引都是一顆B+樹,對記錄的插入和修改都要對所有的B+樹進行操作。

B+Tree的測試

筆者通過一系列測試case,例如隨機變長記錄對B+樹進行插入并落盤,修復了其中若干個非常詭異的corner case。

B+Tree的todo

筆者這里只是完成了最簡單的B+樹結構,沒有給其添加并發修改的鎖機制,也沒有在B+樹做操作的時候記錄log來保證B+樹在宕機等災難性情況下的一致性,所以就算完成了這么多的工作量,距離一個高并發高可用的bptree還有非常大的距離。

Meta Data

table的元信息由create table所創建。創建之后會將元信息落盤,以便Freedom在重啟的時候加載表信息。每張表的元信息只占用一頁的空間,依舊復用page結構,主要保存的是聚簇索引和二級索引的信息。元信息對應的Item如下圖所示:

 

如果想讓mybatis可以自動生成關于Freedom的代碼,還需實現一些特定的sql來展現Freedom的元信息。這個在筆者另一個項目rider中有這樣的實現。原理如下圖所示:

 

實現了上述4類SQL之后,mybatis-generator就可以通過jdbc從Freedom獲取元信息進而自動生成代碼了。

事務支持

由于當前Freedom并沒有保證并發,所以對于事務的支持只做了最簡單的WAL協議。通過記錄redo/undolog從而實現原子性。

redo/undo log協議格式

Freedom在每做一個修改操作時,都會生成一條日志,其中記錄了修改前(undo)和修改后(redo)的行信息,redo用來回滾,redo用來宕機recover。結構如下圖所示:

 

WAL協議

WAL協議很好理解,就是在事務commit前將當前事務中所產生的的所有log記錄刷入磁盤。

Freedom自然也做了這個操作,使得可以在宕機后通過log恢復出所有的數據。

 

回滾的實現

由于日志中記錄了undo,所以對于一個事務的回滾直接通過日志進行undo即可。如下圖所示:

 

宕機恢復

Freedom如果在page全部刷盤之后關機,則可以由通過加載page的方式獲取原來的數據。

但如果突然宕機,例如kill -9之后,則可以通過WAL協議中記錄的redo/undo log來重新

恢復所有的數據。由于時間和精力所限,筆者并沒有實現基于LSN的檢查點機制。

Freedom運行

  1. git clone https://github.com/alchemystar/Freedom.git 
  2. // 并沒有做打包部署的工作,所以最簡單的方法是在java編輯器里面 
  3. run alchemystar.freedom.engine.server.main 

以下是筆者實際運行Freedom的例子:


 

 

join查詢

 

delete回滾

 

Freedom todo

Freedom還有很多工作沒有完成,例如有層次的鎖機制和MVCC等,由于工作忙起來就耽擱了。

于是筆者就看了看MySQL源碼的實現理解了一下鎖和MVCC實現原理,并寫了兩篇博客。比起

自己動手擼實在是輕松太多了^_^。

MVCC

https://my.oschina.net/alchemystar/blog/1927425

二階段鎖

https://my.oschina.net/alchemystar/blog/1438839

尾聲

在造輪子的過程中一開始是非常有激情非常快樂的。但隨著系統越來越龐大,復雜性越來越高,進度就會越來越慢,還時不時要推翻自己原來的設想并重新設計,然后再協同修改關聯的所有代碼,就如同泥沼,越陷越深。至此,筆者才領悟了軟件工程最重要的其實是控制復雜度!始終保持簡潔的接口和優雅的設計是實現一個大型系統的必要條件。

本文轉載自微信公眾號「解Bug之路」,可以通過以下二維碼關注。轉載本文請聯系解Bug之路公眾號。

 

責任編輯:武曉燕 來源: 解Bug之路
相關推薦

2014-11-26 10:54:20

C#

2015-07-23 14:53:50

貝葉斯分類器

2017-03-02 13:31:02

監控系統

2018-09-12 10:58:11

NBA數據存儲

2018-02-07 10:46:20

數據存儲

2015-06-02 10:24:43

iOS網絡請求降低耦合

2015-06-02 09:51:40

iOS網絡請求封裝接口

2023-12-15 10:14:42

數據庫select語句

2023-12-16 13:21:00

Python元類ORM

2011-08-25 09:30:22

2020-05-20 13:53:41

HTTP環境安裝

2015-09-01 09:49:28

2015-06-02 09:41:00

iOS網絡請求NSURLSessio

2011-07-19 09:36:24

SplitSQL

2014-06-20 09:18:54

Dustjs中間件

2009-03-16 16:30:18

2014-03-17 10:34:48

SQL Server

2009-10-27 09:01:54

VB.NET內存指針

2011-05-06 15:35:58

打印機打印故障

2009-12-03 13:56:05

Suse Linux開xinetd
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 91久久精品一区二区三区 | 男女免费在线观看视频 | 国产精品久久久久久久久久久久久久 | 国产日韩视频 | av看片网站 | 99精品欧美一区二区蜜桃免费 | 欧美精品片 | 人人玩人人添人人澡欧美 | 欧美精品久久 | 久久久久亚洲精品 | av影音在线 | 99在线资源 | 亚洲精品久久久久久宅男 | 中文字幕在线精品 | 国产资源在线播放 | 水蜜桃亚洲一二三四在线 | 91在线精品秘密一区二区 | 亚洲一区二区三区在线免费观看 | 免费国产黄网站在线观看视频 | 国产精品久久久久久久久久久免费看 | 久久久久久久久久久久久91 | 久久久精品天堂 | 精品无码久久久久久国产 | 国产日韩欧美二区 | 成人免费影院 | 欧美阿v| 国产一区二区三区四区在线观看 | 久久成人免费视频 | 欧美成人精品 | 超碰成人av | 一区视频在线免费观看 | 成人欧美一区二区三区色青冈 | 日韩在线精品 | 精品欧美一区二区三区 | 成人午夜在线 | 亚洲欧美一区二区三区在线 | 四虎最新地址 | 91精品国产91久久久久游泳池 | 成人av一区| av一级一片 | 国产精品中文字幕在线 |