一文讀懂eBPF | 即時編譯(JIT)實現原理
什么是 JIT
JIT(Just In Time)的中文意思是 即時編譯,主要為了解決虛擬機運行中間碼時效率不高的問題。
在《eBPF實現原理》一文中,我們介紹過 eBPF 是使用虛擬機來執行 eBPF 字節碼的。但執行字節碼是一個模擬 CPU 執行機器碼的過程,所以比執行機器碼的效率低很多。
我們來看看中間碼與機器碼執行的區別,如下圖所示:
(圖一 機器碼執行過程)
(圖二 中間碼執行過程)
從上圖可以看出,執行中間碼時,虛擬機需要將中間碼解析成機器碼來執行,而這個解析的過程就需要消耗更多的 CPU 時間。
eBPF 使用 JIT 技術來解決執行中間碼效率不高的問題。JIT 技術就是在執行中間碼前,先把中間碼編譯成對應的機器碼,然后緩存起來,運行時直接通過執行機器碼即可。這樣就解決了每次執行中間碼都需要解析的過程,如下圖所示:
(圖三 JIT執行過程)
eBPF JIT 實現原理
當 eBPF 字節碼被加載到內核時,內核會根據是否開啟了 JIT 功能選項,來決定是否將 eBPF 字節碼編譯成機器碼。
由于不同架構 CPU 的指令集并不相同(也就是運行的機器碼不相同),所以對于不同架構的 CPU,把 eBPF 字節碼編譯成機器碼的過程并不相同。
本文以 x86 架構的 CPU 進行分析,使用的內核版本是 3.18.1。
我們來看看內核是怎么將 eBPF 字節碼編譯成機器碼的。
內核是通過 bpf_prog_load() 函數來加載 eBPF 字節碼,如下所示:
static int bpf_prog_load(union bpf_attr *attr)
{
...
bpf_prog_select_runtime(prog);
...
}
其中,bpf_prog_load() 會調用 bpf_prog_select_runtime() 函數來為 eBPF 選擇一個運行時。
什么是 eBPF 的運行時?說白了就是使用虛擬機運行還是使用 JIT 運行。我們來看看 bpf_prog_select_runtime() 函數的實現:
void bpf_prog_select_runtime(struct bpf_prog *fp)
{
fp->bpf_func = (void *) __bpf_prog_run;
bpf_int_jit_compile(fp);
bpf_prog_lock_ro(fp);
}
bpf_prog 結構用來保存 eBPF 程序的信息,其 bpf_func 字段用于指向 eBPF 字節碼的執行函數。
bpf_prog_select_runtime() 函數首先會將其設置為 __bpf_prog_run() 函數,表示使用 __bpf_prog_run() 函數來執行 eBPF 字節碼。
接著 bpf_prog_select_runtime() 函數會調用 bpf_int_jit_compile() 函數來判斷是否需要將 eBPF 字節碼編譯成機器碼,bpf_int_jit_compile() 函數的實現如下(x86 架構):
void bpf_int_jit_compile(struct bpf_prog *prog)
{
...
struct jit_context ctx = {};
u8 *image = NULL; // 用于保存 eBPF 字節碼編譯后的機器碼
...
// 如果沒有開啟 JIT 功能, 那么不需要將 eBPF 字節碼編譯成機器碼
if (!bpf_jit_enable)
return;
...
for (pass = 0; pass < 10; pass++) {
// 將 eBPF 字節碼編譯成本地機器碼
proglen = do_jit(prog, addrs, image, oldproglen, &ctx);
...
}
if (bpf_jit_enable > 1) // 打印 eBPF 字節碼編譯后的機器碼
bpf_jit_dump(prog->len, proglen, 0, image);
// 如果成功將 eBPF 字節碼編譯成本地機器碼
if (image) {
...
// 那么將 eBPF 字節碼執行函數設置成編譯后的機器碼
prog->bpf_func = (void *)image;
prog->jited = true;
}
...
}
bpf_int_jit_compile() 函數首先會判斷內核是否打開了 eBPF 的 JIT 功能(也就是 bpf_jit_enable 全局變量是否大于 0),如果沒有開啟,那么內核將不會對 eBPF 字節碼進行 JIT 處理。
如果打開了 JIT 功能,那么 bpf_int_jit_compile() 函數將會調用 do_jit() 函數把 eBPF 字節碼編譯成本地機器碼,然后將 bpf_prog 結構的 bpf_func 字段設置成編譯后的字節碼。
這樣,當內核調用 bpf_func 字段指向的函數時,就能直接執行 eBPF 字節碼編譯后的機器碼。
eBPF 字節碼編譯過程
我們來分析一下 do_jit() 函數的實現,如下所示(do_jit() 函數的實現有點兒復雜,所以這里只對其進行大概分析):
static int
do_jit(struct bpf_prog *bpf_prog, int *addrs, u8 *image,
int oldproglen, struct jit_context *ctx)
{
struct bpf_insn *insn = bpf_prog->insnsi;
int insn_cnt = bpf_prog->len;
bool seen_ld_abs = ctx->seen_ld_abs | (oldproglen == 0);
u8 temp[BPF_MAX_INSN_SIZE + BPF_INSN_SAFETY];
int i;
int proglen = 0;
u8 *prog = temp;
// 計算棧空間大小
int stacksize = MAX_BPF_STACK +
32 /* space for rbx, r13, r14, r15 */ +
8 /* space for skb_copy_bits() buffer */;
EMIT1(0x55); // 保存 %rbp 寄存器的值到棧:push %rbp
EMIT3(0x48, 0x89, 0xE5); // 把 %rsp 寄存器的值保存到 %rbp 寄存器中:mov %rbp, %rsp
// 申請??臻g指令:sub %rsp, stacksize
EMIT3_off32(0x48, 0x81, 0xEC, stacksize);
// 保存 %rbx 寄存器的值到棧
EMIT3_off32(0x48, 0x89, 0x9D, -stacksize);
// 保存 %r13 寄存器的值到棧
EMIT3_off32(0x4C, 0x89, 0xAD, -stacksize + 8);
// 保存 %r14 寄存器的值到棧
EMIT3_off32(0x4C, 0x89, 0xB5, -stacksize + 16);
// 保存 %r15 寄存器的值到棧
EMIT3_off32(0x4C, 0x89, 0xBD, -stacksize + 24);
EMIT2(0x31, 0xc0); /* 對 %eax 寄存器清零,相對于:xor %eax, %eax */
EMIT3(0x4D, 0x31, 0xED); /* 對 %r13 寄存器清零,相對于:xor %r13, %r13 */
...
// 遍歷 eBPF 字節碼,開始將 eBPF 字節碼編譯成本地機器碼
for (i = 0; i < insn_cnt; i++, insn++) {
...
switch (insn->code) { // 通過一個 switch 語句來對 eBPF 字節碼進行不同的編譯過程
...
/* 編譯:mov dst, src */
case BPF_ALU64 | BPF_MOV | BPF_X:
EMIT_mov(dst_reg, src_reg);
break;
...
}
ilen = prog - temp;
...
if (image) {
...
memcpy(image + proglen, temp, ilen);
}
proglen += ilen;
addrs[i] = proglen;
prog = temp;
}
return proglen;
}
由于 eBPF 程序會被編譯成一個函數調用,所以 do_jit() 函數首先會構建一個函數調用的環境,如:申請函數??臻g,把一些寄存器壓棧等操作。
然后 do_jit() 函數會遍歷 eBPF 字節碼,并且對其進行編譯成本地機器碼。
例如對于 eBPF 的 BPF_ALU64|BPF_MOV|BPF_X 字節碼,內核會將其編譯成 mov %目標寄存器, %源寄存器 指令的機器碼,其他 eBPF 字節碼的編譯過程類似。
所以,當內核沒有開啟 JIT 功能時,將會使用 __bpf_prog_run() 函數來執行 eBPF 字節碼。
而當內核開啟了 JIT 功能時,內核首先會將 eBPF 字節碼編譯成本地機器碼,然后直接執行機器碼即可。
這樣就加速了 eBPF 程序的執行效率。