Hive底層原理：Explain執行計劃詳解

作者：園陌 2021-02-20 08:40:19

大數據

本節將介紹 explain 的用法及參數介紹,IVE提供了EXPLAIN命令來展示一個查詢的執行計劃,這個執行計劃對于我們了解底層原理，hive 調優，排查數據傾斜等很有幫助。

[[382322]]

本文轉載自微信公眾號「五分鐘學大數據」，作者園陌。轉載本文請聯系五分鐘學大數據公眾號。

理論

本節將介紹 explain 的用法及參數介紹

HIVE提供了EXPLAIN命令來展示一個查詢的執行計劃,這個執行計劃對于我們了解底層原理，hive 調優，排查數據傾斜等很有幫助

使用語法如下：

explain 后面可以跟以下可選參數，注意：這幾個可選參數不是 hive 每個版本都支持的

EXTENDED：加上 extended 可以輸出有關計劃的額外信息。這通常是物理信息，例如文件名。這些額外信息對我們用處不大
CBO：輸出由Calcite優化器生成的計劃。CBO 從 hive 4.0.0 版本開始支持
AST：輸出查詢的抽象語法樹。AST 在hive 2.1.0 版本刪除了，存在bug，轉儲AST可能會導致OOM錯誤，將在4.0.0版本修復
DEPENDENCY：dependency在EXPLAIN語句中使用會產生有關計劃中輸入的額外信息。它顯示了輸入的各種屬性
AUTHORIZATION：顯示所有的實體需要被授權執行(如果存在)的查詢和授權失敗
LOCKS：這對于了解系統將獲得哪些鎖以運行指定的查詢很有用。LOCKS 從 hive 3.2.0 開始支持
VECTORIZATION：將詳細信息添加到EXPLAIN輸出中，以顯示為什么未對Map和Reduce進行矢量化。從 Hive 2.3.0 開始支持
ANALYZE：用實際的行數注釋計劃。從 Hive 2.2.0 開始支持

在 hive cli 中輸入以下命令(hive 2.3.7)：

explain select sum(id) from test1;

得到結果(請逐行看完，即使看不懂也要每行都看)：

STAGE DEPENDENCIES: 
  Stage-1 is a root stage 
  Stage-0 depends on stages: Stage-1 
 
STAGE PLANS: 
  Stage: Stage-1 
    Map Reduce 
      Map Operator Tree: 
          TableScan 
            alias: test1 
            Statistics: Num rows: 6 Data size: 75 Basic stats: COMPLETE Column stats: NONE 
            Select Operator 
              expressions: id (type: int) 
              outputColumnNames: id 
              Statistics: Num rows: 6 Data size: 75 Basic stats: COMPLETE Column stats: NONE 
              Group By Operator 
                aggregations: sum(id) 
                mode: hash 
                outputColumnNames: _col0 
                Statistics: Num rows: 1 Data size: 8 Basic stats: COMPLETE Column stats: NONE 
                Reduce Output Operator 
                  sort order: 
                  Statistics: Num rows: 1 Data size: 8 Basic stats: COMPLETE Column stats: NONE 
                  value expressions: _col0 (type: bigint) 
      Reduce Operator Tree: 
        Group By Operator 
          aggregations: sum(VALUE._col0) 
          mode: mergepartial 
          outputColumnNames: _col0 
          Statistics: Num rows: 1 Data size: 8 Basic stats: COMPLETE Column stats: NONE 
          File Output Operator 
            compressed: false 
            Statistics: Num rows: 1 Data size: 8 Basic stats: COMPLETE Column stats: NONE 
            table: 
                input format: org.apache.hadoop.mapred.SequenceFileInputFormat 
                output format: org.apache.hadoop.hive.ql.io.HiveSequenceFileOutputFormat 
                serde: org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe 
 
  Stage: Stage-0 
    Fetch Operator 
      limit: -1 
      Processor Tree: 
        ListSink

看完以上內容有什么感受，是不是感覺都看不懂，不要著急，下面將會詳細講解每個參數，相信你學完下面的內容之后再看 explain 的查詢結果將游刃有余。

一個HIVE查詢被轉換為一個由一個或多個stage組成的序列(有向無環圖DAG)。這些stage可以是MapReduce stage，也可以是負責元數據存儲的stage，也可以是負責文件系統的操作(比如移動和重命名)的stage。

我們將上述結果拆分看，先從最外層開始，包含兩個大的部分：

stage dependencies：各個stage之間的依賴性
stage plan：各個stage的執行計劃

先看第一部分 stage dependencies ，包含兩個 stage，Stage-1 是根stage，說明這是開始的stage，Stage-0 依賴 Stage-1，Stage-1執行完成后執行Stage-0。

再看第二部分 stage plan，里面有一個 Map Reduce，一個MR的執行計劃分為兩個部分：

Map Operator Tree： MAP端的執行計劃樹
Reduce Operator Tree： Reduce端的執行計劃樹

這兩個執行計劃樹里面包含這條sql語句的 operator：

1.map端第一個操作肯定是加載表，所以就是 TableScan 表掃描操作，常見的屬性：

alias：表名稱
Statistics：表統計信息，包含表中數據條數，數據大小等

2.Select Operator：選取操作，常見的屬性：

expressions：需要的字段名稱及字段類型
outputColumnNames：輸出的列名稱
Statistics：表統計信息，包含表中數據條數，數據大小等

3.Group By Operator：分組聚合操作，常見的屬性：

aggregations：顯示聚合函數信息
mode：聚合模式，值有 hash：隨機聚合，就是hash partition;partial：局部聚合;final：最終聚合
keys：分組的字段，如果沒有分組，則沒有此字段
outputColumnNames：聚合之后輸出列名
Statistics：表統計信息，包含分組聚合之后的數據條數，數據大小等

4.Reduce Output Operator：輸出到reduce操作，常見屬性：

sort order：值為空不排序;值為 + 正序排序，值為 - 倒序排序;值為 +- 排序的列為兩列，第一列為正序，第二列為倒序

5.Filter Operator：過濾操作，常見的屬性：

predicate：過濾條件，如sql語句中的where id>=1，則此處顯示(id >= 1)

6.Map Join Operator：join 操作，常見的屬性：

condition map：join方式，如Inner Join 0 to 1 Left Outer Join0 to 2
keys: join 的條件字段
outputColumnNames： join 完成之后輸出的字段
Statistics： join 完成之后生成的數據條數，大小等

7.File Output Operator：文件輸出操作，常見的屬性

compressed：是否壓縮
table：表的信息，包含輸入輸出文件格式化方式，序列化方式等

8.Fetch Operator 客戶端獲取數據操作，常見的屬性：

limit，值為 -1 表示不限制條數，其他值為限制的條數

好，學到這里再翻到上面 explain 的查詢結果，是不是感覺基本都能看懂了。

實踐

本節介紹 explain 能夠為我們在生產實踐中帶來哪些便利及解決我們哪些迷惑

1. join 語句會過濾 null 的值嗎?

現在，我們在hive cli 輸入以下查詢計劃語句

select a.id,b.user_name from test1 a join test2 b on a.id=b.id;

問：上面這條 join 語句會過濾 id 為 null 的值嗎

執行下面語句：

explain select a.id,b.user_name from test1 a join test2 b on a.id=b.id;

我們來看結果 (為了適應頁面展示，僅截取了部分輸出信息)：

TableScan 
 alias: a 
 Statistics: Num rows: 6 Data size: 75 Basic stats: COMPLETE Column stats: NONE 
 Filter Operator 
    predicate: id is not null (type: boolean) 
    Statistics: Num rows: 6 Data size: 75 Basic stats: COMPLETE Column stats: NONE 
    Select Operator 
        expressions: id (type: int) 
        outputColumnNames: _col0 
        Statistics: Num rows: 6 Data size: 75 Basic stats: COMPLETE Column stats: NONE 
        HashTable Sink Operator 
           keys: 
             0 _col0 (type: int) 
             1 _col0 (type: int) 
 ...

從上述結果可以看到 predicate: id is not null 這樣一行，說明 join 時會自動過濾掉關聯字段為 null 值的情況，但 left join 或 full join 是不會自動過濾的，大家可以自行嘗試下。

2. group by 分組語句會進行排序嗎?

看下面這條sql

select id,max(user_name) from test1 group by id;

問：group by 分組語句會進行排序嗎

直接來看 explain 之后結果 (為了適應頁面展示，僅截取了部分輸出信息)

TableScan 
   alias: test1 
   Statistics: Num rows: 9 Data size: 108 Basic stats: COMPLETE Column stats: NONE 
   Select Operator 
       expressions: id (type: int), user_name (type: string) 
       outputColumnNames: id, user_name 
       Statistics: Num rows: 9 Data size: 108 Basic stats: COMPLETE Column stats: NONE 
       Group By Operator 
          aggregations: max(user_name) 
          keys: id (type: int) 
          mode: hash 
          outputColumnNames: _col0, _col1 
          Statistics: Num rows: 9 Data size: 108 Basic stats: COMPLETE Column stats: NONE 
          Reduce Output Operator 
            key expressions: _col0 (type: int) 
            sort order: + 
            Map-reduce partition columns: _col0 (type: int) 
            Statistics: Num rows: 9 Data size: 108 Basic stats: COMPLETE Column stats: NONE 
            value expressions: _col1 (type: string) 
...

我們看 Group By Operator，里面有 keys: id (type: int) 說明按照 id 進行分組的，再往下看還有 sort order: + ，說明是按照 id 字段進行正序排序的。

3. 哪條sql執行效率高呢?

觀察兩條sql語句

SELECT 
    a.id, 
    b.user_name 
FROM 
    test1 a 
JOIN test2 b ON a.id = b.id 
WHERE 
    a.id > 2; 
SELECT 
    a.id, 
    b.user_name 
FROM 
    (SELECT * FROM test1 WHERE id > 2) a 
JOIN test2 b ON a.id = b.id;

這兩條sql語句輸出的結果是一樣的，但是哪條sql執行效率高呢

有人說第一條sql執行效率高，因為第二條sql有子查詢，子查詢會影響性能

有人說第二條sql執行效率高，因為先過濾之后，在進行join時的條數減少了，所以執行效率就高了

到底哪條sql效率高呢，我們直接在sql語句前面加上 explain，看下執行計劃不就知道了嘛

在第一條sql語句前加上 explain，得到如下結果

hive (default)> explain select a.id,b.user_name from test1 a join test2 b on a.id=b.id where a.id >2; 
OK 
Explain 
STAGE DEPENDENCIES: 
  Stage-4 is a root stage 
  Stage-3 depends on stages: Stage-4 
  Stage-0 depends on stages: Stage-3 
 
STAGE PLANS: 
  Stage: Stage-4 
    Map Reduce Local Work 
      Alias -> Map Local Tables: 
        $hdt$_0:a 
          Fetch Operator 
            limit: -1 
      Alias -> Map Local Operator Tree: 
        $hdt$_0:a 
          TableScan 
            alias: a 
            Statistics: Num rows: 6 Data size: 75 Basic stats: COMPLETE Column stats: NONE 
            Filter Operator 
              predicate: (id > 2) (type: boolean) 
              Statistics: Num rows: 2 Data size: 25 Basic stats: COMPLETE Column stats: NONE 
              Select Operator 
                expressions: id (type: int) 
                outputColumnNames: _col0 
                Statistics: Num rows: 2 Data size: 25 Basic stats: COMPLETE Column stats: NONE 
                HashTable Sink Operator 
                  keys: 
                    0 _col0 (type: int) 
                    1 _col0 (type: int) 
 
  Stage: Stage-3 
    Map Reduce 
      Map Operator Tree: 
          TableScan 
            alias: b 
            Statistics: Num rows: 6 Data size: 75 Basic stats: COMPLETE Column stats: NONE 
            Filter Operator 
              predicate: (id > 2) (type: boolean) 
              Statistics: Num rows: 2 Data size: 25 Basic stats: COMPLETE Column stats: NONE 
              Select Operator 
                expressions: id (type: int), user_name (type: string) 
                outputColumnNames: _col0, _col1 
                Statistics: Num rows: 2 Data size: 25 Basic stats: COMPLETE Column stats: NONE 
                Map Join Operator 
                  condition map: 
                       Inner Join 0 to 1 
                  keys: 
                    0 _col0 (type: int) 
                    1 _col0 (type: int) 
                  outputColumnNames: _col0, _col2 
                  Statistics: Num rows: 2 Data size: 27 Basic stats: COMPLETE Column stats: NONE 
                  Select Operator 
                    expressions: _col0 (type: int), _col2 (type: string) 
                    outputColumnNames: _col0, _col1 
                    Statistics: Num rows: 2 Data size: 27 Basic stats: COMPLETE Column stats: NONE 
                    File Output Operator 
                      compressed: false 
                      Statistics: Num rows: 2 Data size: 27 Basic stats: COMPLETE Column stats: NONE 
                      table: 
                          input format: org.apache.hadoop.mapred.SequenceFileInputFormat 
                          output format: org.apache.hadoop.hive.ql.io.HiveSequenceFileOutputFormat 
                          serde: org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe 
      Local Work: 
        Map Reduce Local Work 
 
  Stage: Stage-0 
    Fetch Operator 
      limit: -1 
      Processor Tree: 
        ListSink

在第二條sql語句前加上 explain，得到如下結果

hive (default)> explain select a.id,b.user_name from(select * from  test1 where id>2 ) a join test2 b on a.id=b.id; 
OK 
Explain 
STAGE DEPENDENCIES: 
  Stage-4 is a root stage 
  Stage-3 depends on stages: Stage-4 
  Stage-0 depends on stages: Stage-3 
 
STAGE PLANS: 
  Stage: Stage-4 
    Map Reduce Local Work 
      Alias -> Map Local Tables: 
        $hdt$_0:test1 
          Fetch Operator 
            limit: -1 
      Alias -> Map Local Operator Tree: 
        $hdt$_0:test1 
          TableScan 
            alias: test1 
            Statistics: Num rows: 6 Data size: 75 Basic stats: COMPLETE Column stats: NONE 
            Filter Operator 
              predicate: (id > 2) (type: boolean) 
              Statistics: Num rows: 2 Data size: 25 Basic stats: COMPLETE Column stats: NONE 
              Select Operator 
                expressions: id (type: int) 
                outputColumnNames: _col0 
                Statistics: Num rows: 2 Data size: 25 Basic stats: COMPLETE Column stats: NONE 
                HashTable Sink Operator 
                  keys: 
                    0 _col0 (type: int) 
                    1 _col0 (type: int) 
 
  Stage: Stage-3 
    Map Reduce 
      Map Operator Tree: 
          TableScan 
            alias: b 
            Statistics: Num rows: 6 Data size: 75 Basic stats: COMPLETE Column stats: NONE 
            Filter Operator 
              predicate: (id > 2) (type: boolean) 
              Statistics: Num rows: 2 Data size: 25 Basic stats: COMPLETE Column stats: NONE 
              Select Operator 
                expressions: id (type: int), user_name (type: string) 
                outputColumnNames: _col0, _col1 
                Statistics: Num rows: 2 Data size: 25 Basic stats: COMPLETE Column stats: NONE 
                Map Join Operator 
                  condition map: 
                       Inner Join 0 to 1 
                  keys: 
                    0 _col0 (type: int) 
                    1 _col0 (type: int) 
                  outputColumnNames: _col0, _col2 
                  Statistics: Num rows: 2 Data size: 27 Basic stats: COMPLETE Column stats: NONE 
                  Select Operator 
                    expressions: _col0 (type: int), _col2 (type: string) 
                    outputColumnNames: _col0, _col1 
                    Statistics: Num rows: 2 Data size: 27 Basic stats: COMPLETE Column stats: NONE 
                    File Output Operator 
                      compressed: false 
                      Statistics: Num rows: 2 Data size: 27 Basic stats: COMPLETE Column stats: NONE 
                      table: 
                          input format: org.apache.hadoop.mapred.SequenceFileInputFormat 
                          output format: org.apache.hadoop.hive.ql.io.HiveSequenceFileOutputFormat 
                          serde: org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe 
      Local Work: 
        Map Reduce Local Work 
 
  Stage: Stage-0 
    Fetch Operator 
      limit: -1 
      Processor Tree: 
        ListSink

大家有什么發現，除了表別名不一樣，其他的執行計劃完全一樣，都是先進行 where 條件過濾，在進行 join 條件關聯。說明 hive 底層會自動幫我們進行優化，所以這兩條sql語句執行效率是一樣的。

最后

以上僅列舉了3個我們生產中既熟悉又有點迷糊的例子，explain 還有很多其他的用途，如查看stage的依賴情況、排查數據傾斜、hive 調優等，小伙伴們可以自行嘗試。

責任編輯：武曉燕來源：五分鐘學大數據

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

Hive底層原理：Explain執行計劃詳解