成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

<tt id="jrfrw"><dl id="jrfrw"><pre id="jrfrw"></pre></dl></tt>

鴻蒙開發者社區

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創認證華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發者社區

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發者社區訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業版APP

鴻蒙開發者社區視頻號

51CTO軟考題庫

賬號設置退出

擴展 Spark SQL 解析，你知道嗎?

作者：dafei1288 2021-04-20 23:16:06

運維數據庫運維 Spark

大家好久不見了，最近生活發生了很多變故，同時我也大病了一場，希望一切都盡快好起來吧。今天跟大家分享下Spark吧，談談如何修改Spark SQL解析，讓其更符合你的業務邏輯。好，我們開始吧...

大家好久不見了，最近生活發生了很多變故，同時我也大病了一場，希望一切都盡快好起來吧。今天跟大家分享下Spark吧，談談如何修改Spark SQL解析，讓其更符合你的業務邏輯。好，我們開始吧...

理論基礎

ANTLR

Antlr4是一款開源的語法分析器生成工具，能夠根據語法規則文件生成對應的語法分析器?，F在很多流行的應用和開源項目里都有使用，比如Hadoop、Hive以及Spark等都在使用ANTLR來做語法分析。

ANTLR 語法識別一般分為二個階段：

1.詞法分析階段 (lexical analysis)

對應的分析程序叫做 lexer ，負責將符號(token)分組成符號類(token class or token type)

2.解析階段

根據詞法，構建出一棵分析樹(parse tree)或叫語法樹(syntax tree)

ANTLR的語法文件，非常像電路圖，從入口到出口，每個Token就像電阻，連接線就是短路點。

語法文件(*.g4)

上面截圖對應的語法文件片段，定義了兩部分語法，一部分是顯示表達式和賦值，另外一部分是運算和表達式定義。

stat:   expr NEWLINE               # printExpr 
  |   ID '=' expr NEWLINE         # assign 
  |   NEWLINE                     # blank 
  ; 
 
expr:   expr op=('*'|'/') expr     # MulDiv 
  |   expr op=('+'|'-') expr     # AddSub 
  |   INT                         # int 
  |   ID                         # id 
  |   '(' expr ')'               # parens 
  ;

接下來，加上定義詞法部分，就能形成完整的語法文件。

完整語法文件：

grammar LabeledExpr; // rename to distinguish from Expr.g4 
 
prog:   stat+ ; 
 
stat:   expr NEWLINE               # printExpr 
  |   ID '=' expr NEWLINE         # assign 
  |   NEWLINE                     # blank 
  ; 
 
expr:   expr op=('*'|'/') expr     # MulDiv 
  |   expr op=('+'|'-') expr     # AddSub 
  |   INT                         # int 
  |   ID                         # id 
  |   '(' expr ')'               # parens 
  ; 
 
MUL :   '*' ; // assigns token name to '*' used above in grammar 
DIV :   '/' ; 
ADD :   '+' ; 
SUB :   '-' ; 
ID :   [a-zA-Z]+ ;     // match identifiers 
INT :   [0-9]+ ;         // match integers 
NEWLINE:'\r'? '\n' ;     // return newlines to parser (is end-statement signal) 
WS :   [ \t]+ -> skip ; // toss out whitespace

SqlBase.g4

Spark的語法文件，在sql下的catalyst模塊里，如下圖：

擴展語法定義

一條正常SQL，例如 Select t.id,t.name from t , 現在我們為其添加一個 JACKY表達式，令其出現在 Select 后面，形成一條語句

Select t.id,t.name JACKY(2) from t

我們先看一下正常的語法規則：

現在我們添加一個 jackyExpression

jackExpression 本身的規則就是 JACKY加上括號包裹的一個數字

將 JACKY 添加為token

修改語法文件如下：

jackyExpression 
  : JACKY'(' number ')' 
  //expression 
  ; 
 
namedExpression 
  : expression (AS? (identifier | identifierList))? 
  ; 
 
namedExpressionSeq 
  : namedExpression (',' namedExpression | jackyExpression )* 
  ;

擴展邏輯計劃

經過上面的修改，就可以測試語法規則，是不是符合預期了，下面是一顆解析樹,我們可以看到jackyExpression已經可以正常解析了。

Spark 執行流程

這里引用一張經典的Spark SQL架構圖

我們輸入的 SQL語句首先被解析成 Unresolved Logical Pan ，對應的是

給邏輯計劃添加遍歷方法：

 override def visitJackyExpression(ctx: JackyExpressionContext): String = withOrigin(ctx) { 
   println("this is astbuilder jacky = "+ctx.number().getText) 
 
   this.jacky = ctx.number().getText.toInt 
 
   ctx.number().getText 
}

再處理namedExpression的時候，添加jackyExpression處理

// Expressions. 
   val expressions = Option(namedExpressionSeq).toSeq 
    .flatMap(_.namedExpression.asScala) 
    .map(typedVisit[Expression]) 
 
 
//jackyExpression 處理 
   if(namedExpressionSeq().jackyExpression()!=null && namedExpressionSeq().jackyExpression().size() > 0){ 
     visitJackyExpression(namedExpressionSeq().jackyExpression().get(0)) 
  }

好了，到這里從邏輯計劃處理就完成了，有了邏輯計劃，就可以在后續物理計劃中添加相應的處理邏輯就可以了(還沒研究明白... Orz)。

測試

測試用例

public class Case4 { 
   public static void main(String[] args) { 
       CharStream ca = CharStreams.fromString("SELECT `b`.`id`,`b`.`class` JACKY(2) FROM `b` LIMIT 10"); 
       SqlBaseLexer lexer = new SqlBaseLexer(ca); 
       SqlBaseParser sqlBaseParser = new SqlBaseParser(new CommonTokenStream(lexer)); 
       ParseTree parseTree = sqlBaseParser.singleStatement(); 
 
       AstBuilder astBuilder = new AstBuilder(); 
       astBuilder.visit(parseTree); 
       System.out.println(parseTree.toStringTree(sqlBaseParser)); 
       System.out.println(astBuilder.jacky()); 
  } 
}

執行結果

本文轉載自微信公眾號「麒思妙想」，可以通過以下二維碼關注。轉載本文請聯系麒思妙想公眾號。

責任編輯：武曉燕來源：麒思妙想

Spark SQL 語法

51CTO技術棧公眾號

業務
速覽

媒體

51CTO CIOAge HC3i

社區

51CTO博客鴻蒙開發者社區 AI.x社區

教育

51CTO學堂精培企業培訓 CTO訓練營

主站蜘蛛池模板：欧美一级片在线看 | 亚洲成人三区 | 日韩一区精品 | 午夜免费视频观看 | 羞羞视频网站 | 久久久一 | 一区二区三区欧美 | 久久九九网站 | 午夜看电影在线观看 | 久久国产精品一区二区 | 日韩av一区二区在线观看 | 国产在视频一区二区三区吞精 | 精品久久精品 | 国产精品区二区三区日本 | 国产日韩精品在线 | 国产高清在线 | 中文字幕在线免费观看 | av大片在线 | 波多野吉衣在线播放 | 久久精品免费观看 | 自拍亚洲欧美老师丝袜 | 在线免费亚洲视频 | 国产在线精品一区二区 | 一区二区免费在线 | 精品一区二区三区在线观看 | 97色伦网 | 国产中文一区二区三区 | 国产精品日日做人人爱 | 国产三级一区二区 | 国产精品乱码一区二区三区 | 国产一区二区在线播放 | 久久久久无码国产精品一区 | 综合天天久久 | caoporn免费 | 99re视频这里只有精品 | www中文字幕 | 日韩免费一区二区 | 久久亚洲综合 | 在线一区视频 | 日韩久久久久久 | 日韩欧美理论片 |

<table id="rvwlx"><small id="rvwlx"></small></table>

<kbd id="rvwlx"></kbd><table id="rvwlx"><small id="rvwlx"><u id="rvwlx"></u></small></table>

<kbd id="rvwlx"></kbd>