擴展 Spark SQL 解析,你知道嗎?
大家好久不見了,最近生活發生了很多變故,同時我也大病了一場,希望一切都盡快好起來吧。今天跟大家分享下Spark吧,談談如何修改Spark SQL解析,讓其更符合你的業務邏輯。好,我們開始吧...
理論基礎
ANTLR
Antlr4是一款開源的語法分析器生成工具,能夠根據語法規則文件生成對應的語法分析器?,F在很多流行的應用和開源項目里都有使用,比如Hadoop、Hive以及Spark等都在使用ANTLR來做語法分析。
ANTLR 語法識別一般分為二個階段:
1.詞法分析階段 (lexical analysis)
對應的分析程序叫做 lexer ,負責將符號(token)分組成符號類(token class or token type)
2.解析階段
根據詞法,構建出一棵分析樹(parse tree)或叫語法樹(syntax tree)
ANTLR的語法文件,非常像電路圖,從入口到出口,每個Token就像電阻,連接線就是短路點。
語法文件(*.g4)
上面截圖對應的語法文件片段,定義了兩部分語法,一部分是顯示表達式和賦值,另外一部分是運算和表達式定義。
- stat: expr NEWLINE # printExpr
- | ID '=' expr NEWLINE # assign
- | NEWLINE # blank
- ;
- expr: expr op=('*'|'/') expr # MulDiv
- | expr op=('+'|'-') expr # AddSub
- | INT # int
- | ID # id
- | '(' expr ')' # parens
- ;
接下來,加上定義詞法部分,就能形成完整的語法文件。
完整語法文件:
- grammar LabeledExpr; // rename to distinguish from Expr.g4
- prog: stat+ ;
- stat: expr NEWLINE # printExpr
- | ID '=' expr NEWLINE # assign
- | NEWLINE # blank
- ;
- expr: expr op=('*'|'/') expr # MulDiv
- | expr op=('+'|'-') expr # AddSub
- | INT # int
- | ID # id
- | '(' expr ')' # parens
- ;
- MUL : '*' ; // assigns token name to '*' used above in grammar
- DIV : '/' ;
- ADD : '+' ;
- SUB : '-' ;
- ID : [a-zA-Z]+ ; // match identifiers
- INT : [0-9]+ ; // match integers
- NEWLINE:'\r'? '\n' ; // return newlines to parser (is end-statement signal)
- WS : [ \t]+ -> skip ; // toss out whitespace
SqlBase.g4
Spark的語法文件,在sql下的catalyst模塊里,如下圖:
擴展語法定義
一條正常SQL,例如 Select t.id,t.name from t , 現在我們為其添加一個 JACKY表達式,令其出現在 Select 后面 ,形成一條語句
- Select t.id,t.name JACKY(2) from t
我們先看一下正常的語法規則:
現在我們添加一個 jackyExpression
jackExpression 本身的規則就是 JACKY加上括號包裹的一個數字
將 JACKY 添加為token
修改語法文件 如下:
- jackyExpression
- : JACKY'(' number ')'
- //expression
- ;
- namedExpression
- : expression (AS? (identifier | identifierList))?
- ;
- namedExpressionSeq
- : namedExpression (',' namedExpression | jackyExpression )*
- ;
擴展邏輯計劃
經過上面的修改,就可以測試語法規則,是不是符合預期了,下面是一顆解析樹,我們可以看到jackyExpression已經可以正常解析了。
Spark 執行流程
這里引用一張經典的Spark SQL架構圖
我們輸入的 SQL語句 首先被解析成 Unresolved Logical Pan ,對應的是
給邏輯計劃添加遍歷方法:
- override def visitJackyExpression(ctx: JackyExpressionContext): String = withOrigin(ctx) {
- println("this is astbuilder jacky = "+ctx.number().getText)
- this.jacky = ctx.number().getText.toInt
- ctx.number().getText
- }
再處理namedExpression的時候,添加jackyExpression處理
- // Expressions.
- val expressions = Option(namedExpressionSeq).toSeq
- .flatMap(_.namedExpression.asScala)
- .map(typedVisit[Expression])
- //jackyExpression 處理
- if(namedExpressionSeq().jackyExpression()!=null && namedExpressionSeq().jackyExpression().size() > 0){
- visitJackyExpression(namedExpressionSeq().jackyExpression().get(0))
- }
好了,到這里從邏輯計劃處理就完成了,有了邏輯計劃,就可以在后續物理計劃中添加相應的處理邏輯就可以了(還沒研究明白... Orz)。
測試
測試用例
- public class Case4 {
- public static void main(String[] args) {
- CharStream ca = CharStreams.fromString("SELECT `b`.`id`,`b`.`class` JACKY(2) FROM `b` LIMIT 10");
- SqlBaseLexer lexer = new SqlBaseLexer(ca);
- SqlBaseParser sqlBaseParser = new SqlBaseParser(new CommonTokenStream(lexer));
- ParseTree parseTree = sqlBaseParser.singleStatement();
- AstBuilder astBuilder = new AstBuilder();
- astBuilder.visit(parseTree);
- System.out.println(parseTree.toStringTree(sqlBaseParser));
- System.out.println(astBuilder.jacky());
- }
- }
執行結果
本文轉載自微信公眾號「麒思妙想」,可以通過以下二維碼關注。轉載本文請聯系麒思妙想公眾號。