幾百行代碼實(shí)現(xiàn)一個(gè)腳本解釋器
前言
最近又在重新學(xué)習(xí)編譯原理了,其實(shí)兩年前也復(fù)習(xí)過(guò),當(dāng)初是為了能實(shí)現(xiàn)通過(guò) MySQL 的 DDL 生成 Python 中 sqlalchemy 的 model。
雖然完成了相關(guān)功能,但現(xiàn)在看來(lái)其實(shí)實(shí)現(xiàn)的比較糙的,而且也只運(yùn)用到了詞法分析;所以這次我的目的是可以通過(guò)詞法分析->語(yǔ)法分析->語(yǔ)義分析 最終能實(shí)現(xiàn)一個(gè)功能完善的腳本"語(yǔ)言"。
效果
現(xiàn)在也有了一些階段性的成果,如下圖所示:
目前具備以下基本功能:
- 變量聲明與賦值(只支持 int)。
- 二次運(yùn)算(優(yōu)先級(jí)支持)。
- 語(yǔ)法檢查。
- debug 模式,可以打印 AST。
感興趣的朋友可以在這里查看源碼: https://github.com/crossoverJie/gscript。
本地有 go 環(huán)境的話也可以安裝運(yùn)行。
go get github.com/crossoverJie/gscript
gscript -h
或者直接下載二進(jìn)制文件運(yùn)行:https://github.com/crossoverJie/gscript/releases。
實(shí)現(xiàn)
當(dāng)前版本是使用 go 編寫(xiě)的,確實(shí)也如標(biāo)題所說(shuō),核心代碼還不到 1k 行代碼,當(dāng)然這也和目前功能簡(jiǎn)陋有關(guān)。
不過(guò)麻雀雖小五臟俱全,從當(dāng)前版本還是運(yùn)用到了編譯原理中的部分知識(shí):詞法、語(yǔ)法分析。
基本實(shí)現(xiàn)流程如上圖:
- 通過(guò)詞法分析器將源碼中解析出 token。
- 再通過(guò)對(duì) token 推導(dǎo)生成出抽象語(yǔ)法樹(shù)(AST) 如果語(yǔ)法語(yǔ)法出現(xiàn)錯(cuò)誤,這一步驟便會(huì)拋出編譯失敗,比如 2*(1+少了一個(gè)括號(hào)。
因?yàn)闆](méi)有使用類(lèi)似于 ANTLR 這樣工具來(lái)輔助生成代碼(不然功能也不會(huì)只有這么點(diǎn)),所以其中的詞法、語(yǔ)法分析都是手寫(xiě)的,代碼量并不大,對(duì)于想要調(diào)試的朋友可以直接查看源碼。
詞法分析器:token/token.go:39 語(yǔ)法分析器:syntax/syntax.go。
其中會(huì)涉及到一些概念,比如有限狀態(tài)機(jī)、遞歸下降算法等知識(shí)點(diǎn)就沒(méi)在本文討論了,后續(xù)這個(gè)項(xiàng)目功能更加完善后也會(huì)重頭整理。
規(guī)劃
最后是畫(huà)餅階段了,不出意外后續(xù)會(huì)繼續(xù)新增如下功能:
- 更多的基礎(chǔ)類(lèi)型,string/long 之類(lèi)的。
- 變量作用域、函數(shù)。
- 甚至是閉包。
- OOP 肯定也少不了。
這些特性都實(shí)現(xiàn)后那也算是一個(gè)"現(xiàn)代"的腳本語(yǔ)言了,后續(xù)我也會(huì)繼續(xù)更新學(xué)習(xí)和實(shí)現(xiàn)過(guò)程中的有趣內(nèi)容。
源碼地址: https://github.com/crossoverJie/gscript。