SQL：一種熟悉又陌生的編程語言，你了解他嗎？

作者：小姐姐學Python 2019-07-19 15:21:00

這里有幾個關鍵詞;“熟悉”、“陌生”、“編程語言”。說它“熟悉”，是因為它是DBA和廣大開發人員，操作數據庫的主要手段，幾乎每天都在使用。說它“陌生”，是很多人只是簡單的使用它，至于它是怎么工作的?如何才能讓它更高效的工作?卻從來沒有考慮過。

一、SQL ：一種熟悉又陌生的編程語言

這里有幾個關鍵詞;“熟悉”、“陌生”、“編程語言”。

說它“熟悉”，是因為它是DBA和廣大開發人員，操作數據庫的主要手段，幾乎每天都在使用。說它“陌生”，是很多人只是簡單的使用它，至于它是怎么工作的?如何才能讓它更高效的工作?卻從來沒有考慮過。

[[271147]]

這里把SQL歸結為一種“編程語言”，可能跟很多人對它的認知不同。讓我們看看它的簡單定義(以下內容摘自百度百科)

結構化查詢語言(Structured Query Language)，簡稱SQL，是一種特殊目的的編程語言，是一種數據庫查詢和程序設計語言，用于存取數據以及查詢、更新和管理關系數據庫系統。結構化查詢語言是高級的非過程化編程語言，允許用戶在高層數據結構上工作。它不要求用戶指定對數據的存放方法，也不需要用戶了解具體的數據存放方式，所以具有完全不同底層結構的不同數據庫系統, 可以使用相同的結構化查詢語言作為數據輸入與管理的接口。結構化查詢語言語句可以嵌套，這使它具有極大的靈活性和強大的功能。

總結一句話，SQL是一種非過程化的的編程語言，可通過它去訪問關系型數據庫系統。

二、你真的了解“SQL”嗎?

下面我會通過一個小例子，看看大家是否真正了解SQL。

這是一個很簡單的示例，是關于SQL語句執行順序的。這里將一個普通的SELECT語句，拆分為三個子句。那么在實際的執行過程中，是按照什么順序處理的呢?這里有A-F六個選項，大家可以思考選擇一下…

最終的答案是D，即按照先執行FROM子句，然后WHERE子句，最后是SELECT部分。

針對上面的示例，讓我們真實構造一個場景，通過查看執行計劃看看是否按照我們選擇的順序執行的。關于執行計劃的判讀，我后面會專門談到。這里我先解釋一下整個執行過程。

第一步，是按照全表掃描的方式訪問了對象表(EMP)。對應于語句中的FROM部分。

第二步，是對提取出的結果集進行了過濾(filter部分)，即將滿足條件的記錄篩選出來。對應于語句中的WHERE部分。

第三步，是對滿足條件的記錄進行字段投射，即將需要顯示的字段提取出來。對應于語句中的SELECT部分。

這是一個詳細的SQL各部分執行順序的說明。

通過對執行順序的理解，可以為我們未來的優化工作帶來很大幫助。一個很淺顯的認識就是，優化動作越靠前越好。

三、SQL現在是否仍然重要?

這里引入了一個新的問題，在現有階段SQL語言是否還重要?

之所以引入這一話題，是因為隨著NOSQL、NEWSQL、BIGDATA等技術逐步成熟推廣，“SQL語言在現階段已經變得不那么重要”成為一些人的觀點。那實際情況又是如何呢?、

讓我們先來看一張經典的圖。圖中描述了傳統SMP架構的關系型數據庫、MPP架構的NEWSQL、MPP架構的NoSQL不同方案的適用場景對比。

從上面的“數據價值密度、實時性”來看，傳統關系型數據庫適合于價值密度更高、實時性要求更高的場景(這也就不難理解類似賬戶、金額類信息都是保存在傳統關系型數據庫中);MPP架構的NewSQL次之，MPP架構的NoSQL更適合于低價值、實時性要求不高的場景。

從下面的“數據規模”來看，傳統關系型數據庫適合保存的大小限制在TB級別，而后兩者可在更大尺度上(PB、EB)級保存數據。

從下面的“典型場景”來看，傳統關系型數據庫適合于OLTP在線交易系統;MPP架構的NewSQL適合于OLAP在線分析系統;而NoSQL的使用場景較多(利于KV型需求、數據挖掘等均可以考慮)。

最后從“數據特征”來看，前兩者適合于保存結構化數據，后者更適合于半結構化、乃至非結構化數據的保存。

歸納一下，不同技術有其各自特點，不存在誰代替誰的問題。傳統關系型數據庫有其自身鮮明特點，在某些場合依然是不二選擇。而作為其主要交互語言，SQL必然長期存在發展下去。

我們再來對比一下傳統數據庫與大數據技術。從數據量、增長型、多樣化、價值等維度對比兩種技術，各自有其適用場景。

對于大數據領域而言，各種技術層出不窮。但對于廣大使用者來說，往往會存在一定的使用門檻，因此現在的一種趨勢就是在大數據領域也引入“類SQL”，以類似SQL的方式訪問數據。這對于廣大使用者來說，無疑大大降低了使用門檻。

解答一些疑問：

NoSQL、NewSQL已經超越了傳統數據庫，SQL沒有了用武之地!

各種技術有著各自適合的不同場景，不能一概而論。SQL語言作為關系型數據庫的主要訪問方式，依然有其用武之地。

以后都是云時代了，誰還用關系型數據庫!

對于價值密度高，嚴格一致性的場景，仍然適合采用關系型數據庫作為解決方案。

我編程都是用OR Mapping工具，從不需要寫SQL!

的確，引入OR Mapping工具大大提高了生產效率，但是它的副作用也很明顯，那就是對語句的運行效率失去了控制。很多低效的語句，往往是通過工具直接生成的。這也是為什么有的Mapping工具還提供了原始的SQL接口，用來保證關鍵語句的執行效率。

大數據時代，我們都用Hadoop、Spark了，不用寫SQL啦!

無論是使用Hadoop、Spark都是可以通過編寫程序完成數據分析的，但其生產效率往往很低。這也是為什么產生了Hive 、Spark SQL等“類SQL”的解決方案來提高生產效率。

數據庫處理能力很強，不用太在意SQL性能!

的確，隨著多核CPU、大內存、閃存等硬件技術的發展，數據庫的處理能力較以前有了很大的增強。但是SQL的性能依然很重要。后面我們可以看到，一個簡單SQL語句就可以輕易地搞垮一個數據庫。

SQL優化，找DBA就行了，我就不用學了!

SQL優化是DBA的職責范疇，但對于開發人員來講，更應該對自己的代碼負責。如果能在開發階段就注重SQL質量，會避免很多低級問題。

我只是個運維DBA，SQL優化我不行!

DBA的發展可分為“運維DBA->開發DBA->數據架構師…”。如果只能完成數據庫的運維類工作，無疑是技能的欠缺，也是對各人未來發展不利。況且，隨著Paas云的逐步推廣，對于數據庫的運維需求越來越少，對于優化、設計、架構的要求越來越多。因此，SQL優化是每個DBA必須掌握的技能。

現在優化有工具了，很簡單的!

的確現在有些工具可以為我們減少些優化分析工作，會自動給出一些優化建議。但是，作為DBA來講，不僅要知其然，還要知其所以然。況且，數據庫優化器本身就是一個非常復雜的組件，很難做到完全無誤的優化，這就需要人工的介入，分析。