我一直以為SQL先執(zhí)行SELECT語(yǔ)句？一個(gè)窗口函數(shù)，我突然發(fā)現(xiàn)錯(cuò)了

作者：大數(shù)據(jù)互聯(lián)網(wǎng)架構(gòu)師 2020-06-22 13:48:08

每一個(gè)程序猿，在剛拿到一個(gè)測(cè)試數(shù)據(jù)庫(kù)的時(shí)候，第一件事，我想無(wú)出其右，select * from table，反正我是這樣，先看一下數(shù)據(jù)庫(kù)大小，直接執(zhí)行一下，剩下的再說(shuō)，除了莫名其妙的裝X之外，還有一個(gè)很大的原因就是很多 SQL 查詢都是以 SELECT 開(kāi)始的。不過(guò)，最近我跟別人解釋什么是窗口函數(shù)，我在網(wǎng)上搜索”是否可以對(duì)窗口函數(shù)返回的結(jié)果進(jìn)行過(guò)濾“這個(gè)問(wèn)題，得出的結(jié)論是”窗口函數(shù)必須在 WHERE 和 GROUP BY 之后，所以不能”。

于是我又想到了另一個(gè)問(wèn)題：SQL 查詢的執(zhí)行順序是怎樣的?

好像這個(gè)問(wèn)題應(yīng)該很好回答，畢竟自己已經(jīng)寫(xiě)了上萬(wàn)個(gè) SQL 查詢了，有一些還很復(fù)雜。但事實(shí)是，我仍然很難確切地說(shuō)出它的順序是怎樣的。

SQL 查詢的執(zhí)行順序

于是我研究了一下，發(fā)現(xiàn)順序大概是這樣的。SELECT 并不是最先執(zhí)行的，而是在第五個(gè)。

我一直以為SQL先執(zhí)行SELECT語(yǔ)句？一個(gè)窗口函數(shù)，我突然發(fā)現(xiàn)錯(cuò)了

這張圖回答了以下這些問(wèn)題

這張圖與 SQL 查詢的語(yǔ)義有關(guān)，讓你知道一個(gè)查詢會(huì)返回什么，并回答了以下這些問(wèn)題：

可以在 GRROUP BY 之后使用 WHERE 嗎?(不行，WHERE 是在 GROUP BY 之前!)
可以對(duì)窗口函數(shù)返回的結(jié)果進(jìn)行過(guò)濾嗎?(不行，窗口函數(shù)是 SELECT 語(yǔ)句里，而 SELECT 是在 WHERE 和 GROUP BY 之后)
可以基于 GROUP BY 里的東西進(jìn)行 ORDER BY 嗎?(可以，ORDER BY 基本上是在最后執(zhí)行的，所以可以基于任何東西進(jìn)行 ORDER BY)
LIMIT 是在什么時(shí)候執(zhí)行?(在最后!)

但數(shù)據(jù)庫(kù)引擎并不一定嚴(yán)格按照這個(gè)順序執(zhí)行 SQL 查詢，因?yàn)闉榱烁斓貓?zhí)行查詢，它們會(huì)做出一些優(yōu)化，這些問(wèn)題會(huì)在以后的文章中解釋。

所以：

如果你想要知道一個(gè)查詢語(yǔ)句是否合法，或者想要知道一個(gè)查詢語(yǔ)句會(huì)返回什么，上面的那張圖
在涉及查詢性能或者與索引有關(guān)的東西時(shí)，那張圖就不適用了。

混合因素：列別名

有很多 SQL 實(shí)現(xiàn)允許你使用這樣的語(yǔ)法：

SELECT CONCAT(first_name, ' ', last_name) AS full_name, count(*) 
FROM table 
GROUP BY full_name

從這個(gè)語(yǔ)句來(lái)看，好像 GROUP BY 是在 SELECT 之后執(zhí)行的，因?yàn)樗昧?SELECT 中的一個(gè)別名。但實(shí)際上不一定要這樣，數(shù)據(jù)庫(kù)引擎可以把查詢重寫(xiě)成這樣：

SELECT CONCAT(first_name, ' ', last_name) AS full_name, count(*) 
FROM table 
GROUP BY CONCAT(first_name, ' ', last_name)

這樣 GROUP BY 仍然先執(zhí)行。

數(shù)據(jù)庫(kù)引擎還會(huì)做一系列檢查，確保 SELECT 和 GROUP BY 中的東西是有效的，所以會(huì)在生成執(zhí)行計(jì)劃之前對(duì)查詢做一次整體檢查。

數(shù)據(jù)庫(kù)可能不按照這個(gè)順序執(zhí)行查詢(優(yōu)化)

在實(shí)際當(dāng)中，數(shù)據(jù)庫(kù)不一定會(huì)按照 JOIN、WHERE、GROUP BY 的順序來(lái)執(zhí)行查詢，因?yàn)樗鼈儠?huì)進(jìn)行一系列優(yōu)化，把執(zhí)行順序打亂，從而讓查詢執(zhí)行得更快，只要不改變查詢結(jié)果。

這個(gè)查詢說(shuō)明了為什么需要以不同的順序執(zhí)行查詢：

SELECT * FROM 
owners LEFT JOIN cats ON owners.id = cats.owner 
WHERE cats.name = 'mr darcy'

如果只需要找出名字叫“mr darcy”的貓，那就沒(méi)必要對(duì)兩張表的所有數(shù)據(jù)執(zhí)行左連接，在連接之前先進(jìn)行過(guò)濾，這樣查詢會(huì)快得多，而且對(duì)于這個(gè)查詢來(lái)說(shuō)，先執(zhí)行過(guò)濾并不會(huì)改變查詢結(jié)果。

數(shù)據(jù)庫(kù)引擎還會(huì)做出其他很多優(yōu)化，按照不同的順序執(zhí)行查詢，不過(guò)我并不是這方面的專(zhuān)家，所以這里就不多說(shuō)了。

LINQ 的查詢以 FROM 開(kāi)頭

LINQ(C#和 VB.NET 中的查詢語(yǔ)法)是按照 FROM…WHERE…SELECT 的順序來(lái)的。這里有一個(gè) LINQ 查詢例子：

var teenAgerStudent = from s in studentList 
                      where s.Age > 12 && s.Age < 20 
                      select s;

pandas 中的查詢也基本上是這樣的，不過(guò)你不一定要按照這個(gè)順序。我通常會(huì)像下面這樣寫(xiě) pandas 代碼：

df = thing1.join(thing2)      # JOIN 
df = df[df.created_at > 1000] # WHERE 
df = df.groupby('something', num_yes = ('yes', 'sum')) # GROUP BY 
df = df[df.num_yes > 2]       # HAVING, 對(duì) GROUP BY 結(jié)果進(jìn)行過(guò)濾 
df = df[['num_yes', 'something1', 'something']] # SELECT, 選擇要顯示的列 
df.sort_values('sometthing', ascending=True)[:30] # ORDER BY 和 LIMIT 
df[:30]

這樣寫(xiě)并不是因?yàn)?pandas 規(guī)定了這些規(guī)則，而是按照 JOIN/WHERE/GROUP BY/HAVING 這樣的順序來(lái)寫(xiě)代碼會(huì)更有意義些。不過(guò)我經(jīng)常會(huì)先寫(xiě) WHERE 來(lái)改進(jìn)性能，而且我想大多數(shù)數(shù)據(jù)庫(kù)引擎也會(huì)這么做。

有的時(shí)候就是這樣，我們大眾普遍接受的，可能最后發(fā)現(xiàn)是錯(cuò)的，就像陳思成的那個(gè)電影說(shuō)的，我們?cè)?jīng)認(rèn)為根本沒(méi)有的，后來(lái)發(fā)現(xiàn);它確確實(shí)實(shí)存在。有一些我們深信不疑的，后來(lái)卻明白;根本就沒(méi)有。

哈哈哈，還突然文藝了一次，好啦，今天的內(nèi)容到這里就結(jié)束了，也想提一個(gè)建議給大家，希望大家在平時(shí)工作的時(shí)候不要忘記學(xué)習(xí)，有的時(shí)候，我們以為的真不的一定是我們以為的，深入研究一下，編程的魅力才會(huì)得到真實(shí)的展現(xiàn)

對(duì)于數(shù)據(jù)庫(kù)的優(yōu)化，我整理了這樣的一張思維導(dǎo)圖，有需要的朋友，關(guān)注+轉(zhuǎn)發(fā)后，私信“資料”查看獲取方式吧