為什么不應(yīng)該在分頁中使用offset和limit
不再需要擔(dān)心數(shù)據(jù)庫性能優(yōu)化的日子已經(jīng)一去不復(fù)返了。
隨著時(shí)代的進(jìn)步,每一個(gè)新的創(chuàng)業(yè)者都想打造下一個(gè)Facebook,再加上收集每一個(gè)可能的數(shù)據(jù)點(diǎn)以提供更好的機(jī)器學(xué)習(xí)預(yù)測的心態(tài),作為開發(fā)者,我們需要準(zhǔn)備好我們的API,比以往任何時(shí)候都要好,以提供可靠而高效的終端,應(yīng)該能夠在海量數(shù)據(jù)中游刃有余。
如果你做過一段時(shí)間的后臺或者數(shù)據(jù)庫架構(gòu),你可能已經(jīng)做過分頁查詢了,比如這樣。
對吧?
但是,如果你確實(shí)建立了這樣的分頁,我很抱歉的跟你說,你已經(jīng)做錯(cuò)了。
你不同意我的觀點(diǎn)?你不需要。Slack、Shopify和Mixmax都在用我們今天要講的這個(gè)概念來分頁他們的API。
我想請你說出一個(gè)沒有處理過分頁OFFSET和LIMIT的后端開發(fā)人員,對于MVP和低數(shù)據(jù)列表中的分頁,它“有效”。
今天我們要討論的是被廣泛使用的(錯(cuò)誤的)實(shí)現(xiàn)方式存在哪些問題,以及如何實(shí)現(xiàn)高性能的分頁。
OFFSET和LIMIT有什么問題?
正如我們在上幾段中簡要探討的那樣,OFFSET和LIMIT非常適合于數(shù)據(jù)使用量很少甚至沒有的項(xiàng)目。
當(dāng)你的數(shù)據(jù)庫開始收集的數(shù)據(jù)超過了服務(wù)器在內(nèi)存中的存儲量時(shí),問題就出現(xiàn)了,你仍然需要對這些數(shù)據(jù)進(jìn)行高性能的分頁。
要做到這一點(diǎn),數(shù)據(jù)庫需要在每次請求分頁時(shí)執(zhí)行一次低效的全表掃描(在此期間可能會發(fā)生插入和刪除,我們不希望數(shù)據(jù)過時(shí)!)。
什么是全表掃描?全表掃描(又名順序掃描)是指在數(shù)據(jù)庫中進(jìn)行掃描,順序讀取表中的每一條記錄,然后檢查遇到的列的條件是否有效。這種類型的掃描被認(rèn)為是最慢的,因?yàn)閺拇疟P上讀取的I/O量很大,包括多次尋找以及昂貴的磁盤到內(nèi)存的傳輸。 |
這意味著,如果你有100.000.000個(gè)用戶,而你要求的OFFSET是50.000.000,那么它將需要獲取所有這些記錄(甚至不需要!),將它們放在內(nèi)存中,然后才會得到在LIMIT中指定的20個(gè)結(jié)果。
因此,要在網(wǎng)站上顯示這樣的分頁:
- 50.000 to 50.020 of 100.000
首先需要獲取50.000行,看看這效率低下嗎?
你應(yīng)該使用什么
這是你應(yīng)該使用的:
這是基于游標(biāo)的分頁。
你應(yīng)該存儲最后接收到的主鍵(通常是一個(gè)ID)和Limit,而不是在本地存儲當(dāng)前offset和limit將其與每個(gè)請求一起傳遞,這樣查詢最終可能與此類似。
為什么?因?yàn)橥ㄟ^顯式傳遞最新的讀取行,你可以根據(jù)有效的索引鍵告訴數(shù)據(jù)庫確切從哪里開始搜索,而不必考慮該范圍之外的任何行。
以下面的比較為例:
針對我們的優(yōu)化版本:
接收到的記錄完全相同,但是第一個(gè)查詢花費(fèi)了12.80秒,第二個(gè)查詢花費(fèi)了0.01秒。你能體會到差異嗎?
注意事項(xiàng)
為了使游標(biāo)分頁能夠無縫地工作,你需要有一個(gè)獨(dú)特的、有順序的列(或列),比如一個(gè)獨(dú)特的整數(shù)ID,在某些特定的情況下,這可能是一個(gè)問題。
和以往一樣,我的建議是一定要考慮每個(gè)表架構(gòu)的優(yōu)缺點(diǎn),以及你需要在每個(gè)表中執(zhí)行哪種查詢。如果你需要在查詢中處理大量相關(guān)數(shù)據(jù),Rick James的“Lists article”文章可能會為你提供更深入的指導(dǎo)。
如果我們手中的問題與沒有主鍵有關(guān),比如我們有一個(gè)多對多的關(guān)系表,傳統(tǒng)的OFFSET/LIMIT的方法在這些情況下總是可以使用的,然而這將重新引入潛在的較慢的查詢。因此,我建議在要分頁的表中使用自動遞增的主鍵,即使只是出于分頁的目的。
總結(jié)
這其中最主要的啟示應(yīng)該是,無論你的查詢是用1k行還是用1M行,都要時(shí)刻檢查你的查詢性能如何。可擴(kuò)展性是極其重要的,如果從一開始就能正確地實(shí)施,肯定可以避免未來許多頭痛的問題。
哦。而且,請不要忘記學(xué)習(xí)索引并explain queries。
如果你正在尋找如何在ElasticSearch上實(shí)現(xiàn)光標(biāo)分頁,請隨時(shí)查看文章ElasticSearch--你應(yīng)該這樣分頁你的結(jié)果。
ElasticSearch--你應(yīng)該這樣分頁你的結(jié)果:
https://medium.com/@tmateus/elasticsearch-this-is-how-you-should-paginate-your-results-5d1c71bfe060