騰訊數據庫最新研究成果入選國際數據庫頂級會議SIGMOD
騰訊與華中科技大學合作的最新研究成果,入選了國際數據庫頂級會議SIGMOD的收錄論文,并將于6月30日在荷蘭阿姆斯特丹召開SIGMOD 2019國際會議上公開發表。
入選論文的題目為“An End-to-End Automatic Cloud Database Tuning System Using Deep Reinforcement Learning”,此項研究突破性的實現了基于AI技術的數據庫性能調優結果首次全面超越數據庫專家經驗判斷的傳統方法。該成果由華中科技大學武漢光電國家研究中心周可教授團隊和騰訊技術工程事業群云架構平臺部CDB數據庫團隊合作完成,博士生張霽為第一作者。
智能云存儲技術聯合研究中心由騰訊與華中科技大學于2018年成立,旨在通過強強聯合,建設一流的智能云存儲技術創新和人才培養平臺。通過吸引匯聚頂尖專業人才,騰訊與華中科技大學在分布式存儲技術、高性能存儲引擎、業務負載預測等方面開展聯合技術攻關,突破超大規模云存儲服務系統的諸多技術難題,推動智能云存儲技術的科技創新及技術應用落地。本次入選的論文,正是智能云存儲技術聯合研究中心的聯合研究成果之一。
SIGMOD數據管理國際會議是數據庫領域具有最高學術地位的國際性學術會議,位列數據庫方向頂級會議之首。
隨著云計算的迅速發展,中小型企業通過購買云數據庫服務系統,來代替自建和維護數據庫服務系統的情況越來越多,以便節約人力物力。然而,大多數用戶在購買云數據庫服務系統后僅僅停留在使用層面上,在使用過程中經常遇到數據庫系統性能下降的情況,由于缺少數據庫管理系統性能優化的經驗,用戶很難發現導致數據庫系統性能下降的原因并有效地解決,這就需要云服務提供商為用戶及時地調整數據庫系統參數,以保證數據庫的性能維持在一個較優的狀態。對于擁有數十萬計用戶實例的云服務提供商來說,完全依賴數據庫專家進行數據庫參數調優顯然是不現實的,如何利用AI技術解決數據庫系統性能問題已經變得越來越重要和緊迫。
該文首次提出了一種基于深度強化學習的端到端的云數據庫自動性能優化系統CDBTune,如圖1所示。該系統可以在缺少相關經驗數據訓練的情況下建立優化模型,為云數據庫用戶提供在線自動優化數據庫性能的服務,性能調優結果首次全面超越數據庫專家,這將大幅提高數據庫運維效率。
圖1 強化學習與數據庫性能優化關系圖
如圖2所示,在多種不同負載和不同類型的數據庫下進行的大量實驗證明,CDBTune性能優化結果明顯優于目前已有數據庫調優工具和DBA專家。即使在彈性云環境下,用戶購買數據庫內存或磁盤大小發生變化,或負載發生變化(類型不變)的情況下,實驗證明CDBTune依然保持了較好的適應能力。
圖2 CDBTune性能測試結果
在實際系統中,如圖3所示,當用戶或者系統管理員有數據庫性能優化需求時,可以通過相應的交互接口提出調參優化請求,此時云端的控制器通過給智能優化系統發出調參請求,并根據用戶真實負載建立的深度強化學習模型推薦出的相應的參數配置,然后將該配置在數據庫中進行設置。反復執行上述的執行過程,直到待調參的數據庫性能滿足用戶或系統管理員的需求即停止調參。
圖3 CDBTune系統交互圖
對于該論文,SIGMOD評審委員會給到了極高的評價:The paper is on the exciting new area of tuning databases with machine learning. Specifically using reinforcement learning. It does not just throw machine learning techniques but it does a good effort to explain how the techniques exactly match to the particular problem, what are the analogies with more traditional machine learning terminology, etc. Given that not everyone is knowledgeable in these techniques in the DB community this works in an educational way as well and is very much appreciated. (本文是關于利用機器學習方法優化數據庫的技術,這是一個令人振奮的新領域。 特別是它使用了強化學習的方法。這篇文章不僅僅是簡單地拋出一個機器學習技術,而且非常好地解釋了機器學習是如何與特定的問題進行完全的匹配,同時也闡述了與傳統機器學習術語之間的類比問題。鑒于在數據庫社區中并非每個人都能對這些技術了如指掌,這也是一種教學方式,因此我們非常贊賞這篇文章。)
每年SIGMOD會議都會吸引大量全球學術組織和工業界數據庫研究人員參會和分享,也匯聚了學術界和工業界在數據庫領域最前沿的技術研究動向。