成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

天穹數倉自治能力在大模型時代的新實踐

大數據 數據倉庫
隨著大數據技術的不斷發(fā)展,數據治理和自治能力的提升變得尤為重要。本次分享題目為“天穹數倉自治能力新實踐”。

一、大數據自治的背景

1. 大數據自治涵蓋的范疇

大數據自治是一個廣義的概念,涵蓋從數據采集到數據接入、計算、存儲、應用等一系列問題。它不僅包括數據治理,還涉及數據研發(fā)和業(yè)務發(fā)生問題的解決。大數據自治的目的是管理數據的整個生命周期,從數據產生到數據使用,再到數據銷毀。

2. 業(yè)務、技術的快速發(fā)展

在過去的三十年中,數倉的發(fā)展歷程經歷了從傳統(tǒng)數倉到大數據數倉,再到數字數倉的三個階段。傳統(tǒng)數倉如 Oracle、DB2 等,架構單一,主要處理結構化數據,數據規(guī)模較小,實時性較低。

隨著 Google 三篇論文的發(fā)表,開始進入大數據時代,Hive、Hadoop/MR、Spark 等大數據數倉先后問世,產生了 Lambda、Kappa 等較為復雜的架構,處理的數據規(guī)模呈爆炸性增長,結構化、半結構化和異構化數據并存,實時性要求更高,計算也變得更為復雜。

從 2020 年至今,處于數智數倉時代,實時性和計算復雜性進一步提升,架構也更加復雜,包括流批一體、湖倉一體等,大模型也逐漸應用到數倉之中。

隨著數倉技術的發(fā)展,數據處理的流程從傳統(tǒng)的 ETL,變?yōu)榇髷祿r代的 ELT,當前又提出了 EtLT 的概念。

3. 數倉模式演進:EtLT 崛起

EtLT 是 ELT 的擴展,其中 Extract、Load、Transform 的含義并沒有改變,在此基礎上提出了小 t 和大 T 的區(qū)別。針對當前數智數倉的技術生態(tài),小 t 更緊密地結合湖倉技術,偏數據底層的工程架構,而大 T 階段則更貼合業(yè)務,結合大模型的能力,完成偏數據上層應用的工作。

二、天穹大數據自治能力建設和落地:雙引擎策略

天穹大數據自治平臺采用雙引擎策略,結合 SQL 智能體和傳統(tǒng)機器學習,推動平臺自治。通過構建感知力、觀測力、診斷力和優(yōu)化力,實現對數據相關進程的細粒度感知和智能優(yōu)化。能力范圍包括從數據采集、數據接入,到數據計算、存儲,再到應用的全流程,從資源、計算、研效等各方面進行了優(yōu)化。

最終實現了包括算子粒度的回放和診斷能力的產品化:支持 40 多個算子粒度問題的診斷,并優(yōu)化了 SQL 粒度算子實現了自動 map join 功能,在 Presto 上測試效果顯著,CPU 和內存節(jié)省顯著。SQL 引擎自動選擇方面,提升了計算性能,減少了資源浪費。作業(yè)任務資源優(yōu)化方面,大幅降低了天穹上運行作業(yè)的內存和 CPU 成本。除此之外還有 SQL 智能體的優(yōu)化改寫等功能,這些功能在實際應用中取得了顯著效果。

圖片

1. 感知力

感知力是數據系統(tǒng)的重要部分,決定著上層觀測力、診斷力、優(yōu)化力等能力體系建設的深度。天穹平臺通過 JVM 級別的數據感知,已基本覆蓋所有物理機和容器,每天感知的數據量達到了萬億規(guī)模。

2. 觀測力

通過對采集數據進行指標的聚合和抽象,建立以健康分為核心的數據體系,實現任務進程粒度的數據上卷和下鉆操作,使大數據生態(tài)的“黑盒”更加透明化,發(fā)現底層指標或異常問題。

3. 診斷力

(1)全鏈路診斷能力的構建

針對內部經常遇到的作業(yè)鏈路較長,問題定位和診斷工作繁瑣低效的問題,天穹平臺基于組件粒度構建了全鏈路診斷能力,使得用戶能夠清晰地了解當前問題發(fā)生在哪個組件,并在此基礎上進行深入挖掘和對比。例如,如果問題發(fā)生在計算引擎?zhèn)龋軌蚯逦馗嬷脩糇鳂I(yè)在計算引擎層是由于資源搶占被 kill,或任務本身數據膨脹、數據傾斜等原因導致的異常,并提供細粒度的判斷。

(2)算子粒度的異常識別

同時,針對 SQL 任務,推出了算子粒度的診斷,可以將實際物理執(zhí)行過程中發(fā)生的異常點與 SQL 邏輯片段對應起來,從而幫助用戶在繁雜的計算過程中快速準確地定位到問題的具體原因。

圖片

在實際應用中,我們已經將算子粒度的回放和診斷能力產品化。這使得用戶能夠回放 SQL 計算的過程,診斷每一個算子的數據規(guī)模和資源占用情況。目前,我們已經支持了 40 多個算子粒度問題的診斷。

圖片

4. 優(yōu)化力

針對在大數據計算過程中面臨的挑戰(zhàn),如任務運行緩慢、數據處理速度不理想以及任務資源啟動困難等問題,構建了優(yōu)化力能力體系。在資源方面,針對 Spark 和 Flink 進行了深入優(yōu)化。在性能方面,引入了 SQL 引擎選擇、智能 SQL Hint 和智能 RSS 等技術。此外,通過 SQL 智能體的構建,實現了 SQL 優(yōu)化改寫、語法糾錯和診斷等功能。

(1)數據驅動的資源優(yōu)化

針對 Spark 的資源優(yōu)化,主要構建了基于 Spark 歷史運行數據的方法,采用白盒和黑盒兩種方式進行調整。白盒方法通過分析歷史運行過程中資源的實際進程粒度占用情況,擬合出適合作業(yè)正確運行的資源參數。我們根據歷史運行曲線自定義計算彈性因子,并每天為作業(yè)推薦資源參數。而黑盒方法則無需用戶感知,算法基于時間和性能兩個維度自動調整參數,并每天定時進行迭代。通過前一周期的運行結果,調整下一周期的參數,并提交到集群中運行。

最終針對一些應用組顯著節(jié)省了超過 50% 的內存成本和 30% 的 CPU成本,在資源優(yōu)化方面取得了顯著的成果,降低了資源的使用。

圖片

(2)SQL 引擎選擇,讓 SQL 計算更加高效

在 SQL 計算引擎選擇方面,根據 SQL 計算邏輯的復雜度判斷其是 IO 密集型還是 CPU 密集型,并將不同的 SQL 分發(fā)到不同的計算引擎上以提高性能。同時從歷史運行的 SQL 中提取特征,利用 XGBoost 模型進行訓練,以優(yōu)化底層的建模過程。

最終通過特征化和模型訓練,引擎 failover 規(guī)避率有了顯著提升,進一步降低了資源浪費。

圖片

(3)SQL 算子粒度優(yōu)化,反哺計算引擎

除了資源優(yōu)化和 SQL 引擎選擇外,還關注算子粒度的優(yōu)化。從歷史運行數據中挖掘包含算子粒度信息的數據記錄,經過規(guī)劃處理后形成 SQL 算子粒度的數據體系。這有助于支持 SQL 的 CBO 代價模型優(yōu)化。例如,如果提前知道計算過程的數據量,可以自動添加 map join 等提示以提升效率。此外,對于每天定時調度的數據計算任務,由于 SQL 邏輯和數據量相似,可以通過歷史數據進行預測和優(yōu)化。

圖片

最終通過算子粒度的數據挖掘,將運行過程中的數據量大小和數據記錄數喂給 SQL 代價模型,實現了自動 map join 的功能,顯著提高了 SQL 計算的性能。在 TPC-DS 測試集中,自動 map join 的占比達到了 57%,顯著提升了 CPU 和內存的使用效率。

圖片

5. SQL 智能體

由于日常機器計算類型中 SQL 任務占比很高,且標準化程度較高,天穹結合大語言模型對于 SQL 的理解力,以優(yōu)化 SQL 性能提升作業(yè)效率為目標,進行了 SQL 智能體的構建。

騰訊內部基于混元大語言模型,設計了多輪對話、問診模式的 SQL 智能體,涵蓋了 prompt 知識庫、function call 等環(huán)節(jié)。

圖片

下面介紹一下 SQL 智能體的構建過程。首先,通過現網收集 SQL 優(yōu)化和錯誤 SQL,以及 SQL 工單語料庫,在此基礎上建立 SQL 指令集,基于基座模型進行指令微調,并結合 prompt 強化用戶意圖。

圖片

最終通過 SQL 智能體的構建,從多方面實現了 SQL 的優(yōu)化改寫和診斷,顯著提升了 SQL 性能。

(1)正確性解析和轉換

它能自動將硬查詢中的 SQL 翻譯為為 inner join,并實時對比優(yōu)化前后的 SQL。

SQL 智能體在優(yōu)化改寫方面也取得了顯著的成果。通過底層的 OLAP 引擎測試發(fā)現,性能提升了 17.19%。這表明 SQL 智能體能夠有效地優(yōu)化 SQL 計算,提高系統(tǒng)性能。

圖片

(2)SQL 長度優(yōu)化

大模型能夠理解長 SQL 內容,自動去除不必要的如 order by 的邏輯片段,提高計算效率。

圖片

(3)SQL 邏輯簡化

此外,SQL 智能體還能夠簡化 SQL 邏輯,借助臨時表等技術,使得 SQL 計算邏輯更加簡潔和高效。

圖片

三、未來規(guī)劃和展望

在未來的規(guī)劃中,我們將繼續(xù)優(yōu)化數據存儲和研發(fā)能力,不斷豐富和提升大數據自治的能力。最終,我們計劃打造一個湖倉智能自治的解決方案,支撐大數據平臺的智能化應用,推動大數據自治向更高層次發(fā)展。

責任編輯:姜華 來源: DataFunTalk
相關推薦

2025-04-16 04:20:00

2022-06-10 15:21:15

MySQL CDCSqlServer數據庫

2023-09-28 08:19:57

語言模型數倉數據

2022-08-22 17:46:56

虛擬數倉Impala

2021-01-31 23:54:23

數倉模型

2024-06-11 07:46:23

2021-01-04 05:42:48

數倉模型設計

2025-04-02 01:25:00

2023-10-11 07:20:17

2023-05-10 14:40:40

AI模型算力

2023-12-08 07:44:20

2023-08-30 07:14:27

MaxCompute湖倉一體

2022-12-06 17:52:57

離線數倉治理

2024-04-09 07:28:05

2022-12-08 10:16:58

數據模型

2022-09-15 09:32:42

數據倉處理

2023-08-15 08:12:12

數倉建模數倉建設

2023-08-21 07:55:32

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 夫妻午夜影院 | 国产精品综合久久 | 欧美一级免费黄色片 | 国产成人精品免高潮在线观看 | 国产一区二区三区久久久久久久久 | 成人免费视频网 | 久久国产高清视频 | 日韩精品在线观看免费 | 一区免费 | 久久一二区 | 久久久久国产一区二区三区四区 | www312aⅴ欧美在线看 | 国产三区视频在线观看 | 亚洲福利免费 | 精品欧美一区二区三区久久久 | 91精品国产综合久久香蕉922 | 国产黄色精品在线观看 | 久久国产精品色av免费观看 | 国产精品日本一区二区不卡视频 | 亚洲成人中文字幕 | 国产精品免费在线 | 免费一区| 国产精品久久视频 | 黄色大片毛片 | 国产成人精品免高潮在线观看 | 国产精品免费一区二区 | 亚洲一区二区三区久久久 | 欧美一区二区三区在线观看视频 | 一级毛片免费完整视频 | 国产一区二区观看 | 国产精品网址 | 四虎影视免费观看 | 一区二区三区视频播放 | 国产不卡一区 | 99久久精品国产一区二区三区 | 欧洲精品在线观看 | www四虎影视 | 国产精品久久久久久久午夜 | 青青草av在线播放 | 亚洲喷水 | 亚洲一区二区三区视频 |