騰訊云智能融合 AI+數據,重塑數據管理新范式
原創WOT 全球技術創新大會2024·北京站于 6 月 22 日圓滿落幕。本屆大會以“智啟新紀,慧創萬物”為主題,邀請到 60+ 位不同行業的專家,聚焦 AIGC、領導力、研發效能、架構演進、大數據等熱門技術話題進行分享。
近年來,數據和人工智能已成為推動各行業創新和增長的關鍵力量。但如何將數據與人工智能融合,從而創造更大的價值,是企業都在尋找的答案。在 WOT 全球技術創新大會《AI 與數據的智能融合》專場中,來自騰訊云的三位專家分享了騰訊云在數據管理與人工智能領域的技術成果和成功案例,并探討二者如何智能融合為企業提供更高效、更智能的數據服務。
數據庫 AI+Serverless 助力企業降本增效
騰訊云高級技術產品經理 陳昊
隨著數據庫技術的不斷迭代,我們已經邁入數據庫3.0時代——Serverless 數據庫服務興起。Serverless數據庫具有兩大特點:隨取隨用和按需付費,實現了資源的精準分配和合理計費。TDSQL-C Serverless數據庫則充分發揮 Serverless 數據庫架構的特點,幫助用戶實現極致的彈性以及降本增效。
TDSQL-C Serverless 數據庫架構分為接入層、管控層、計算層和存儲層。接入層增加了獨有的恢復感知器?;謴透兄魇禽p量級類 Proxy,用做 Serverless 數據庫實例喚醒時的鏈接保持,確保在數據庫沒有負載時暫停,在需要訪問數據庫時快速拉起實例的同時保證鏈接不斷,并且根據權重設計訪問路徑。這種極致的彈性伸縮,TDSQL-C Serverless 架構是如何實現的呢?
陳昊介紹,TDSQL-C Serverless 數據庫架構采用預制資源模式,提前預留資源,從而避免事后彈性方式的彈性間隔,實現瞬時滿載,并根據 CPU 監控擴展 Buffer pool,實現動態調整 BP。TDSQL-C Serverless 架構支持 RW 節點和 RO 節點混部模式,為用戶預制普通規格資源的同時,搭載能夠實現橫向彈性和縱向彈性的Serverless。
如果數據庫在進行彈性調整的過程中,對業務產生抖動怎么辦?針對這一點,陳昊介紹了 Buffer pool 的運行機制。Buffer pool 由多個instance組成,每個instance都包含 chunk,其中block是內存的最小管理單元,每個 block 大小為16KB。這些 block 用于存儲熱數據。擴縮容操作涉及調整 chunk 區的大小,在操作過程中,Buffer pool 內部的兩個關鍵鏈表——Lru list(最近最少使用列表)和Free list(空閑列表)發揮了重要的作用。擴容時,首先從 Free list 中添加新的 block,然后將這些新添加的 block 移動到 Lru list 中,完成擴容過程。
比起擴容,縮容更容易出現抖動。為了避免這一情況,TDSQL-C通過三種方式解決產生毛刺的問題:
第一,針對持久化 page 導致的 IO 瓶頸,TDSQL-C 采用 redo log 在存儲層異步生成 page,計算節點無需刷臟直接丟棄淘汰 page。
第二,針對遍歷過程中持有 mutex 鎖時間過長的問題,TDSQL-C 能夠按地址遍歷需要被回收的 chunk 中的 block,并且加鎖區間由整個 Lru 鏈表變成單個 block。
第三,針對獲取 BP 全局鎖執行時間過長的問題, TDSQL-C 采用延遲釋放chunk 和提前預分配chunk的方式,同時優化 resize hash 算法,改為異步模式。
TDSQL-C Serverless架構還能幫助用戶極大程度減少存儲成本。TDSQL-C Serverless 架構采用了全球首創的可釋放存儲技術。當數據庫中的實例暫停后,數據會自動歸檔到 COS 中,實現靈活存儲?;謴蛯嵗龝r,則按照表的訪問順序進行數據恢復,優先恢復最先被訪問的表,同時保證恢復過程不影響數據庫的整體訪問,極大程度降低了存儲成本。
隨著 AI 技術的爆發,AI 與數據庫開始融合,并且走向 AI4DB。既然我們已經來到 AI4DB 時代,AI+Serverless該如何實現?如何幫助應用快速落地?陳昊表示,未來騰訊云 TDSQL 數據庫將結合混元大模型的能力,在智能運維、極致成本和智能預測等方向發力,借助AI的能力幫助用戶降本增效。
大模型時代下的存儲系統
騰訊云高級產品經理 林楠
在當前時代的發展中,企業正逐步利用大規模的對象存儲來構建企業級數據湖和智能存儲服務,存儲系統正朝著更加彈性、高效和智能的方向發展,以滿足企業在數據處理和利用方面日益增長的需求。隨著大模型的出現,存儲系統還需要滿足大模型訓練和推理過程中對數據規模、性能和穩定性的多樣化需求,以及在處理海量數據的同時保證對高價值數據的高性能訪問,實現大規模存儲與高性能訪問的平衡,確保大模型的高效訓練和推理能力。
騰訊云是如何應對多樣化的存儲需求的呢?首先,騰訊云通過全球基礎設施,在 21個地區部署 3200+ 加速節點,為企業提供卓越、穩定的公網接入和傳輸能力,滿足企業安全、高效、可靠的數據遷移需求。在過往的數據遷移案例中,我們曾經支持過數十 PB 甚至上百 PB 數據的穩定遷移。
其次,騰訊云全自研對象存儲引擎 YottaStore 能夠為大模型訓練和推理提供非常堅實的底座支持。在數據接入層面,騰訊云自研了無狀態的彈性接入集群,支持豐富的公網接入和彈性伸縮能力;在存儲引擎層面,騰訊云提供了原生多 AZ 的特性,提供了高可靠的存儲能力;通過元數據分級存儲等方式,單集群可以輕松擴展到百 EB 級別。通過深耕軟硬件技術優化,騰訊云對象存儲一方面可以滿足業務不同規模、不同類型的數據存儲需求;另一方面,也為業務提供了連續可用的服務,保證數據隨時可訪問,數據可以永久存儲、不壞不丟。
存儲系統存在著海量數據,企業如何找到真正需要用的數據?這就需要騰訊云自研的 GooseFS 三級加速服務來提升數據使用效率。GooseFS可以將數據智能存儲到內存、計算集群的本地盤、或可用區的全閃存儲集群等不同級別的緩存中,提供亞毫秒級的數據訪問時延、百萬級的IOPS和Tbps級別的吞吐能力,有效提升數據清洗效率。
AI 場景中存在海量文件的存儲和訪問需求,因此GooseFS 面臨著海量元數據存儲以及數據親和性調度的挑戰。為了應對海量元數據存儲的壓力,GooseFS 通過在高性能 KVDB 上實現了元數據分庫分表、跨節點硬鏈等技術手段,有效提升元數據規模和平行擴展能力,當遇到主節點元數據訪問故障時,整個元數據的訪問可以快速遷移到備節點中。通過這些方式,GooseFS可以為大模型訓練場景提供百億級的熱點元數據存儲能力,提供百萬級 IOPS,并且可以在高壓情況下做到秒級故障恢復的能力。
第一個能力是一體化AI審核+存儲。在大模型的生產框架中,無論是訓練還是推理都會涉及內容安全的問題,因此騰訊云數據萬象在存儲端提前預置審核能力,通過對用戶輸入和AIGC模型輸出這兩個階段的內容審核,可以充分保障內容安全的合規要求。數據萬象的審核能力可以根據數據存儲位置智能地調度處理集群,通過近存儲側的處理能力,從而提供更優的數據傳輸時延和更低的成本。
第二個能力是知識產權保護?,F階段 AIGC 產權并沒有明確的標識物,但當 AIGC 的產物被大規模應用時,知識產權保護的需求也會隨之而生,這個時候就需要明確聲明產出物的模型主權。騰訊云數據萬象的數字水印技術提供一站式明暗水印添加能力,可以在圖片、視頻,文本中嵌入機密信息,保證數字產品的版權保護和侵權溯源。
第三個能力是多模態智能檢索。與傳統的基于標簽的標量檢索不同,騰訊云數據萬象MetaInsight通過預先計算數據的向量空間并存儲于向量數據庫中,再利用向量檢索技術在向量空間內尋找相似的圖片、文本或視頻內容,從而實現更精準的全媒體類型跨模態檢索能力。MetaInsight支持以文搜圖、以圖搜圖等多種高性能的數據檢索手段,覆蓋了上千個細分場景,可以幫助客戶快速建設檢索應用。
高性能異構云原生 PaaS 平臺建設實踐
騰訊云中間件產品資深架構師 侯詩軍
根據 IDC 和 Gartner 等權威機構的調研數據,越來越多的企業正逐步將有狀態中間件、大數據和數據庫進行云化,而算力融合是實現這些系統云化的關鍵。騰訊云憑借多年的內部實踐和企業級市場經驗,提出多級算力融合策略,作為云原生與傳統架構結合的優選方案,有效規避算力孤島,助力企業更有效地進行云原生數據庫、大數據和中間件等有狀態業務的實施落地。
眾所周知,網絡、計算、存儲是云計算的三大核心要素。接下來,侯詩軍從網絡、計算、存儲三個方面介紹騰訊高性能異構云原生平臺的建設情況。
首先,高性能的網絡是構筑大規模集群的基石。騰訊云基于 eBPF 和自研的智能網卡的自研高性能網絡,同時支持 Overlay 和 Underlay 等網絡架構,實現物理機、虛擬機和容器網絡的互聯互通,讓數據業務在不同計算形態間無縫遷移。例如騰訊內部的節點和核心交換網基于BGP 協議進行路由管理,通過ECMP實現路由級負載均衡。在節點層面,通過自研的 L4/L7 負載均衡器、基于 eBPF 的高性能網絡插件,以及對操作系統內核的深度優化,大幅的提升網絡轉發處理效率與性能。例如通過優化之后的Service新增規生效時間穩定在0.5毫秒內,較開源的Iptables和IPVS的秒級生效有質的提升,更適合大規模集群業務迭代與快速彈性。
此外,騰訊云自研的星星海服務器和智能網卡系統。通過將網絡和存儲虛擬化卸載到智能網卡,進一步減輕主機 CPU 的計算負擔。在騰訊云的裸金屬新一代統一架構中,通用計算和裸金屬都已全面集成自研智能網卡系統,網絡和計算性能顯著提升。
在計算層面,騰訊云自研的 VStation 計算調度器,可同時支持黑石物理計算、通用計算以及異構計算,包括GPU/FPGA等。騰訊云基于KMD/UMD攔截控制自研的 qGPU 方案,也有效的避免了“缺卡”、干擾問題、峰谷利用率不足等問題。qGPU可提供兩個層面的調度。第一種方式是集群層面的調度,通過平均分配策略能夠保證負載均衡,而盡量填滿策略能夠保證利用率。第二種方式是在單卡中調度多個Pod,參照vGPU調度基礎上提供爭搶模式、固定配額和保證配額增加彈性三種方式。
騰訊云還優化了有狀態工作負載控制器,在完全兼容原生 StatefulSet 的基礎上增強了 StatefulSetPlus Workload,并支持分批灰度、一鍵回滾、HPA、原地重啟與升級等,很好的應對有狀態數據類業務云化過程中的剛需問題。同時,騰訊云自研的 SSM 控制器可以屏蔽不同類型數據庫中間件,通過 SSM Controller 統一創建,實現云原生的聲明式和面向終態運維。除了 StatefulSet,騰訊云還自研了基于云原生的虛擬化 KubeVM。通過 Kubernetes 平臺可同時調度容器和虛擬機,在網絡、算力、存儲多個層面上實現統一管控。
在存儲方面,騰訊云自研的 TCS Local Persistent Volume能夠滿足工作負載在節點本地存儲的使用需求,讓有狀態業務能充分地利用好本地存儲的資源。TCS Local Persistent Volume支持全生命周期單獨管理,確保工作負載被刪除后,數據不會丟失;支持調度強綁定,可以防止有狀態業務調度到沒有數據的工作節點。
在分布式存儲也實施了多項優化措施,以提升其性能和可靠性。首先,通過三副本結對、多集群故障域、IO 與控制分離以及快照異地容災等策略確保了存儲的高可用性;其次,引入了漸進式條帶化處理方法,通過文件大小的 Hash 調度至不同存儲區域,優化了存儲空間的利用率和讀寫性能;最后,在元數據管理方面,通過將元數據服務(MDS)信息分散至多個節點,不僅提高了元數據的處理效率,還增強了系統的健壯性,確保了元數據性能的線性增長。
有了好的能力建設,接下來還需要沉淀復用,騰訊云如何賦能更多業務和對外輸出?
侯詩軍表示,在全面云化之后,公有云全棧能力下沉到私有云是私有云發展的新趨勢,因此騰訊云打造了TCS云原生企業級PaaS平臺和TCE全棧企業級云平臺。TCS云原生企業級PaaS平臺能夠向下兼容第三方的異構 IaaS,向上支撐 CVM虛擬機、K8S 容器、qGPU、邊緣計算等多級算力,實現統一異構的資源調度。在對外輸出方面,微服務、中間件、數據庫、存儲等能力都可以通過騰訊云TCS云原生企業級PaaS平臺快速交付至企業。例如在數據庫方面,騰訊云提供 TDSQL、CRedis、PostgreSQL 等私有化的數據庫能力;在消息中間件方面,騰訊云提供 Puslar、Ckafka、RocketMQ 等主流的消息中間件;在微服務方面,騰訊云提供 PolarisMesh 治理中心、TSF 微服務框架、RIOGW 智能API網關等微服務套件。目前騰訊云已在金融、政企、交通、制造、互聯網等多個行業落地。
最后,侯詩軍用一首詩總結了今天分享的內容:架構云化尋常路,循序漸進來過渡。異構 PaaS 啟新紀,算力融合創萬物!
以上就是《AI 與數據的智能融合》騰訊云專場的精彩分享。騰訊云在AI與數據領域的最新技術和成果不僅為企業提供了降本增效的新途徑,也為企業走向智能化提供了強有力的支持。隨著技術的不斷進步和創新,騰訊云將繼續在智能化轉型的道路上引領企業走向更廣闊的未來。