成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

快手指標(biāo)中臺建設(shè)實踐

大數(shù)據(jù)
指標(biāo)中臺是快手?jǐn)?shù)據(jù)平臺部的核心平臺之一,本文將分享快手指標(biāo)中臺從設(shè)計到落地的實踐經(jīng)驗。

一、背景介紹

1. 關(guān)于快手

快手是一個普惠的數(shù)字社區(qū),在這里每個人都可以記錄生活、分享生活。快手通過短視頻和直播的形式成功構(gòu)建了電商、商業(yè)化等多元化的業(yè)務(wù)生態(tài)系統(tǒng)。

截止到今年第一季度,根據(jù)公開財報數(shù)據(jù),快手的平均日活躍用戶數(shù)(DAU)達(dá)到了 3.93 億,平均月活躍用戶數(shù)(MAU)達(dá)到了 6.97 億。在如此大的用戶規(guī)模背后,是快手強大的技術(shù)在支持,這其中也包括數(shù)據(jù)平臺部的技術(shù)。

2. 關(guān)于快手?jǐn)?shù)據(jù)平臺部

快手?jǐn)?shù)據(jù)平臺部的使命是打造高效且智能的自助式數(shù)據(jù)平臺工具,用于業(yè)務(wù)的分析決策提效。職責(zé)是提供從數(shù)據(jù)集成、加工,到分析全鏈路的智能數(shù)據(jù)開發(fā)、管理和分析的泛大數(shù)據(jù)平臺化能力,加速數(shù)據(jù)分析決策效率。

數(shù)據(jù)平臺部主要圍繞著基礎(chǔ)建設(shè)和數(shù)據(jù)能力這兩方面展開:

  • 基礎(chǔ)建設(shè):技術(shù)架構(gòu)的底層是大數(shù)據(jù)的引擎層,在引擎層之上有一站式的數(shù)據(jù)采集以及數(shù)據(jù)開發(fā)的工具。通過這些工具,可以將數(shù)據(jù)匯總到大數(shù)據(jù)平臺上,再經(jīng)過數(shù)據(jù)加工和融合打通,就形成了數(shù)據(jù)中臺一體化的數(shù)倉。在數(shù)倉之上,我們會去沉淀各種資產(chǎn)。這就是我們在基礎(chǔ)建設(shè)方面的工作。
  • 數(shù)據(jù)能力:在基礎(chǔ)建設(shè)之上,我們構(gòu)建了各種數(shù)據(jù)能力,以滿足各種場景下的數(shù)據(jù)分析需求,比如面向通用分析場景的數(shù)據(jù)分析能力等。

目前快手有著萬級別的集群規(guī)模,以及 EB 級別的數(shù)據(jù)規(guī)模。如此海量的數(shù)據(jù),給我們大數(shù)據(jù)技術(shù)帶來了巨大的挑戰(zhàn)。

今天我們分享的指標(biāo)中臺就是數(shù)據(jù)平臺部的核心平臺之一。

3. 指標(biāo)相關(guān)介紹

在介紹我們的指標(biāo)中臺之前,先來回顧一下指標(biāo)相關(guān)的概念。在數(shù)據(jù)分析中,指標(biāo)是衡量業(yè)務(wù)表現(xiàn)的重要工具。

以活躍用戶數(shù)為例,它是一個原子指標(biāo),代表用戶活躍度的基礎(chǔ)度量。這個指標(biāo)可以進(jìn)一步拆分為業(yè)務(wù)過程(用戶行為事件),對象實體(用戶),以及度量(用戶數(shù))。

通過添加修飾詞,如“新增”,我們可以將指標(biāo)限定在特定范疇,例如新增用戶。

此外,通過指定時間范圍(如“近 7 日”)和維度(如按城市),我們還可以構(gòu)建派生指標(biāo),從而更細(xì)致地觀察數(shù)據(jù)的分布。

基于這些原子指標(biāo)和派生指標(biāo)就可以構(gòu)建指標(biāo)體系,它可以幫助業(yè)務(wù)進(jìn)行更有效的管理和決策。然而,指標(biāo)體系也是一把雙刃劍,如果使用得當(dāng),可以顯著提升業(yè)務(wù)效率;如果使用不當(dāng),則可能帶來額外的負(fù)擔(dān)。因此,正確理解和應(yīng)用指標(biāo)對于業(yè)務(wù)成功至關(guān)重要。

4. 快手指標(biāo)中臺背景

在快手指標(biāo)中臺建立之前,公司的數(shù)據(jù)倉庫擁有 10 萬量級的數(shù)據(jù)表,當(dāng)時采用的是數(shù)倉直接對接應(yīng)用系統(tǒng)的方式,這種煙囪式建設(shè)模式導(dǎo)致了數(shù)據(jù)管理和應(yīng)用效率的問題。這種模式下,指標(biāo)分散在 BI 系統(tǒng)、AB 系統(tǒng)和運營系統(tǒng)等不同應(yīng)用平臺,缺乏統(tǒng)一管理,造成了資源浪費。主要帶來以下問題:

  • 數(shù)據(jù)質(zhì)量:由于指標(biāo)管理不統(tǒng)一、指標(biāo)口徑不統(tǒng)一,導(dǎo)致業(yè)務(wù)分析時難以對賬,需要大量時間排查原因。
  • 研發(fā)效率:每個應(yīng)用平臺的指標(biāo)能力重復(fù)建設(shè),嚴(yán)重浪費了研發(fā)資源,降低了研發(fā)效率。

為了解決以上問題,快手經(jīng)過慎重考慮,決定建設(shè)一套企業(yè)級的指標(biāo)中臺系統(tǒng),通過將數(shù)據(jù)層和應(yīng)用層進(jìn)行解耦,來解決指標(biāo)質(zhì)量和研發(fā)效率的問題。

5. 如何構(gòu)建企業(yè)級指標(biāo)中臺

那么如何去構(gòu)建企業(yè)級指標(biāo)中臺呢?

我們首先對行業(yè)趨勢和業(yè)界常用方案進(jìn)行了調(diào)研。

(1)行業(yè)趨勢

  • Headless BI:Headless BI 采用“一處定義,多處使用”的理念,實現(xiàn)指標(biāo)一經(jīng)定義,即可在 BI 平臺、運營平臺等多處使用;其優(yōu)勢在于將數(shù)據(jù)層與應(yīng)用層解耦,通過統(tǒng)一的服務(wù)接口保證指標(biāo)的服務(wù)質(zhì)量;當(dāng)然,其整體實現(xiàn)的技術(shù)成本和挑戰(zhàn)也比較高。
  • 智能建模:基于表元信息抽取,利用算法和規(guī)則等技術(shù)手段自動構(gòu)建表與表之間的關(guān)系,以減少人工建模的復(fù)雜性和成本。

(2)業(yè)界方案

  • 指標(biāo)驅(qū)動生產(chǎn):基于已經(jīng)定義好的指標(biāo)元數(shù)據(jù)信息(派生指標(biāo)、復(fù)合指標(biāo)、加工口徑等),來設(shè)計指標(biāo)的生產(chǎn)鏈路,也就是業(yè)界 NoETL 的思路;主要優(yōu)點是通過控制生產(chǎn)過程來保證指標(biāo)質(zhì)量,落地比較徹底,適用于一般場景的指標(biāo)數(shù)據(jù)加工和聚合,其缺點是應(yīng)用場景比較單一,無法應(yīng)對復(fù)雜業(yè)務(wù)場景;
  • 指標(biāo)驅(qū)動分析:主要面向數(shù)據(jù)消費場景,提供更靈活多樣的數(shù)據(jù)分析能力;而在數(shù)倉建設(shè)不做過多的限制,所以可能存在指標(biāo)質(zhì)量風(fēng)險(當(dāng)然該問題可以通過其他方法來解決),整體的實現(xiàn)復(fù)雜程度比較高。

指標(biāo)驅(qū)動生產(chǎn)和指標(biāo)驅(qū)動分析并非互斥,業(yè)界已有公司同時做生產(chǎn)方向和分析方向,并且取得不錯的效果。基于快手已有較為成熟的數(shù)倉體系,我們認(rèn)為現(xiàn)階段基于指標(biāo)來驅(qū)動分析的方案能更好地發(fā)揮數(shù)據(jù)價值。

6. 快手指標(biāo)中臺解決方案

基于以上的考慮,我們采用了 Headless BI 的理念建設(shè)了快手指標(biāo)中臺,通過實現(xiàn)指標(biāo)的統(tǒng)一指標(biāo)管理和統(tǒng)一指標(biāo)服務(wù),來解決指標(biāo)質(zhì)量和研發(fā)效率問題。

指標(biāo)中臺在整個數(shù)據(jù)鏈路中起到了承上啟下的作用。

  • 向下,通過對各種數(shù)據(jù)源進(jìn)行統(tǒng)一接入,來保障指標(biāo)口徑和數(shù)據(jù)質(zhì)量,并且屏蔽了底層物理技術(shù)的實現(xiàn)細(xì)節(jié),讓用戶只需感知指標(biāo)維度層面的使用;
  • 向上,通過統(tǒng)一的指標(biāo)查詢服務(wù),為上層應(yīng)用提供穩(wěn)定可靠的指標(biāo)服務(wù),從而保障指標(biāo)質(zhì)量。

在與應(yīng)用方的合作過程中,主要采用兩種模式:

  • 合作共建:一種是指標(biāo)中臺與 BI 工具的深度合作,通過這種方式構(gòu)建快手的 BI 體系,實現(xiàn)數(shù)據(jù)的深入分析和可視化;
  • 開放生態(tài):另一種是指標(biāo)中臺結(jié)合開放 API,構(gòu)建一個開放的生態(tài),允許更廣泛的數(shù)據(jù)訪問和應(yīng)用集成,從而促進(jìn)數(shù)據(jù)的共享和創(chuàng)新。

通過這種綜合性的解決方案,能夠為企業(yè)提供強大的數(shù)據(jù)支持和靈活的分析能力,推動企業(yè)數(shù)據(jù)驅(qū)動的決策和業(yè)務(wù)增長。

整個指標(biāo)中臺是圍繞著指標(biāo)管理和指標(biāo)服務(wù)兩部分來建設(shè)的,接下來將分別進(jìn)行詳細(xì)介紹。

二、指標(biāo)管理

1. 指標(biāo)管理相關(guān)背景

首先來介紹指標(biāo)管理。

在指標(biāo)管理方面,主要問題是指標(biāo)管理不統(tǒng)一和指標(biāo)口徑不一致;指標(biāo)管理不統(tǒng)一導(dǎo)致了指標(biāo)多處管理、嚴(yán)重浪費成本等問題,指標(biāo)口徑不一致導(dǎo)致了指標(biāo)同義不同名、同名不同義等問題,比如同樣是支付訂單金額指標(biāo),有的業(yè)務(wù)方叫 GMV,有的業(yè)務(wù)方叫支付金額,這種同義不同名的現(xiàn)象給我們?nèi)粘V笜?biāo)溝通和使用都帶來問題和困難。我們希望通過標(biāo)準(zhǔn)化流程對指標(biāo)進(jìn)行有效管理,協(xié)助業(yè)務(wù)提高指標(biāo)管理效率,降低業(yè)務(wù)成本,從而提高業(yè)務(wù)決策效率。

2. 指標(biāo)管理解決方案

那么如何才能有效管理指標(biāo)呢?

我們的具體做法是采用流程+規(guī)范+管理工具的方式來構(gòu)建指標(biāo)管理模塊,主要分為以下部分:

  • 指標(biāo)標(biāo)準(zhǔn)化流程與規(guī)范:采用標(biāo)準(zhǔn)化的流程和規(guī)范來統(tǒng)一指標(biāo)和維度信息的接入。
  • 元數(shù)據(jù)管理:對接入的指標(biāo)維度元數(shù)據(jù)進(jìn)行統(tǒng)一管理。
  • 模型管理:對指標(biāo)維度等元數(shù)據(jù)進(jìn)行數(shù)據(jù)建模,形成數(shù)據(jù)模型,將數(shù)據(jù)模型進(jìn)行有效管理。
  • 數(shù)據(jù)集管理:在元數(shù)據(jù)管理和模型管理的基礎(chǔ)上形成數(shù)據(jù)集管理,對外提供統(tǒng)一的服務(wù)。

下面來分別介紹以上步驟。

3. 指標(biāo)標(biāo)準(zhǔn)化規(guī)范和流程

指標(biāo)標(biāo)準(zhǔn)化規(guī)范和流程主要解決兩個問題:統(tǒng)一指標(biāo)口徑、提高指標(biāo)質(zhì)量。在整個流程中的各個環(huán)節(jié)都需要制定并落實相關(guān)規(guī)范,具體如下:

  • 業(yè)務(wù)口徑制定:在明確需求后,將制定業(yè)務(wù)口徑,確保指標(biāo)的定義與業(yè)務(wù)目標(biāo)一致,要落實數(shù)據(jù)規(guī)范和指標(biāo)命名規(guī)范。
  • 數(shù)據(jù)開發(fā):根據(jù)業(yè)務(wù)口徑進(jìn)入指標(biāo)開發(fā)階段,要落實數(shù)據(jù)開發(fā)規(guī)范和數(shù)據(jù)模型規(guī)范,并且在平臺保證一致性規(guī)范。
  • 指標(biāo)服務(wù)提供:落實指標(biāo)服務(wù)規(guī)范。
  • 審批授權(quán):為保證指標(biāo)口徑的統(tǒng)一,我們會對各業(yè)務(wù)線進(jìn)行梳理,每個業(yè)務(wù)線會有對應(yīng)的數(shù)據(jù)域,數(shù)據(jù)域有數(shù)據(jù)管家對指標(biāo)口徑進(jìn)行審批和授權(quán)。

整體來講,我們是在關(guān)鍵流程中落實相關(guān)規(guī)范來保障數(shù)據(jù)開發(fā)質(zhì)量,進(jìn)而保障指標(biāo)的質(zhì)量。在整個流程中,需要多個團隊通力合作,才能確保指標(biāo)的統(tǒng)一性和高質(zhì)量。

4. 元數(shù)據(jù)/模型/數(shù)據(jù)集管理

在元數(shù)據(jù)管理方面,整體采取分層管理的方法來確保數(shù)據(jù)的有效組織和使用:

  • 概念層(元數(shù)據(jù)管理):主要負(fù)責(zé)指標(biāo)、維度、數(shù)據(jù)表以及綁定等元數(shù)據(jù)的統(tǒng)一管理。
  • 邏輯層(模型管理):在元數(shù)據(jù)管理之上,我們面臨的第一個問題是原始錄入指標(biāo)的元數(shù)據(jù)通常不能直接用于業(yè)務(wù)。例如,一個維度可能綁定多張維表,在指標(biāo)服務(wù)時基于原始元數(shù)據(jù)計算維度應(yīng)該從哪張維表取數(shù)是非常浪費資源的,所以需要進(jìn)行數(shù)據(jù)建模,基于元數(shù)據(jù)重新梳理和構(gòu)建數(shù)據(jù)關(guān)系,形成數(shù)據(jù)模型,進(jìn)而提高指標(biāo)使用時的查詢性能。
  • 應(yīng)用層(數(shù)據(jù)集管理):第二個問題是業(yè)務(wù)線可能有成千上萬的指標(biāo),用戶的一些使用場景只關(guān)注少量指標(biāo),但在使用時卻需要從大量指標(biāo)中檢索特定指標(biāo),這無疑增加了用戶的理解成本和使用成本。為了解決這個問題,我們設(shè)計了數(shù)據(jù)集,即特定指標(biāo)、維度和數(shù)據(jù)表的一個集合,從而縮小指標(biāo)數(shù)據(jù)的范圍。用戶可以將關(guān)注的指標(biāo)和維度圈選到一個數(shù)據(jù)集中,這樣在使用看板或報表時,可以直接使用數(shù)據(jù)集提供服務(wù),而不需要從大量指標(biāo)中逐一檢索。數(shù)據(jù)集也是我們對外提供服務(wù)的載體。

5. 數(shù)據(jù)建模

在元數(shù)據(jù)管理中,有一步非常關(guān)鍵,就是數(shù)據(jù)建模,這里單獨介紹一下數(shù)據(jù)建模。

數(shù)據(jù)建模是數(shù)據(jù)管理過程中非常關(guān)鍵的一步,它直接影響到后續(xù)數(shù)據(jù)的使用和分析。數(shù)據(jù)建模,即基于指標(biāo)維度和數(shù)據(jù)表的關(guān)聯(lián)關(guān)系,實現(xiàn)從指標(biāo)維度元數(shù)據(jù)到數(shù)據(jù)模型的轉(zhuǎn)換。具體做法是采用三步建模的方式:

(1)概念建模:在指標(biāo)定義階段,定義指標(biāo)、維度、數(shù)據(jù)表之間的關(guān)系。

(2)邏輯建模:邏輯建模是一個自動化的建模服務(wù),包括模型發(fā)現(xiàn)、關(guān)聯(lián)字段、最佳路徑計算和模型索引的構(gòu)建。

(3)物理建模:生成最終的數(shù)據(jù)模型,包括星型模型和雪花模型。

其中關(guān)鍵的建模步驟是邏輯建模過程。為了讓大家更好的理解邏輯建模過程,這里以一個例子來介紹:

  • 模型發(fā)現(xiàn):如上圖中的例子,在平臺上定義了一個指標(biāo)(活躍設(shè)備數(shù))和一個維度(省份 ID),指標(biāo)綁定在事實表上,維度綁定在事實表和兩張維表上;首先會通過模型發(fā)現(xiàn)檢測到指標(biāo)口徑以及指標(biāo)和表的綁定關(guān)系的變化,一旦發(fā)現(xiàn)變化,就會自動觸發(fā)建模流程。
  • 關(guān)聯(lián)字段:模型發(fā)現(xiàn)后,首先通過關(guān)聯(lián)字段(省份 ID 綁定的維表字段)進(jìn)行模型的初步構(gòu)建,在該例子中事實表和維表通過province_id 相關(guān)聯(lián),而 province_id 會關(guān)聯(lián)兩個維表,即城市維表和省份維表。
  • 最佳路徑計算:初步建模后,接下來對模型進(jìn)行優(yōu)化,即最佳路徑優(yōu)化,主要遵循選粗表不選細(xì)表、選快表不選慢表的原則;在上述例子中,雖然省份維表和城市維表均滿足綁定要求,但省份維表比城市維度粒度更粗,在后續(xù)指標(biāo)服務(wù)過程有更好的查詢性能,所以這一步會將城市維表裁剪掉,只留下省份維表。
  • 數(shù)據(jù)模型:最終得到數(shù)據(jù)模型,記錄表與表之間的關(guān)系,以及一些附加信息(可累加性等信息)。

有了數(shù)據(jù)模型之后,就可以對外提供指標(biāo)服務(wù)了。接下來將介紹指標(biāo)服務(wù)部分。

三、指標(biāo)服務(wù)

1. 指標(biāo)服務(wù)相關(guān)背景

指標(biāo)服務(wù)是數(shù)據(jù)架構(gòu)中的重要組成部分,其核心功能是提供指標(biāo)取數(shù)的能力。隨著業(yè)務(wù)的不斷發(fā)展,對指標(biāo)服務(wù)的要求也在不斷提高,主要問題與挑戰(zhàn)如下:

  • 需求多樣性:除普通計算能力外,業(yè)務(wù)需要高級計算和分析能力,如窗口函數(shù)計算、同比/環(huán)比分析等;
  • 聯(lián)邦查詢:數(shù)據(jù)可能分布在不同的存儲系統(tǒng)中,如 ClickHouse、Hive 或 MySQL 等,傳統(tǒng)的解決方案是將數(shù)據(jù)同步到單一引擎,但這會給業(yè)務(wù)增加開發(fā)和存儲成本。所以業(yè)務(wù)對聯(lián)邦查詢的需求也愈發(fā)強烈;
  • 查詢效率:不同存儲系統(tǒng)中的查詢效率存在差異,比如像 Hive 離線引擎查詢慢、ClickHouse Join 查詢性能慢,從而會影響業(yè)務(wù)的分析效率。

2. 指標(biāo)服務(wù)解決方案

為了解決上述問題,我們將指標(biāo)服務(wù)設(shè)計成以下三層:

  • 統(tǒng)一分析語言層:提供豐富的語義表達(dá)能力,使用戶能夠定義復(fù)雜的計算和分析需求。
  • 統(tǒng)一查詢引擎層:提供聯(lián)邦查詢能力,允許用戶跨引擎進(jìn)行查詢,而無需關(guān)心底層物理存儲的復(fù)雜性。
  • 指標(biāo)加速層:提供指標(biāo)查詢加速能力,優(yōu)化查詢性能,解決查詢效率低下的問題。

3. 統(tǒng)一分析語言 OAX

統(tǒng)一分析語言(OAX)是一種以數(shù)據(jù)集為載體,面向分析場景的分析語言,包括五個要素:數(shù)據(jù)范圍、指標(biāo)、維度、時間范圍和過濾條件。

為了大家更好地理解 OAX 語言,我們以一個例子來說明:比如要獲取 2022-2023 年廣東省各市的 GDP 總值及其在全省 GDP 中的占比。

  • 不使用 OAX 語言:首先我們需要分別求出廣東省各市的 GDP 總值,然后計算廣東省的 GDP 總值,再把兩者計算求出占比,整個過程一般需要三個 SQL 來完成。
  • 使用 OAX 語言:我們可以這樣操作,數(shù)據(jù)范圍是國民經(jīng)濟數(shù)據(jù)集,指標(biāo)為各市的 GDP 總值及其占比,維度是年份、省份和城市,時間條件是 2022 年至 2023 年,過濾條件是省份為廣東。如圖中 SQL 的第 5 行,通過 EXCLUDE[城市]去掉了城市維度,也就是省 GDP,再用各市的 GDP 除以省 GDP,就是我們需要的占比這一指標(biāo)。可以看到,使用 OAX 語言可以極大地簡化計算的定義,提高業(yè)務(wù)分析效率。

以上例子是 OAX 語言的動態(tài)粒度計算的能力,OAX 語言的能力主要包括三部分:

  • 基本計算:OAX 提供了一系列基本的計算函數(shù),如 SUM、COUNT DISTINCT、CONCAT 等等。
  • 動態(tài)粒度計算:允許用戶在計算過程中根據(jù)需要調(diào)整數(shù)據(jù)的粒度,進(jìn)行更靈活的分析。如 EXCLUDE、INCLUDE、FIXCLUDE 等。
  • 表計算:表計算是 OAX 的一個高級特性,它允許用戶在數(shù)據(jù)表中進(jìn)行跨行的計算。例如 RUNNING SUM(累計求和),用于計算從表的開始到當(dāng)前行的連續(xù)值的總和。這種方法不僅簡化了計算過程,而且提高了計算的準(zhǔn)確性和效率。

OAX 屬于語言層面,要真正落地還需要一個載體去實現(xiàn),即統(tǒng)一查詢引擎 OCTO。

4. 統(tǒng)一查詢引擎 OCTO

統(tǒng)一查詢引擎 OCTO 是一個支持聯(lián)邦查詢的通用查詢平臺,它能夠?qū)⒔y(tǒng)一分析語言(OAX)轉(zhuǎn)化為實際的查詢操作。

OCTO 的架構(gòu)主要包括:

(1)接口層:主要聯(lián)邦查詢語言,基于 Substrait 協(xié)議擴展而來。

(2)查詢層:首先是解析接口層的聯(lián)邦查詢語言,構(gòu)建邏輯查詢計劃;然后對查詢計劃進(jìn)行編排,這里是實現(xiàn)二次計算的關(guān)鍵,像同環(huán)比、動態(tài)粒度計算等能力均為二次計算能力;最后將編排后的計劃交由引擎執(zhí)行。

(3)適配層:適配異構(gòu)引擎的查詢能力。

我們還是以一個例子來看一下整體處理流程:

(1)定義 OAX 查詢語言:以前面求各市 GDP 占比的樣例為例,首先定義好 OAX 語言的五要素;這時還是指標(biāo)維度范圍;

(2)翻譯成聯(lián)邦查詢語言:然后將 OAX 語言翻譯成聯(lián)邦查詢語言;這一步主要結(jié)合指標(biāo)維度元數(shù)據(jù)和數(shù)據(jù)模型信息,將 OAX 語言的五要素轉(zhuǎn)換成物理引擎的表和字段信息,組織成聯(lián)邦查詢語言;這時就是物理底表范圍;

(3)查詢計劃:將聯(lián)邦查詢語言翻譯成查詢計劃,在該例中,廣東省各市 GDP 總值和廣東省 GDP 總值分別是兩個計算算子,然后將這兩算子 Join 計算得出 GDP 占比;

(4)得出結(jié)果:最后將計算結(jié)果返回。

總結(jié)一下,OCTO 具有三大特點:

(1)聯(lián)邦查詢能力:OCTO 是支持異構(gòu)數(shù)據(jù)源的通用聯(lián)邦查詢平臺,可以通過查詢計劃編排實現(xiàn)各種高級數(shù)據(jù)分析能力;

(2)開放能力:作為通用平臺,可支持運營平臺、質(zhì)檢平臺等多種應(yīng)用系統(tǒng)的指標(biāo)需求。

(3)查詢性能優(yōu)化:

  • RBO:基于規(guī)則的優(yōu)化,如謂詞下推、列裁剪、join 消除等。
  • CBO:基于成本的優(yōu)化,遵循選擇快表、小表的原則,提高查詢性能。

5. 指標(biāo)加速

OCTO 的查詢優(yōu)化主要是在查詢計劃層面,而有些場景下查詢計劃層面的優(yōu)化無法滿足要求,比如無法優(yōu)化 Hive 引擎查詢慢的問題。為了解決此類查詢性能問題,我們設(shè)計了指標(biāo)加速層,其主要采用的是用空間換時間的思想。

指標(biāo)加速層的配置方式有兩種:

  • 用戶手動配置:用戶可以基于特定的指標(biāo)和維度手動配置加速規(guī)則,系統(tǒng)根據(jù)這些規(guī)則生成 ETL 任務(wù),自動提交給任務(wù)調(diào)度平臺,定期執(zhí)行以加載數(shù)據(jù)到高速引擎。
  • 自動化分析配置:平臺根據(jù)用戶在指標(biāo)和維度上的查詢歷史記錄,自動分析提效場景,然后創(chuàng)建自動化的 ETL 任務(wù)進(jìn)行數(shù)據(jù)加速。

指標(biāo)加速層的應(yīng)用場景包括:

  • 冷引擎到熱引擎:將存儲在性能較低的存儲引擎(如 Hive 表)中的指標(biāo)數(shù)據(jù)加速到性能更高的存儲引擎(如 ClickHouse);
  • 關(guān)聯(lián)查詢到單表查詢:將涉及多表關(guān)聯(lián)查詢的場景優(yōu)化為單表查詢場景,通過加速任務(wù),提前將數(shù)據(jù)聚合到單張表再加速到熱引擎中,以提高查詢性能;
  • 大表到小表:在某些大寬表場景下,每次查詢少量常用指標(biāo)維度都需要進(jìn)行全表掃描,導(dǎo)致查詢性能不佳;指標(biāo)加速可以將頻繁查詢的指標(biāo)和維度單獨形成小表,減少查詢時的數(shù)據(jù)掃描量,提升查詢效率。

指標(biāo)加速層上線以來,加速任務(wù)已達(dá)到百級,加速指標(biāo)占比約為 10%,整體查詢性能提高了 10 倍。

6. 指標(biāo)中臺落地情況

指標(biāo)中臺自上線以來,全面覆蓋了公司的分析領(lǐng)域,主要表現(xiàn)如下:

  • 質(zhì)量:沒有重大質(zhì)量故障。
  • 效率:10 倍以上的效率提升。
  • 成本:極大地提高了數(shù)據(jù)復(fù)用度。
  • 指標(biāo)管理:快手核心業(yè)務(wù)線指標(biāo)全部接入指標(biāo)中臺,上萬指標(biāo)數(shù)量。
  • 指標(biāo)服務(wù):接入幾十個應(yīng)用方,單日查詢次數(shù)達(dá)到上百萬次。
  • 運營情況:日活躍用戶達(dá)到千級別,月活躍用戶達(dá)到萬級別,為數(shù)據(jù)分析師、運營人員、DE 和業(yè)務(wù)人員的提效提供支撐。

四、未來展望

指標(biāo)中臺在未來發(fā)展中將重點聚焦于兩個關(guān)鍵領(lǐng)域,即智能化和高性能。

  • 智能化方面:平臺計劃利用大型模型的能力來探索智能取數(shù)功能,以實現(xiàn)更高級的業(yè)務(wù)分析自動化。通過標(biāo)準(zhǔn)化的指標(biāo)信息構(gòu)建交互式的自助 BI 產(chǎn)品,從而提升用戶體驗,提供高質(zhì)量的對話式智能分析服務(wù)。這種智能化的趨勢將極大地提高數(shù)據(jù)分析的效率,使用戶能夠更快速地獲取所需信息,同時降低技術(shù)門檻,實現(xiàn)數(shù)據(jù)的普惠。
  • 高性能:平臺將繼續(xù)優(yōu)化和提高查詢性能,不斷提升用戶的查詢體驗。此外,隨著技術(shù)的發(fā)展,也會探索如向量化、native sql 等新技術(shù),以進(jìn)一步提升數(shù)據(jù)處理能力,滿足日益復(fù)雜的業(yè)務(wù)需求。
責(zé)任編輯:姜華 來源: DataFunTalk
相關(guān)推薦

2023-08-14 07:28:02

2021-01-26 09:34:08

QPS數(shù)據(jù)中臺

2024-10-29 08:09:18

2024-01-31 08:29:30

2019-05-28 23:00:45

數(shù)據(jù)中臺大數(shù)據(jù)開源工具

2024-07-11 08:09:21

2024-08-13 08:14:55

2019-06-19 11:11:21

2023-11-15 13:36:00

數(shù)倉建設(shè)數(shù)據(jù)中臺

2023-07-04 07:11:30

數(shù)據(jù)分析中臺

2023-12-29 13:48:00

數(shù)據(jù)中臺

2024-10-31 08:22:56

2024-02-05 08:41:08

因果推斷快手短視頻應(yīng)用

2020-06-06 12:37:37

數(shù)據(jù)中臺Gartner企業(yè)

2020-01-08 09:44:59

運維架構(gòu)技術(shù)

2023-10-07 07:35:35

數(shù)據(jù)中臺數(shù)據(jù)源

2022-02-21 08:53:45

IT架構(gòu)數(shù)字中臺

2022-02-22 11:14:51

架構(gòu)轉(zhuǎn)型企業(yè)IT

2024-04-22 07:56:32

數(shù)據(jù)倉庫數(shù)據(jù)中臺數(shù)據(jù)服務(wù)

2024-07-16 08:38:17

點贊
收藏

51CTO技術(shù)棧公眾號

主站蜘蛛池模板: 久久大陆 | 伊人伊成久久人综合网站 | 日韩三级一区 | 亚欧洲精品在线视频免费观看 | 欧美一级电影免费 | 日韩高清av| 99视频免费| 亚洲人在线 | 亚洲成人观看 | 日韩一二区 | 国产精品自产拍在线观看蜜 | 国产在线精品一区二区 | 日韩欧美精品一区 | 亚洲成人网在线观看 | 一区二区三区四区在线视频 | 精品一级 | 97av在线 | 免费成人av | 国产成人精品一区二 | 久久久久九九九女人毛片 | 羞羞视频在线观看网站 | 国产区精品| 欧美日韩一区二区三区四区五区 | 狠狠干夜夜草 | 国产激情免费视频 | 色综合天天天天做夜夜夜夜做 | 国产美女福利在线观看 | 91精品国产综合久久久久久蜜臀 | 国产综合欧美 | 国产精品精品久久久 | 一区二区三区国产 | 天天夜干 | 美女一区二区在线观看 | 亚洲一区中文 | 久久久精品一区 | 日韩高清中文字幕 | 亚洲高清视频在线观看 | 男人天堂网址 | 色视频网站在线观看 | 99re国产视频 | 亚洲久久|