Fileset:小米 AI 數(shù)據(jù)管理平臺(tái)落地
一、概念釋義
1. AI 數(shù)據(jù)
AI 數(shù)據(jù),是用于訓(xùn)練、驗(yàn)證和測(cè)試 AI 模型的各類(lèi)數(shù)據(jù),是 AI 系統(tǒng)學(xué)習(xí)、理解和做出決策的基礎(chǔ)。AI 數(shù)據(jù)包括文本、圖像、視頻、音頻、傳感器數(shù)據(jù)等多種形式。AI 基建中包含數(shù)據(jù)、算力、算法三個(gè)要素,以支撐人工智能的相關(guān)應(yīng)用。AI 數(shù)據(jù)正是AI 基建的要素之一。
按照存儲(chǔ)格式分類(lèi),AI 數(shù)據(jù)可分為表格數(shù)據(jù)和非表格數(shù)據(jù)。按照數(shù)據(jù)格式分類(lèi),則包括結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)。
2. 非結(jié)構(gòu)化數(shù)據(jù)
在開(kāi)源社區(qū)中,AI 數(shù)據(jù)中的非結(jié)構(gòu)化數(shù)據(jù)已使用“非表格數(shù)據(jù)”來(lái)描述。以往在大數(shù)據(jù)領(lǐng)域的處理對(duì)象一般都是指表格數(shù)據(jù),其數(shù)據(jù)量?jī)H占整個(gè)數(shù)據(jù)體量的 20%。剩余的非表格數(shù)據(jù)(包括音頻、視頻、TXT 等非結(jié)構(gòu)化數(shù)據(jù))的預(yù)計(jì)體量將達(dá)到 80%。
非表格數(shù)據(jù)具有三個(gè)特點(diǎn):一是數(shù)據(jù)體量大,企業(yè)級(jí)一般達(dá)到 PB 級(jí)別,甚至 EB 級(jí)別,文件數(shù)量可達(dá)億級(jí)、十億級(jí),這個(gè)體量在表格數(shù)據(jù)中較少見(jiàn);二是價(jià)值密度大,因其包含音頻、視頻等,能承載的信息量更多;三是處理難度大,表格數(shù)據(jù)可通過(guò) SQL 進(jìn)行處理和分析,而對(duì)于非表格數(shù)據(jù),需要用到自然語(yǔ)言處理或其他機(jī)器學(xué)習(xí)方法,對(duì)技術(shù)人員的要求更高。
二、平臺(tái)建設(shè)背景
2022 年 AI 的大爆發(fā)為 AI 基建的發(fā)展帶來(lái)了機(jī)遇和挑戰(zhàn)。數(shù)據(jù)作為 AI 基建的三要素之一,其高效、安全和智能成為 AI 基建發(fā)展的重要模塊。這一外部趨勢(shì)是促使我們進(jìn)行 AI 數(shù)據(jù)建設(shè)的背景之一。
其次,結(jié)合小米內(nèi)部的發(fā)展情況。以前我們更多聚焦于數(shù)據(jù)中臺(tái)的表格數(shù)據(jù)相關(guān)的開(kāi)發(fā)處理能力。基于這一背景,對(duì)于非表格數(shù)據(jù)的現(xiàn)狀,我們開(kāi)展了前期業(yè)務(wù)調(diào)研,總結(jié)了五個(gè)痛點(diǎn)問(wèn)題。
- 安全隱私風(fēng)險(xiǎn):大量數(shù)據(jù)資產(chǎn)存儲(chǔ)在本地或在平臺(tái)處理后下載到本地,存在數(shù)據(jù)泄露風(fēng)險(xiǎn)且無(wú)法有效監(jiān)管,數(shù)據(jù)下載到本地后流向不明確。
- 數(shù)據(jù)使用效率低:小米內(nèi)部存儲(chǔ)系統(tǒng)眾多,因沒(méi)有統(tǒng)一的非表格數(shù)據(jù)管理,各業(yè)務(wù)系統(tǒng)根據(jù)自身情況選擇存儲(chǔ)系統(tǒng),如 HDFS、FDS、FS、NAS、KS3 等。不同業(yè)務(wù)方直接對(duì)接系統(tǒng),導(dǎo)致數(shù)據(jù)使用效率低下。
- 資產(chǎn)轉(zhuǎn)讓管理困難:由于缺乏平臺(tái)能力,數(shù)據(jù)的血緣缺失,無(wú)法清楚知道數(shù)據(jù)的使用情況,哪些數(shù)據(jù)真正在用,以及每個(gè)文件的使用頻率等,導(dǎo)致低價(jià)值數(shù)據(jù)難以治理,占用大量存儲(chǔ)成本。
- 缺乏算法代碼調(diào)試環(huán)境:本地調(diào)試代碼后上傳到訓(xùn)練平臺(tái),若代碼執(zhí)行不符合預(yù)期,需重復(fù)本地訓(xùn)練和上傳的流程,代碼開(kāi)發(fā)到最終運(yùn)行的流程復(fù)雜。
- 體系割裂:現(xiàn)有的 AI 體系與 Data 體系割裂,AI 使用數(shù)據(jù)時(shí)通過(guò)直接對(duì)接 HDFS 文件,而非通過(guò)更平臺(tái)化的能力進(jìn)行數(shù)據(jù)對(duì)接,導(dǎo)致使用上出現(xiàn)斷層問(wèn)題。
以上是兩個(gè)背景,外部 AI 的發(fā)展以及內(nèi)部 AI 數(shù)據(jù)管理存在的諸多問(wèn)題和痛點(diǎn),這促使我們需要在降低成本、進(jìn)行 AI 數(shù)據(jù)治理、提高算法開(kāi)發(fā)流程效率以及挖掘數(shù)據(jù)價(jià)值方面提供相應(yīng)的能力。
三、平臺(tái)方案設(shè)計(jì)
首先,看一下 AI 數(shù)據(jù)管理的業(yè)界趨勢(shì)。在項(xiàng)目啟動(dòng)前,我們調(diào)研了許多平臺(tái),如 Databricks 和 Snowflake。Databricks 很早就使用了 Unity Catalog 的概念,將表格數(shù)據(jù)和非表格數(shù)據(jù)在統(tǒng)一的 Catalog 下進(jìn)行管理。同樣 Snowflake 也使用了 Fileset 的概念。如圖所示,Databricks 有統(tǒng)一的 Metastore 存儲(chǔ),通過(guò)統(tǒng)一的 Catalog 管理表和 Volume 等文件數(shù)據(jù),表格數(shù)據(jù)和非表格數(shù)據(jù)在一個(gè)體系下進(jìn)行管理,這是業(yè)界關(guān)于 AI 數(shù)據(jù)管理或 Data 與 AI 在數(shù)據(jù)上融合的趨勢(shì)。
小米的現(xiàn)狀是,此前在做表格數(shù)據(jù)治理時(shí),內(nèi)部有許多存儲(chǔ)系統(tǒng),如 Hive、Iceberg、Doris、MySQL 等,不同存儲(chǔ)系統(tǒng)存在難以審計(jì)、追查,權(quán)限割裂不統(tǒng)一等問(wèn)題。當(dāng)時(shí)提出的方案是用統(tǒng)一的目錄名 MetaCat,將所有表(如 Hive 表、Iceberg 表等)用三元組的形式進(jìn)行統(tǒng)一,由三元組在數(shù)據(jù)管理平臺(tái)上進(jìn)行管理,再與上層引擎(如 Spark、Flink 等)進(jìn)行數(shù)據(jù)運(yùn)算處理。有了統(tǒng)一 Catalog 后,能夠進(jìn)行各種權(quán)限審計(jì)和跨數(shù)據(jù)源的數(shù)據(jù)治理。
基于此技術(shù)方案,我們有一個(gè)產(chǎn)品結(jié)構(gòu)。底層有表格數(shù)據(jù)相關(guān)的數(shù)據(jù)體系,將數(shù)據(jù)集成到數(shù)據(jù)管理平臺(tái)上進(jìn)行資源管理、數(shù)據(jù)開(kāi)發(fā)、監(jiān)控、運(yùn)維等管理能力,基于這些管理能力提供數(shù)據(jù)應(yīng)用,如常見(jiàn)的 BI。在數(shù)據(jù)開(kāi)發(fā)場(chǎng)景中,進(jìn)行數(shù)據(jù)倉(cāng)庫(kù)的處理,然后提供上層 BI 應(yīng)用,同時(shí)旁邊有整個(gè)資產(chǎn)中心,對(duì)表格數(shù)據(jù)進(jìn)行權(quán)限管理、審計(jì)、成本可視化、數(shù)據(jù)質(zhì)量監(jiān)控、訪問(wèn)審計(jì)、數(shù)據(jù)血緣等能力,以確保數(shù)據(jù)開(kāi)發(fā)過(guò)程中的成本、安全和治理能力。這是小米在表格數(shù)據(jù)資產(chǎn)管理方面的經(jīng)驗(yàn)。
對(duì)于 AI 數(shù)據(jù)管理,我們結(jié)合業(yè)界趨勢(shì),將 Data 與 AI 進(jìn)行融合,數(shù)據(jù)與算法流程進(jìn)行融合,實(shí)現(xiàn)非表格數(shù)據(jù)或 AI 數(shù)據(jù)的可追溯,知道每個(gè)文件的使用情況、管理方式以及如何進(jìn)行數(shù)據(jù)治理,聯(lián)通整個(gè)AI 與 Data 的開(kāi)發(fā)鏈路。基于這四個(gè)點(diǎn),我們提出了小米的存算管治方案,即 Fileset。
我們有四個(gè)設(shè)計(jì)原則:
第一,方案要滿足業(yè)務(wù)現(xiàn)有降低存儲(chǔ)成本和提高算法流程的需求。
第二,兼容業(yè)務(wù)已有的用法,避免提供與現(xiàn)有用法割裂的方案,導(dǎo)致使用或遷移成本過(guò)高,難以推動(dòng)新方案。
第三,能夠快速落地,考慮使用哪些引擎的能力以及與開(kāi)源社區(qū)的協(xié)作方式。
第四,方案要具有先進(jìn)性,能滿足長(zhǎng)期業(yè)務(wù)發(fā)展,包括表格數(shù)據(jù)和非表格數(shù)據(jù)的協(xié)同發(fā)展。
基于這四個(gè)設(shè)計(jì)原則,最終 Fileset 的方案有兩個(gè)關(guān)鍵點(diǎn):
首先,我們?cè)诂F(xiàn)有的大數(shù)據(jù)開(kāi)發(fā)平臺(tái)中引入了 Fileset,對(duì)數(shù)據(jù)進(jìn)行封裝,而不是創(chuàng)建一個(gè)新的平臺(tái)。在現(xiàn)有的表格數(shù)據(jù)管理系統(tǒng)中,我們?nèi)谌肓?Fileset 的非表格數(shù)據(jù)管理能力,實(shí)現(xiàn)數(shù)據(jù)的統(tǒng)一治理和追溯,從而建立數(shù)據(jù)的連通性。那么,如何實(shí)現(xiàn)這種統(tǒng)一呢?如左側(cè)下方圖示所示,我們將所有數(shù)據(jù)納入一個(gè)統(tǒng)一的元數(shù)據(jù)系統(tǒng)。原有的表格數(shù)據(jù)通過(guò)一個(gè)三元組的目錄(Catalog)進(jìn)行管理,現(xiàn)在我們也將 Fileset 的數(shù)據(jù)整合進(jìn)來(lái),涵蓋 HDFS、JuiceFS、FDS 等各種存儲(chǔ)系統(tǒng)。用戶(hù)無(wú)需了解底層的復(fù)雜性,只需知道 Fileset 本質(zhì)上是一種特殊的表,它兼具了表和文件的屬性。
其次,我們需要提供相應(yīng)的開(kāi)發(fā)能力。在傳統(tǒng)的表格數(shù)據(jù)管理過(guò)程中,無(wú)論是數(shù)據(jù)出倉(cāng)還是數(shù)據(jù)處理,我們通常只需使用 SQL 語(yǔ)言。然而,在涉及算法流程時(shí),僅使用 SQL 語(yǔ)言是不足夠的,我們還需要更多的編程語(yǔ)言支持,如 Python 和 Scala。在底層數(shù)據(jù)層面,我們不僅需要處理表格數(shù)據(jù)(Table),還需要處理 Fileset(即非表格數(shù)據(jù))。這些數(shù)據(jù)都需要在統(tǒng)一的數(shù)據(jù)管理平臺(tái)中進(jìn)行管理,并通過(guò) SQL、Python、Scala 等語(yǔ)言進(jìn)行處理,從而支持模型訓(xùn)練。因此,我們建立了一個(gè)綜合的開(kāi)發(fā)能力體系。
以上就是關(guān)于 Fileset 方案的整體概述。
四、平臺(tái)落地實(shí)踐
Fileset 在小米內(nèi)部是如何落地的呢?其中涉及四項(xiàng)核心能力。
首先,非表格數(shù)據(jù)是在表格數(shù)據(jù)的基礎(chǔ)上進(jìn)行融合的。從架構(gòu)上看,我們?cè)诟鱾€(gè)能力上,如數(shù)據(jù)源能力、開(kāi)發(fā)能力上融入了非表格數(shù)據(jù),應(yīng)用方面除了原來(lái)的 BI,還包括小愛(ài)、智能駕駛等各種應(yīng)用能力,都是在數(shù)據(jù)管理能力基礎(chǔ)上進(jìn)行的。所有資產(chǎn)的能力也都融入了非表格數(shù)據(jù)相關(guān)的能力。具體來(lái)說(shuō),F(xiàn)ileset 的創(chuàng)建具有以下價(jià)值:能夠屏蔽掉 HDFS 的概念,規(guī)范文件使用。例如,限制文件路徑為三層,避免用戶(hù)直接對(duì)接 HDFS 時(shí)路徑混亂(三層到十幾層不等,且一個(gè) HDFS 附目錄下可能有億級(jí)別的子文件),提升每個(gè) Fileset 的可復(fù)用性。
其次,我們提供了 Notebook 的在線開(kāi)發(fā)能力,以前使用 SQL,現(xiàn)在提供 Python、Scala 等開(kāi)發(fā)語(yǔ)言的能力,Notebook 的交互式開(kāi)發(fā)產(chǎn)品已在內(nèi)部平臺(tái)落地,其價(jià)值在于提供算法開(kāi)發(fā)的調(diào)試環(huán)境,后續(xù)還將提供 GPU 資源,用戶(hù)無(wú)需在本地使用其他機(jī)器或跳板機(jī)進(jìn)行算法處理,可直接在平臺(tái)上進(jìn)行算法開(kāi)發(fā)。
第三個(gè)核心能力是對(duì)非表格數(shù)據(jù)進(jìn)行治理,這一點(diǎn)在前面也有所提及。我們需要明確某個(gè)數(shù)據(jù)或具體文件的使用情況,例如它涉及了哪些作業(yè),來(lái)源于哪些表格數(shù)據(jù),以及下游數(shù)據(jù)的去向。通過(guò)建立這樣的數(shù)據(jù)血緣鏈路,我們能夠更好地進(jìn)行數(shù)據(jù)治理。因此,我們的產(chǎn)品方案中包含一個(gè)數(shù)據(jù)血緣圖,展示了上游數(shù)據(jù)來(lái)源和下游數(shù)據(jù)所依賴(lài)的表格信息。此外,該圖還顯示了在線作業(yè)的具體使用情況和所涉及的作業(yè)內(nèi)容。具備這種數(shù)據(jù)血緣分析能力后,我們就可以進(jìn)一步優(yōu)化和處理數(shù)據(jù)。
最后一個(gè)核心能力是非表格數(shù)據(jù)的資產(chǎn)管理,包括成本管理、權(quán)限管理和生命周期管理等。有了這些能力后,我們能夠?qū)τ脩?hù)的文件進(jìn)行統(tǒng)一而全面的管理。對(duì)于閑置的資產(chǎn)(例如存儲(chǔ)了多天的大量文件),我們可以采用類(lèi)似于表格數(shù)據(jù)的管理方式,例如 TTL 生命周期管理和 TTV 來(lái)完成數(shù)據(jù)的冷備和熱備管理。總體而言,我們的思路是基于表格數(shù)據(jù)治理的經(jīng)驗(yàn),進(jìn)一步擴(kuò)展到非表格數(shù)據(jù)的管理能力。
功能落地后,在業(yè)務(wù)上取得了以下收益:
一是鏈路減少,效率提高。通過(guò)提供 Fileset 和 Notebook 的方案,原鏈路較長(zhǎng),需要多次在本地和線上之間跨平臺(tái)操作,每個(gè)跨平臺(tái)流程都需要單獨(dú)進(jìn)行認(rèn)證。在線化后,所有東西都在一個(gè)管理平臺(tái)上完成,除了特征平臺(tái)可能有單獨(dú)平臺(tái)外,所有 AI 數(shù)據(jù)處理流程都在一個(gè)平臺(tái)上,統(tǒng)一用 Fileset 進(jìn)行對(duì)接和權(quán)限空間權(quán)限的對(duì)接。用戶(hù)無(wú)需直接對(duì)接存儲(chǔ)系統(tǒng),只需要知道 Fileset 這個(gè)類(lèi)似表格的概念,無(wú)需跳板機(jī)和本地開(kāi)發(fā)環(huán)境,可在開(kāi)發(fā)平臺(tái)線上完成。
二是成本降低。如圖所示,某內(nèi)部業(yè)務(wù)中,在有了血緣和審計(jì)能力后,能明確哪些 PB 的數(shù)據(jù)可以刪除,哪些可以冷備,哪些需要轉(zhuǎn)移到另一個(gè)存儲(chǔ)系統(tǒng)(如小米自研的 LavaFS 存儲(chǔ)系統(tǒng))。經(jīng)過(guò)內(nèi)部算法處理,LavaFS 存儲(chǔ)系統(tǒng)的存儲(chǔ)成本理論上比 HDFS 降低 80%。用戶(hù)只需要知道 Fileset,無(wú)需知道其下面存儲(chǔ)的數(shù)據(jù)和存儲(chǔ)系統(tǒng),就能大大降低存儲(chǔ)成本。通過(guò) Fileset 概念,查找數(shù)據(jù)的訪問(wèn)情況、數(shù)據(jù)血緣情況和使用情況,才能對(duì)非表格數(shù)據(jù)進(jìn)行各種數(shù)據(jù)治理。
五、總結(jié)與未來(lái)規(guī)劃
最后對(duì)本次分享進(jìn)行一下總結(jié),并介紹一下 Fileset 的未來(lái)規(guī)劃。
回顧整個(gè)分享的思路,我們從建設(shè)的背景出發(fā),討論了設(shè)計(jì)的理念。背景主要包括安全、效率、治理、環(huán)境以及體系分類(lèi)等問(wèn)題。在此基礎(chǔ)上,我們提出了設(shè)計(jì)思路,希望實(shí)現(xiàn)數(shù)據(jù)的追溯、管理和治理,同時(shí)建立數(shù)據(jù)上下游的連通性,最終形成了整體解決方案,即 Fileset。在 Fileset 的框架下,我們考慮到小米目前表格數(shù)據(jù)處理的現(xiàn)狀,并在現(xiàn)有能力的基礎(chǔ)上,開(kāi)展元數(shù)據(jù)管理、數(shù)據(jù)血緣分析和數(shù)據(jù)訪問(wèn)等工作。我們將表格數(shù)據(jù)治理的經(jīng)驗(yàn),應(yīng)用到非表格數(shù)據(jù)的管理方案中,這是 Fileset 相關(guān)產(chǎn)品建設(shè)的整體思路。
接下來(lái),我們的工作重點(diǎn)有以下幾個(gè)方向:
首先,目前 Fileset 主要對(duì)接的是 HDFS,未來(lái)我們計(jì)劃逐步接入更多的數(shù)據(jù)源,例如 JuiceFS 等。我們會(huì)基于調(diào)研和用戶(hù)使用情況,將這些數(shù)據(jù)源逐步納入 Fileset,實(shí)現(xiàn)各種存儲(chǔ)系統(tǒng)的統(tǒng)一,從而構(gòu)建一個(gè)以 Fileset 為特殊表概念的統(tǒng)一存儲(chǔ)系統(tǒng)。
其次,我們將提供一個(gè)基于線上的框架,包括對(duì) PyTorch、TensorFlow 等用戶(hù)常用框架的支持。我們的目標(biāo)是在平臺(tái)上逐步替代本地平臺(tái),形成一個(gè)統(tǒng)一的開(kāi)發(fā)平臺(tái)。
第三,我們將打通上下游的開(kāi)發(fā)鏈路,實(shí)現(xiàn) AI 應(yīng)用平臺(tái)、資源平臺(tái)等多種平臺(tái)之間的無(wú)縫銜接,避免用戶(hù)在不同平臺(tái)間頻繁切換,并簡(jiǎn)化使用過(guò)程。
最后,我們將不斷改進(jìn)和提升產(chǎn)品體驗(yàn)。
以上是對(duì)小米 Fileset 的整體介紹。謝謝。
六、Q&A
Q1:小米在進(jìn)行項(xiàng)目或平臺(tái)優(yōu)化設(shè)計(jì)時(shí),有哪些推動(dòng)因素?在設(shè)計(jì)過(guò)程中是否對(duì)外界有參考,還是基于內(nèi)部問(wèn)題進(jìn)行的設(shè)計(jì)和探索?
A1:在“All in AI”的背景下,作為數(shù)據(jù)管理部門(mén),我們必須思考在 AI 場(chǎng)景下如何提供相應(yīng)的能力,以幫助提高 AI 流程的效率并降低成本。基于這一背景,我們參考了國(guó)內(nèi)外的相關(guān)產(chǎn)品。例如,國(guó)外的 DataBricks 和 SnowFlake 等產(chǎn)品采用了統(tǒng)一目錄(Catalog)的概念。同時(shí),我們還研究了許多國(guó)內(nèi)相關(guān)產(chǎn)品,了解它們的使用情況和經(jīng)驗(yàn)。當(dāng)然,最終我們還是要結(jié)合小米的具體情況來(lái)制定方案。鑒于我們已有的表格數(shù)據(jù)治理和資產(chǎn)管理的經(jīng)驗(yàn),在已有方案和用戶(hù)使用基礎(chǔ)上進(jìn)行擴(kuò)展,使用戶(hù)能夠更快、更好地接入我們的系統(tǒng)。
Q2:非表格數(shù)據(jù)是指研發(fā)寫(xiě)的研發(fā)代碼文檔嗎?能否具體舉幾個(gè)例子?
A2:在最開(kāi)始介紹概念時(shí),提到了 AI 數(shù)據(jù)和非表格數(shù)據(jù)。非表格數(shù)據(jù)主要指一些音頻、視頻數(shù)據(jù)。例如小米的車(chē)有影像數(shù)據(jù),小愛(ài)有許多語(yǔ)音數(shù)據(jù)等。在原來(lái)的大數(shù)據(jù)體系中,更多對(duì)接的是業(yè)務(wù)系統(tǒng)的數(shù)據(jù),如研產(chǎn)供銷(xiāo)服務(wù)等數(shù)據(jù),而像這種音頻視頻文件的數(shù)據(jù),雖然有大量?jī)r(jià)值,但此前未進(jìn)行處理。這里的非表格數(shù)據(jù)主要指此類(lèi)數(shù)據(jù)。
Q3:關(guān)于整個(gè)鏈路和平臺(tái)優(yōu)化的成本投入大概有多少?用戶(hù)在應(yīng)用時(shí),是否會(huì)因平臺(tái)更新而出現(xiàn)使用習(xí)慣上難以適配的問(wèn)題?
A3:關(guān)于成本問(wèn)題,我們不考慮硬件層面的支出,從開(kāi)發(fā)角度來(lái)看,我們基本上是在原有表格數(shù)據(jù)團(tuán)隊(duì)的基礎(chǔ)上,進(jìn)行非表格數(shù)據(jù)的開(kāi)發(fā)工作。我們并沒(méi)有大規(guī)模擴(kuò)充人力來(lái)單獨(dú)開(kāi)發(fā)一個(gè)新的平臺(tái),而是在現(xiàn)有表格數(shù)據(jù)平臺(tái)的基礎(chǔ)上進(jìn)行擴(kuò)展。針對(duì)用戶(hù)使用習(xí)慣的問(wèn)題,我們也充分考慮了現(xiàn)有平臺(tái)可能存在的割裂感及用戶(hù)痛點(diǎn)。我們的一部分用戶(hù),諸如算法工程師、數(shù)據(jù)倉(cāng)庫(kù)用戶(hù)和數(shù)據(jù)分析師,已經(jīng)在使用我們的內(nèi)部產(chǎn)品“數(shù)據(jù)工場(chǎng)”,該系統(tǒng)已經(jīng)具備了表格數(shù)據(jù)管理的能力。我們的目標(biāo)是將這些用戶(hù)在其他平臺(tái)上執(zhí)行的流程整合到我們的平臺(tái)上,實(shí)現(xiàn)表格數(shù)據(jù)和非表格數(shù)據(jù)的統(tǒng)一操作和交互體驗(yàn)。因此,用戶(hù)在使用上不會(huì)遇到問(wèn)題。我們也將針對(duì)用戶(hù)體驗(yàn)、遷移過(guò)程及相關(guān)操作提供詳細(xì)的指導(dǎo),并安排專(zhuān)門(mén)的團(tuán)隊(duì)進(jìn)行業(yè)務(wù)對(duì)接。目前,我們尚未遇到這方面的問(wèn)題。
Q4:AI 的模型文件是否有版本管理的考慮?
A4:內(nèi)部曾討論過(guò)這個(gè)需求,但目前沒(méi)有實(shí)施,后續(xù)會(huì)根據(jù)業(yè)務(wù)迭代情況來(lái)決定是否進(jìn)行。
Q5:非結(jié)構(gòu)數(shù)據(jù)是如何存儲(chǔ)的?
A5:關(guān)于非結(jié)構(gòu)化數(shù)據(jù)的存儲(chǔ),我之前簡(jiǎn)要提到了 LavaFS。原先的數(shù)據(jù)存儲(chǔ)在 HDFS 中,當(dāng)然這些數(shù)據(jù)仍然可以存儲(chǔ)在 HDFS 中,并通過(guò) Fileset 進(jìn)行封裝。存儲(chǔ)系統(tǒng)本身不需要改變,數(shù)據(jù)依然保存在原處。然而,我們也提供了一個(gè)由小米自主研發(fā)的存儲(chǔ)系統(tǒng),名為 LavaFS。該系統(tǒng)在理論上可以減少 80% 的存儲(chǔ)需求,顯著降低存儲(chǔ)成本,同時(shí)不影響存儲(chǔ)和計(jì)算效率。