Fileset：小米 AI 數(shù)據(jù)管理平臺(tái)落地

作者：何嬋 2024-09-30 08:13:58

本文將分享小米 AI 數(shù)據(jù)管理平臺(tái)的建設(shè)背景、設(shè)計(jì)方案，以及落地實(shí)踐。AI 數(shù)據(jù)包括文本、圖像、視頻、音頻、傳感器數(shù)據(jù)等多種形式。AI 基建中包含數(shù)據(jù)、算力、算法三個(gè)要素，以支撐人工智能的相關(guān)應(yīng)用。AI 數(shù)據(jù)正是AI 基建的要素之一。

一、概念釋義

1. AI 數(shù)據(jù)

AI 數(shù)據(jù)，是用于訓(xùn)練、驗(yàn)證和測(cè)試 AI 模型的各類(lèi)數(shù)據(jù)，是 AI 系統(tǒng)學(xué)習(xí)、理解和做出決策的基礎(chǔ)。AI 數(shù)據(jù)包括文本、圖像、視頻、音頻、傳感器數(shù)據(jù)等多種形式。AI 基建中包含數(shù)據(jù)、算力、算法三個(gè)要素，以支撐人工智能的相關(guān)應(yīng)用。AI 數(shù)據(jù)正是AI 基建的要素之一。

按照存儲(chǔ)格式分類(lèi)，AI 數(shù)據(jù)可分為表格數(shù)據(jù)和非表格數(shù)據(jù)。按照數(shù)據(jù)格式分類(lèi)，則包括結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)。

2. 非結(jié)構(gòu)化數(shù)據(jù)

在開(kāi)源社區(qū)中，AI 數(shù)據(jù)中的非結(jié)構(gòu)化數(shù)據(jù)已使用“非表格數(shù)據(jù)”來(lái)描述。以往在大數(shù)據(jù)領(lǐng)域的處理對(duì)象一般都是指表格數(shù)據(jù)，其數(shù)據(jù)量?jī)H占整個(gè)數(shù)據(jù)體量的 20%。剩余的非表格數(shù)據(jù)（包括音頻、視頻、TXT 等非結(jié)構(gòu)化數(shù)據(jù)）的預(yù)計(jì)體量將達(dá)到 80%。

非表格數(shù)據(jù)具有三個(gè)特點(diǎn)：一是數(shù)據(jù)體量大，企業(yè)級(jí)一般達(dá)到 PB 級(jí)別，甚至 EB 級(jí)別，文件數(shù)量可達(dá)億級(jí)、十億級(jí)，這個(gè)體量在表格數(shù)據(jù)中較少見(jiàn)；二是價(jià)值密度大，因其包含音頻、視頻等，能承載的信息量更多；三是處理難度大，表格數(shù)據(jù)可通過(guò) SQL 進(jìn)行處理和分析，而對(duì)于非表格數(shù)據(jù)，需要用到自然語(yǔ)言處理或其他機(jī)器學(xué)習(xí)方法，對(duì)技術(shù)人員的要求更高。

二、平臺(tái)建設(shè)背景

2022 年 AI 的大爆發(fā)為 AI 基建的發(fā)展帶來(lái)了機(jī)遇和挑戰(zhàn)。數(shù)據(jù)作為 AI 基建的三要素之一，其高效、安全和智能成為 AI 基建發(fā)展的重要模塊。這一外部趨勢(shì)是促使我們進(jìn)行 AI 數(shù)據(jù)建設(shè)的背景之一。

其次，結(jié)合小米內(nèi)部的發(fā)展情況。以前我們更多聚焦于數(shù)據(jù)中臺(tái)的表格數(shù)據(jù)相關(guān)的開(kāi)發(fā)處理能力。基于這一背景，對(duì)于非表格數(shù)據(jù)的現(xiàn)狀，我們開(kāi)展了前期業(yè)務(wù)調(diào)研，總結(jié)了五個(gè)痛點(diǎn)問(wèn)題。

安全隱私風(fēng)險(xiǎn)：大量數(shù)據(jù)資產(chǎn)存儲(chǔ)在本地或在平臺(tái)處理后下載到本地，存在數(shù)據(jù)泄露風(fēng)險(xiǎn)且無(wú)法有效監(jiān)管，數(shù)據(jù)下載到本地后流向不明確。
數(shù)據(jù)使用效率低：小米內(nèi)部存儲(chǔ)系統(tǒng)眾多，因沒(méi)有統(tǒng)一的非表格數(shù)據(jù)管理，各業(yè)務(wù)系統(tǒng)根據(jù)自身情況選擇存儲(chǔ)系統(tǒng)，如 HDFS、FDS、FS、NAS、KS3 等。不同業(yè)務(wù)方直接對(duì)接系統(tǒng)，導(dǎo)致數(shù)據(jù)使用效率低下。
資產(chǎn)轉(zhuǎn)讓管理困難：由于缺乏平臺(tái)能力，數(shù)據(jù)的血緣缺失，無(wú)法清楚知道數(shù)據(jù)的使用情況，哪些數(shù)據(jù)真正在用，以及每個(gè)文件的使用頻率等，導(dǎo)致低價(jià)值數(shù)據(jù)難以治理，占用大量存儲(chǔ)成本。
缺乏算法代碼調(diào)試環(huán)境：本地調(diào)試代碼后上傳到訓(xùn)練平臺(tái)，若代碼執(zhí)行不符合預(yù)期，需重復(fù)本地訓(xùn)練和上傳的流程，代碼開(kāi)發(fā)到最終運(yùn)行的流程復(fù)雜。
體系割裂：現(xiàn)有的 AI 體系與 Data 體系割裂，AI 使用數(shù)據(jù)時(shí)通過(guò)直接對(duì)接 HDFS 文件，而非通過(guò)更平臺(tái)化的能力進(jìn)行數(shù)據(jù)對(duì)接，導(dǎo)致使用上出現(xiàn)斷層問(wèn)題。

以上是兩個(gè)背景，外部 AI 的發(fā)展以及內(nèi)部 AI 數(shù)據(jù)管理存在的諸多問(wèn)題和痛點(diǎn)，這促使我們需要在降低成本、進(jìn)行 AI 數(shù)據(jù)治理、提高算法開(kāi)發(fā)流程效率以及挖掘數(shù)據(jù)價(jià)值方面提供相應(yīng)的能力。

三、平臺(tái)方案設(shè)計(jì)

首先，看一下 AI 數(shù)據(jù)管理的業(yè)界趨勢(shì)。在項(xiàng)目啟動(dòng)前，我們調(diào)研了許多平臺(tái)，如 Databricks 和 Snowflake。Databricks 很早就使用了 Unity Catalog 的概念，將表格數(shù)據(jù)和非表格數(shù)據(jù)在統(tǒng)一的 Catalog 下進(jìn)行管理。同樣 Snowflake 也使用了 Fileset 的概念。如圖所示，Databricks 有統(tǒng)一的 Metastore 存儲(chǔ)，通過(guò)統(tǒng)一的 Catalog 管理表和 Volume 等文件數(shù)據(jù)，表格數(shù)據(jù)和非表格數(shù)據(jù)在一個(gè)體系下進(jìn)行管理，這是業(yè)界關(guān)于 AI 數(shù)據(jù)管理或 Data 與 AI 在數(shù)據(jù)上融合的趨勢(shì)。

小米的現(xiàn)狀是，此前在做表格數(shù)據(jù)治理時(shí)，內(nèi)部有許多存儲(chǔ)系統(tǒng)，如 Hive、Iceberg、Doris、MySQL 等，不同存儲(chǔ)系統(tǒng)存在難以審計(jì)、追查，權(quán)限割裂不統(tǒng)一等問(wèn)題。當(dāng)時(shí)提出的方案是用統(tǒng)一的目錄名 MetaCat，將所有表（如 Hive 表、Iceberg 表等）用三元組的形式進(jìn)行統(tǒng)一，由三元組在數(shù)據(jù)管理平臺(tái)上進(jìn)行管理，再與上層引擎（如 Spark、Flink 等）進(jìn)行數(shù)據(jù)運(yùn)算處理。有了統(tǒng)一 Catalog 后，能夠進(jìn)行各種權(quán)限審計(jì)和跨數(shù)據(jù)源的數(shù)據(jù)治理。

基于此技術(shù)方案，我們有一個(gè)產(chǎn)品結(jié)構(gòu)。底層有表格數(shù)據(jù)相關(guān)的數(shù)據(jù)體系，將數(shù)據(jù)集成到數(shù)據(jù)管理平臺(tái)上進(jìn)行資源管理、數(shù)據(jù)開(kāi)發(fā)、監(jiān)控、運(yùn)維等管理能力，基于這些管理能力提供數(shù)據(jù)應(yīng)用，如常見(jiàn)的 BI。在數(shù)據(jù)開(kāi)發(fā)場(chǎng)景中，進(jìn)行數(shù)據(jù)倉(cāng)庫(kù)的處理，然后提供上層 BI 應(yīng)用，同時(shí)旁邊有整個(gè)資產(chǎn)中心，對(duì)表格數(shù)據(jù)進(jìn)行權(quán)限管理、審計(jì)、成本可視化、數(shù)據(jù)質(zhì)量監(jiān)控、訪問(wèn)審計(jì)、數(shù)據(jù)血緣等能力，以確保數(shù)據(jù)開(kāi)發(fā)過(guò)程中的成本、安全和治理能力。這是小米在表格數(shù)據(jù)資產(chǎn)管理方面的經(jīng)驗(yàn)。

對(duì)于 AI 數(shù)據(jù)管理，我們結(jié)合業(yè)界趨勢(shì)，將 Data 與 AI 進(jìn)行融合，數(shù)據(jù)與算法流程進(jìn)行融合，實(shí)現(xiàn)非表格數(shù)據(jù)或 AI 數(shù)據(jù)的可追溯，知道每個(gè)文件的使用情況、管理方式以及如何進(jìn)行數(shù)據(jù)治理，聯(lián)通整個(gè)AI 與 Data 的開(kāi)發(fā)鏈路。基于這四個(gè)點(diǎn)，我們提出了小米的存算管治方案，即 Fileset。

我們有四個(gè)設(shè)計(jì)原則：

第一，方案要滿足業(yè)務(wù)現(xiàn)有降低存儲(chǔ)成本和提高算法流程的需求。

第二，兼容業(yè)務(wù)已有的用法，避免提供與現(xiàn)有用法割裂的方案，導(dǎo)致使用或遷移成本過(guò)高，難以推動(dòng)新方案。

第三，能夠快速落地，考慮使用哪些引擎的能力以及與開(kāi)源社區(qū)的協(xié)作方式。

第四，方案要具有先進(jìn)性，能滿足長(zhǎng)期業(yè)務(wù)發(fā)展，包括表格數(shù)據(jù)和非表格數(shù)據(jù)的協(xié)同發(fā)展。

基于這四個(gè)設(shè)計(jì)原則，最終 Fileset 的方案有兩個(gè)關(guān)鍵點(diǎn)：

首先，我們?cè)诂F(xiàn)有的大數(shù)據(jù)開(kāi)發(fā)平臺(tái)中引入了 Fileset，對(duì)數(shù)據(jù)進(jìn)行封裝，而不是創(chuàng)建一個(gè)新的平臺(tái)。在現(xiàn)有的表格數(shù)據(jù)管理系統(tǒng)中，我們?nèi)谌肓?Fileset 的非表格數(shù)據(jù)管理能力，實(shí)現(xiàn)數(shù)據(jù)的統(tǒng)一治理和追溯，從而建立數(shù)據(jù)的連通性。那么，如何實(shí)現(xiàn)這種統(tǒng)一呢？如左側(cè)下方圖示所示，我們將所有數(shù)據(jù)納入一個(gè)統(tǒng)一的元數(shù)據(jù)系統(tǒng)。原有的表格數(shù)據(jù)通過(guò)一個(gè)三元組的目錄（Catalog）進(jìn)行管理，現(xiàn)在我們也將 Fileset 的數(shù)據(jù)整合進(jìn)來(lái)，涵蓋 HDFS、JuiceFS、FDS 等各種存儲(chǔ)系統(tǒng)。用戶(hù)無(wú)需了解底層的復(fù)雜性，只需知道 Fileset 本質(zhì)上是一種特殊的表，它兼具了表和文件的屬性。

其次，我們需要提供相應(yīng)的開(kāi)發(fā)能力。在傳統(tǒng)的表格數(shù)據(jù)管理過(guò)程中，無(wú)論是數(shù)據(jù)出倉(cāng)還是數(shù)據(jù)處理，我們通常只需使用 SQL 語(yǔ)言。然而，在涉及算法流程時(shí)，僅使用 SQL 語(yǔ)言是不足夠的，我們還需要更多的編程語(yǔ)言支持，如 Python 和 Scala。在底層數(shù)據(jù)層面，我們不僅需要處理表格數(shù)據(jù)（Table），還需要處理 Fileset（即非表格數(shù)據(jù)）。這些數(shù)據(jù)都需要在統(tǒng)一的數(shù)據(jù)管理平臺(tái)中進(jìn)行管理，并通過(guò) SQL、Python、Scala 等語(yǔ)言進(jìn)行處理，從而支持模型訓(xùn)練。因此，我們建立了一個(gè)綜合的開(kāi)發(fā)能力體系。

以上就是關(guān)于 Fileset 方案的整體概述。

四、平臺(tái)落地實(shí)踐

Fileset 在小米內(nèi)部是如何落地的呢？其中涉及四項(xiàng)核心能力。

首先，非表格數(shù)據(jù)是在表格數(shù)據(jù)的基礎(chǔ)上進(jìn)行融合的。從架構(gòu)上看，我們?cè)诟鱾€(gè)能力上，如數(shù)據(jù)源能力、開(kāi)發(fā)能力上融入了非表格數(shù)據(jù)，應(yīng)用方面除了原來(lái)的 BI，還包括小愛(ài)、智能駕駛等各種應(yīng)用能力，都是在數(shù)據(jù)管理能力基礎(chǔ)上進(jìn)行的。所有資產(chǎn)的能力也都融入了非表格數(shù)據(jù)相關(guān)的能力。具體來(lái)說(shuō)，F(xiàn)ileset 的創(chuàng)建具有以下價(jià)值：能夠屏蔽掉 HDFS 的概念，規(guī)范文件使用。例如，限制文件路徑為三層，避免用戶(hù)直接對(duì)接 HDFS 時(shí)路徑混亂（三層到十幾層不等，且一個(gè) HDFS 附目錄下可能有億級(jí)別的子文件），提升每個(gè) Fileset 的可復(fù)用性。

其次，我們提供了 Notebook 的在線開(kāi)發(fā)能力，以前使用 SQL，現(xiàn)在提供 Python、Scala 等開(kāi)發(fā)語(yǔ)言的能力，Notebook 的交互式開(kāi)發(fā)產(chǎn)品已在內(nèi)部平臺(tái)落地，其價(jià)值在于提供算法開(kāi)發(fā)的調(diào)試環(huán)境，后續(xù)還將提供 GPU 資源，用戶(hù)無(wú)需在本地使用其他機(jī)器或跳板機(jī)進(jìn)行算法處理，可直接在平臺(tái)上進(jìn)行算法開(kāi)發(fā)。

第三個(gè)核心能力是對(duì)非表格數(shù)據(jù)進(jìn)行治理，這一點(diǎn)在前面也有所提及。我們需要明確某個(gè)數(shù)據(jù)或具體文件的使用情況，例如它涉及了哪些作業(yè)，來(lái)源于哪些表格數(shù)據(jù)，以及下游數(shù)據(jù)的去向。通過(guò)建立這樣的數(shù)據(jù)血緣鏈路，我們能夠更好地進(jìn)行數(shù)據(jù)治理。因此，我們的產(chǎn)品方案中包含一個(gè)數(shù)據(jù)血緣圖，展示了上游數(shù)據(jù)來(lái)源和下游數(shù)據(jù)所依賴(lài)的表格信息。此外，該圖還顯示了在線作業(yè)的具體使用情況和所涉及的作業(yè)內(nèi)容。具備這種數(shù)據(jù)血緣分析能力后，我們就可以進(jìn)一步優(yōu)化和處理數(shù)據(jù)。

最后一個(gè)核心能力是非表格數(shù)據(jù)的資產(chǎn)管理，包括成本管理、權(quán)限管理和生命周期管理等。有了這些能力后，我們能夠?qū)τ脩?hù)的文件進(jìn)行統(tǒng)一而全面的管理。對(duì)于閑置的資產(chǎn)（例如存儲(chǔ)了多天的大量文件），我們可以采用類(lèi)似于表格數(shù)據(jù)的管理方式，例如 TTL 生命周期管理和 TTV 來(lái)完成數(shù)據(jù)的冷備和熱備管理。總體而言，我們的思路是基于表格數(shù)據(jù)治理的經(jīng)驗(yàn)，進(jìn)一步擴(kuò)展到非表格數(shù)據(jù)的管理能力。

功能落地后，在業(yè)務(wù)上取得了以下收益：

一是鏈路減少，效率提高。通過(guò)提供 Fileset 和 Notebook 的方案，原鏈路較長(zhǎng)，需要多次在本地和線上之間跨平臺(tái)操作，每個(gè)跨平臺(tái)流程都需要單獨(dú)進(jìn)行認(rèn)證。在線化后，所有東西都在一個(gè)管理平臺(tái)上完成，除了特征平臺(tái)可能有單獨(dú)平臺(tái)外，所有 AI 數(shù)據(jù)處理流程都在一個(gè)平臺(tái)上，統(tǒng)一用 Fileset 進(jìn)行對(duì)接和權(quán)限空間權(quán)限的對(duì)接。用戶(hù)無(wú)需直接對(duì)接存儲(chǔ)系統(tǒng)，只需要知道 Fileset 這個(gè)類(lèi)似表格的概念，無(wú)需跳板機(jī)和本地開(kāi)發(fā)環(huán)境，可在開(kāi)發(fā)平臺(tái)線上完成。

二是成本降低。如圖所示，某內(nèi)部業(yè)務(wù)中，在有了血緣和審計(jì)能力后，能明確哪些 PB 的數(shù)據(jù)可以刪除，哪些可以冷備，哪些需要轉(zhuǎn)移到另一個(gè)存儲(chǔ)系統(tǒng)（如小米自研的 LavaFS 存儲(chǔ)系統(tǒng)）。經(jīng)過(guò)內(nèi)部算法處理，LavaFS 存儲(chǔ)系統(tǒng)的存儲(chǔ)成本理論上比 HDFS 降低 80%。用戶(hù)只需要知道 Fileset，無(wú)需知道其下面存儲(chǔ)的數(shù)據(jù)和存儲(chǔ)系統(tǒng)，就能大大降低存儲(chǔ)成本。通過(guò) Fileset 概念，查找數(shù)據(jù)的訪問(wèn)情況、數(shù)據(jù)血緣情況和使用情況，才能對(duì)非表格數(shù)據(jù)進(jìn)行各種數(shù)據(jù)治理。

五、總結(jié)與未來(lái)規(guī)劃

最后對(duì)本次分享進(jìn)行一下總結(jié)，并介紹一下 Fileset 的未來(lái)規(guī)劃。

回顧整個(gè)分享的思路，我們從建設(shè)的背景出發(fā)，討論了設(shè)計(jì)的理念。背景主要包括安全、效率、治理、環(huán)境以及體系分類(lèi)等問(wèn)題。在此基礎(chǔ)上，我們提出了設(shè)計(jì)思路，希望實(shí)現(xiàn)數(shù)據(jù)的追溯、管理和治理，同時(shí)建立數(shù)據(jù)上下游的連通性，最終形成了整體解決方案，即 Fileset。在 Fileset 的框架下，我們考慮到小米目前表格數(shù)據(jù)處理的現(xiàn)狀，并在現(xiàn)有能力的基礎(chǔ)上，開(kāi)展元數(shù)據(jù)管理、數(shù)據(jù)血緣分析和數(shù)據(jù)訪問(wèn)等工作。我們將表格數(shù)據(jù)治理的經(jīng)驗(yàn)，應(yīng)用到非表格數(shù)據(jù)的管理方案中，這是 Fileset 相關(guān)產(chǎn)品建設(shè)的整體思路。

接下來(lái)，我們的工作重點(diǎn)有以下幾個(gè)方向：

首先，目前 Fileset 主要對(duì)接的是 HDFS，未來(lái)我們計(jì)劃逐步接入更多的數(shù)據(jù)源，例如 JuiceFS 等。我們會(huì)基于調(diào)研和用戶(hù)使用情況，將這些數(shù)據(jù)源逐步納入 Fileset，實(shí)現(xiàn)各種存儲(chǔ)系統(tǒng)的統(tǒng)一，從而構(gòu)建一個(gè)以 Fileset 為特殊表概念的統(tǒng)一存儲(chǔ)系統(tǒng)。

其次，我們將提供一個(gè)基于線上的框架，包括對(duì) PyTorch、TensorFlow 等用戶(hù)常用框架的支持。我們的目標(biāo)是在平臺(tái)上逐步替代本地平臺(tái)，形成一個(gè)統(tǒng)一的開(kāi)發(fā)平臺(tái)。

第三，我們將打通上下游的開(kāi)發(fā)鏈路，實(shí)現(xiàn) AI 應(yīng)用平臺(tái)、資源平臺(tái)等多種平臺(tái)之間的無(wú)縫銜接，避免用戶(hù)在不同平臺(tái)間頻繁切換，并簡(jiǎn)化使用過(guò)程。

最后，我們將不斷改進(jìn)和提升產(chǎn)品體驗(yàn)。

以上是對(duì)小米 Fileset 的整體介紹。謝謝。

六、Q&A

Q1：小米在進(jìn)行項(xiàng)目或平臺(tái)優(yōu)化設(shè)計(jì)時(shí)，有哪些推動(dòng)因素？在設(shè)計(jì)過(guò)程中是否對(duì)外界有參考，還是基于內(nèi)部問(wèn)題進(jìn)行的設(shè)計(jì)和探索？

A1：在“All in AI”的背景下，作為數(shù)據(jù)管理部門(mén)，我們必須思考在 AI 場(chǎng)景下如何提供相應(yīng)的能力，以幫助提高 AI 流程的效率并降低成本。基于這一背景，我們參考了國(guó)內(nèi)外的相關(guān)產(chǎn)品。例如，國(guó)外的 DataBricks 和 SnowFlake 等產(chǎn)品采用了統(tǒng)一目錄（Catalog）的概念。同時(shí)，我們還研究了許多國(guó)內(nèi)相關(guān)產(chǎn)品，了解它們的使用情況和經(jīng)驗(yàn)。當(dāng)然，最終我們還是要結(jié)合小米的具體情況來(lái)制定方案。鑒于我們已有的表格數(shù)據(jù)治理和資產(chǎn)管理的經(jīng)驗(yàn)，在已有方案和用戶(hù)使用基礎(chǔ)上進(jìn)行擴(kuò)展，使用戶(hù)能夠更快、更好地接入我們的系統(tǒng)。

Q2：非表格數(shù)據(jù)是指研發(fā)寫(xiě)的研發(fā)代碼文檔嗎？能否具體舉幾個(gè)例子？

A2：在最開(kāi)始介紹概念時(shí)，提到了 AI 數(shù)據(jù)和非表格數(shù)據(jù)。非表格數(shù)據(jù)主要指一些音頻、視頻數(shù)據(jù)。例如小米的車(chē)有影像數(shù)據(jù)，小愛(ài)有許多語(yǔ)音數(shù)據(jù)等。在原來(lái)的大數(shù)據(jù)體系中，更多對(duì)接的是業(yè)務(wù)系統(tǒng)的數(shù)據(jù)，如研產(chǎn)供銷(xiāo)服務(wù)等數(shù)據(jù)，而像這種音頻視頻文件的數(shù)據(jù)，雖然有大量?jī)r(jià)值，但此前未進(jìn)行處理。這里的非表格數(shù)據(jù)主要指此類(lèi)數(shù)據(jù)。

Q3：關(guān)于整個(gè)鏈路和平臺(tái)優(yōu)化的成本投入大概有多少？用戶(hù)在應(yīng)用時(shí)，是否會(huì)因平臺(tái)更新而出現(xiàn)使用習(xí)慣上難以適配的問(wèn)題？

A3：關(guān)于成本問(wèn)題，我們不考慮硬件層面的支出，從開(kāi)發(fā)角度來(lái)看，我們基本上是在原有表格數(shù)據(jù)團(tuán)隊(duì)的基礎(chǔ)上，進(jìn)行非表格數(shù)據(jù)的開(kāi)發(fā)工作。我們并沒(méi)有大規(guī)模擴(kuò)充人力來(lái)單獨(dú)開(kāi)發(fā)一個(gè)新的平臺(tái)，而是在現(xiàn)有表格數(shù)據(jù)平臺(tái)的基礎(chǔ)上進(jìn)行擴(kuò)展。針對(duì)用戶(hù)使用習(xí)慣的問(wèn)題，我們也充分考慮了現(xiàn)有平臺(tái)可能存在的割裂感及用戶(hù)痛點(diǎn)。我們的一部分用戶(hù)，諸如算法工程師、數(shù)據(jù)倉(cāng)庫(kù)用戶(hù)和數(shù)據(jù)分析師，已經(jīng)在使用我們的內(nèi)部產(chǎn)品“數(shù)據(jù)工場(chǎng)”，該系統(tǒng)已經(jīng)具備了表格數(shù)據(jù)管理的能力。我們的目標(biāo)是將這些用戶(hù)在其他平臺(tái)上執(zhí)行的流程整合到我們的平臺(tái)上，實(shí)現(xiàn)表格數(shù)據(jù)和非表格數(shù)據(jù)的統(tǒng)一操作和交互體驗(yàn)。因此，用戶(hù)在使用上不會(huì)遇到問(wèn)題。我們也將針對(duì)用戶(hù)體驗(yàn)、遷移過(guò)程及相關(guān)操作提供詳細(xì)的指導(dǎo)，并安排專(zhuān)門(mén)的團(tuán)隊(duì)進(jìn)行業(yè)務(wù)對(duì)接。目前，我們尚未遇到這方面的問(wèn)題。

Q4：AI 的模型文件是否有版本管理的考慮？

A4：內(nèi)部曾討論過(guò)這個(gè)需求，但目前沒(méi)有實(shí)施，后續(xù)會(huì)根據(jù)業(yè)務(wù)迭代情況來(lái)決定是否進(jìn)行。

Q5：非結(jié)構(gòu)數(shù)據(jù)是如何存儲(chǔ)的？

A5：關(guān)于非結(jié)構(gòu)化數(shù)據(jù)的存儲(chǔ)，我之前簡(jiǎn)要提到了 LavaFS。原先的數(shù)據(jù)存儲(chǔ)在 HDFS 中，當(dāng)然這些數(shù)據(jù)仍然可以存儲(chǔ)在 HDFS 中，并通過(guò) Fileset 進(jìn)行封裝。存儲(chǔ)系統(tǒng)本身不需要改變，數(shù)據(jù)依然保存在原處。然而，我們也提供了一個(gè)由小米自主研發(fā)的存儲(chǔ)系統(tǒng)，名為 LavaFS。該系統(tǒng)在理論上可以減少 80% 的存儲(chǔ)需求，顯著降低存儲(chǔ)成本，同時(shí)不影響存儲(chǔ)和計(jì)算效率。

責(zé)任編輯：姜華來(lái)源： DataFunTalk