數(shù)據(jù)太多、太亂、太雜?你需要這樣一套數(shù)據(jù)治理流程
數(shù)據(jù)作為機器學習的基礎,從 GB、TB 到 PB 已經(jīng)增長了無數(shù)倍,現(xiàn)在大一點的業(yè)務場景,沒有 TB 級數(shù)據(jù)都提供不了高效的體驗。那么數(shù)據(jù)怎么治理才好,怎樣與模型、算力結合才算妙?在本文中,我們將看看什么是 HAO 數(shù)據(jù)治理模型,看看公安數(shù)據(jù)到底是如何規(guī)范處理的。
最近,明略科技與合肥工業(yè)大學的研究者在中文核心期刊《軟件學報》上發(fā)表了一篇關于數(shù)據(jù)治理的論文。它介紹了數(shù)據(jù)治理的概念,并對數(shù)據(jù)清洗、交換和集成等進行具體分析,從而提出了一種新型大數(shù)據(jù)治理框架「HAO 治理」模型。
論文地址:http://www.jos.org.cn/1000-9825/5854.htm
數(shù)據(jù)治理真的很重要?
智能是基于數(shù)據(jù)的,而數(shù)據(jù)又是基于大量人工與工程努力的,所以人工智能還有相當一部分「人工」。數(shù)據(jù)收集需要人工確定數(shù)據(jù)源,或者手動寫爬蟲;數(shù)據(jù)處理則需要觀察數(shù)據(jù),并手動寫整個清洗過程;數(shù)據(jù)標注則要根據(jù)具體業(yè)務,看看怎樣給數(shù)據(jù)打標簽才好。
這些過程都會耗費大量精力,有時候如果處理路徑不明確,甚至會導致重復或冗余的人力工作。因此事先確定一個具體的處理流程,明確數(shù)據(jù)該怎樣治理、算力該怎樣分配、模型又該如何部署,那么整個開發(fā)過程能減少很多人力成本與工程負擔。
作為論文一作,明略科技集團首席科學家、明略科學院院長吳信東教授表示:「數(shù)據(jù)治理的本質(zhì)是對一個機構(企業(yè)或政府部門)的數(shù)據(jù)從收集融合到分析管理和利用進行評估、指導和監(jiān)督的過程,通過提供數(shù)據(jù)服務創(chuàng)造價值。數(shù)據(jù)治理可對數(shù)據(jù)戰(zhàn)略資產(chǎn)進行管理,通過從收集匯聚到處理應用的一套治理機制,提高數(shù)據(jù)質(zhì)量,實現(xiàn)數(shù)據(jù)共享和價值最大化。」
既然那么重要,就需要一套框架,就像 DL 模型最開始都是手動寫,但成為主流后就需要 TensforFlow 這樣的框架。吳信東等研究者詳細分析了數(shù)據(jù)治理中的各種模塊,并表示數(shù)據(jù)治理從來都不是一次性的程序,每個組織必須采取許多小的、可實現(xiàn)的、可衡量的步驟來實現(xiàn)長期目標。
因此,如果我們想降低數(shù)據(jù)治理的成本,最優(yōu)地調(diào)配數(shù)據(jù)、模型及算力,那么就需要一個成熟的框架。如下我們重點介紹「HAO 治理」模型的概念與過程,并從公安數(shù)據(jù)治理的角度看看該框架在實際應用中是什么樣的。
什么是 HAO 治理模型
前面介紹過數(shù)據(jù)治理是從數(shù)據(jù)收集到應用處理的管理機制,而框架則規(guī)定了有關數(shù)據(jù)的流程、原則或定義。比如說我們現(xiàn)在有一堆圖像數(shù)據(jù)集,那么從圖像源、圖像采集到圖像儲存,我們先要確定數(shù)據(jù)的接入方式是什么。
隨后,因為這些圖像不止用于一個任務,所以需要確定標準化的形式,并做一些清洗與預處理;當然,標注還是根據(jù)任務來確定的。最后,這些圖像數(shù)據(jù)還應該統(tǒng)一地提供給不同的模型與任務,從而構建不同的服務,這一部分也是該統(tǒng)一管理的。
而明略科技設計的「HAO 治理」模型會從大數(shù)據(jù)開始,為「HI」(人類智能)、「AI」(人工智能)和「OI」(組織智能)三者協(xié)同的智能提供數(shù)據(jù)治理支持。下面舉個 HAO 的例子:
其中 HAO 智能的輸入不僅有各種傳感器,還有人類的主觀感受。后面的霧計算會分析所有信息,并將機器運算/推理結果與人的分析相匹配,形成概率化與規(guī)則化有機協(xié)調(diào)的優(yōu)化判斷。人類、機器和組織三者結合,它們的數(shù)據(jù)與判斷相互協(xié)助,這樣才能最大化地利用數(shù)據(jù)的能力。
整個人機協(xié)同系統(tǒng)是非常復雜的,那么這就要求有一套成熟的治理框架來規(guī)范數(shù)據(jù)與算力的分配。
這樣的系統(tǒng)應該需要滿足很多要求,例如全面的數(shù)據(jù)接入機制、標準化的數(shù)據(jù)處理流程、多元集成的數(shù)據(jù)組織模式和多種數(shù)據(jù)服務模式。其中數(shù)據(jù)服務模式可以向使用者提供查詢檢索和比對排序等基礎數(shù)據(jù)服務,也可以面向?qū)I(yè)人員提供挖掘分析和專家建模等智能數(shù)據(jù)服務。
如下展示了 HAO 智能的藍圖設計,它主要包括感知、認知和行動三部分。
總體而言,整個過程會從大數(shù)據(jù)環(huán)境開始,并根據(jù)大數(shù)據(jù)、人類專家系統(tǒng)、人工智能和組織智能生成對應的知識圖譜,從而將大知識應用到人機協(xié)同中。此外,「HAO 治理」是一種實用系統(tǒng),因此也就要求模塊化數(shù)據(jù)源和治理功能,它需要更快速與靈活地搭建新特性。
「HAO 治理」模型是什么樣的
「HAO 治理」模型主要包含三部分,即數(shù)據(jù)接入模塊、數(shù)據(jù)治理模塊和數(shù)據(jù)服務模塊。其中數(shù)據(jù)接入需要采集、匯聚等操作,從而構建異質(zhì)的大數(shù)據(jù)。其次數(shù)據(jù)治理模塊主要對數(shù)據(jù)進行一系列預處理過程,從而構建更加容易建模的數(shù)據(jù)。最后的數(shù)據(jù)服務模塊則通過分析與加工,為外部提供各種新的能力。
1. 數(shù)據(jù)接入
一般而言,現(xiàn)實世界的數(shù)據(jù)主要分為結構化或非結構化,而這些圖像、文本等各種數(shù)據(jù)都應該進行統(tǒng)一的接入與管理。對于數(shù)據(jù)源之上的接入模塊,它主要完成不同類型的抽取匯聚任務配置,包括異構數(shù)據(jù)庫之間數(shù)據(jù)傳輸匯聚,不同類型的文件數(shù)據(jù)和服務接口間相互傳輸。
2. 數(shù)據(jù)治理
接入后的數(shù)據(jù)都是比較雜亂的,它本身帶了一些冗余或缺失的信息。因此,數(shù)據(jù)治理模塊主要包括對匯聚庫中的數(shù)據(jù)進行數(shù)據(jù)清洗和數(shù)據(jù)規(guī)范,必要時進行主題劃分和數(shù)據(jù)關聯(lián),然后進行數(shù)據(jù)集成。治理完成后的數(shù)據(jù)匯聚到數(shù)據(jù)共享中心中,并用于后續(xù)的建模。
其中我們比較熟悉的就是數(shù)據(jù)清洗,它會對數(shù)據(jù)進行審查和校驗,從而過濾不合規(guī)數(shù)據(jù)、刪除重復數(shù)據(jù)、糾正錯誤數(shù)據(jù)、完成格式轉(zhuǎn)換。
3. 數(shù)據(jù)服務
數(shù)據(jù)治理的目標是提供一個可直接使用且方便管理的數(shù)據(jù)庫,它最終還是要為各種模型提供學習基礎。而模型,最終也是要提供各種智能服務,因此這一部分也應該得到規(guī)范的管理。
基于數(shù)據(jù)治理模塊,數(shù)據(jù)服務模塊最開始會根據(jù)數(shù)據(jù)共享中心構建知識圖譜,它不僅向使用者提供模型管理、模型探索、數(shù)據(jù)探索等數(shù)據(jù)服務,同時還向?qū)I(yè)人員提供挖掘分析、專家建模等智能數(shù)據(jù)服務。
其中核心的知識圖譜是由節(jié)點和邊組成的巨型知識網(wǎng)絡,節(jié)點代表實體、邊代表實體之間的關系,每個實體 還通過鍵值對來描述實體的內(nèi)在特性。領域?qū)<覀兛梢愿鶕?jù)知識圖譜中的實體和關系等核心數(shù)據(jù)進行建模,并進行高層次的數(shù)據(jù)挖掘分析和加工。
統(tǒng)一數(shù)據(jù)接入、治理和服務模塊,就能構造出「HAO 治理」模型,它規(guī)定了最一般的處理流程。吳信東教授說:「只有通過多維感知,利用數(shù)據(jù)治理技術,將高質(zhì)量的數(shù)據(jù)連接起來,才能進行知識的智能抽取,基于知識圖譜、暴力挖掘?qū)χR進行多維度分析推理,構建決策模型,完成從數(shù)字化、網(wǎng)絡化到智能化的躍遷。」
公安的數(shù)據(jù)治理應該是什么樣的
上面介紹了「HAO 治理」模型的主要概念,那么它應用到現(xiàn)實世界中又是怎么樣的,它能進一步降低人工成本嗎?在論文的最后一部分,研究者以公安數(shù)據(jù)治理為例,介紹了整體流程與框架到底是什么樣的。
先來看張圖,如下圖 13 描述的是公安數(shù)據(jù)治理框架,平臺架構主要包括數(shù)據(jù)存儲、數(shù)據(jù)計算、數(shù)據(jù)管理、數(shù)據(jù)應用四部分。它將不同的數(shù)據(jù)按照應用分到了不同的主題或?qū)n}庫,例如常住人口專題庫或企業(yè)信息專題庫等等。與此同時,不同的數(shù)據(jù)也能最終組成知識圖譜,相當于構建了一種龐大的背景知識。
看上去這張圖非常復雜,但其實也就分為儲存、計算、管理和應用四部分。
- 數(shù)據(jù)存儲:基于分布式的大數(shù)據(jù)存儲平臺;
- 數(shù)據(jù)計算:這是數(shù)據(jù)治理的最主要部分,包括數(shù)據(jù)的探查、提取、清洗、轉(zhuǎn)換、集成等;
- 數(shù)據(jù)管理:對集成后的數(shù)據(jù)統(tǒng)一維護與管理;
- 數(shù)據(jù)應用:這是數(shù)據(jù)價值最直接的體現(xiàn),我們可以通過自然語言處理等技術,對數(shù)據(jù)進行深度分析。
從上圖我們可以看到整個工作流大概從預處理到分析挖掘分為 7 個部分,其中不同的部分會調(diào)用不同的數(shù)據(jù)知識庫,最后的分析挖掘則是我們希望獲得的結果。
在整個流程中,我們除了對數(shù)據(jù)進行各種操作與處理外,還要創(chuàng)建新的知識表示方式。例如將數(shù)據(jù)按照一定主題進行關聯(lián)來構造一個模型,公安數(shù)據(jù)治理分別以人、物、時空、組織、虛擬標識、 案件等作為主題來建立模型。
除此之外,知識圖譜按照目標數(shù)據(jù)可以分為實體、事件、關系三種類型,從而建立數(shù)據(jù)之間的關聯(lián)關系。如下在公安場景中,我們能以人為中心實體構建的一個簡單的知識圖譜。其中我們需要建立人與電話號碼所屬關系、人與護照所屬關系及人與人的關系等等。
以上就是公安數(shù)據(jù)治理的簡要結構了,吳信東教授說:「明略科技提出這樣的數(shù)據(jù)治理框架,希望通過數(shù)據(jù)在線、分析洞察、閉環(huán)智能「三步走」戰(zhàn)略,構建從感知到認知再到行動的反饋閉環(huán),將人類、機器、組織的智能三位一體,為企業(yè)和組織提供具有分析決策能力的高階人工智能應用。」