大數據發展的根基是什么?
如果將單個或局部領域的數據及其挖掘處理視為小數據,那么關于某一主體的大數據就是由成千上萬、相互關聯、相互交織的小數據匯聚而成的。小數據的充分融合,就是大數據形成的根基。
文|李庚南
大數據活在“云端”!唯有云計算能讓大數據找到自己的軌跡和存在的真正價值;但大數據不是無根的浮云,它有自己的根,源源不斷輸送數據的根。
那么,大數據的“根”在哪里?日前國務院出臺的《促進大數據發展行動綱要》(以下簡稱《行動綱要》)或許可以讓我們找到答案。
《行動綱要》明確提出了促進大數據發展的三大重點任務和十項工程。三大重點任務之首即加快政府數據開放共享,推動資源整合;十項工程前四大工程涉及政府信息,即:政府數據資源共享開放工程、國家大數據資源統籌發展工程、政府治理大數據工程、公共服務大數據工程。不難發現,三大重點任務、十項工程的關鍵詞就是共享,而政府數據的開放共享是核心。
共享是大數據的“根”
大數據與云計算,或許就像一枚神奇的金幣之正反面,讓許多人感覺“云里霧里”、亦真亦幻,卻又能真切地感受到金幣的光芒。
什么是大數據?按照維基百科的定義,大數據是指無法在可承受時間范圍內用常規軟件工具進行捕捉、管理和處理的數據集合。大數據的基本特點可以概括為“4V”:大量化(Volume)多樣化(Variety)、快速化(Velocity)、價值化(Value),即海量的數據規模、快速的數據流動和動態的數據體系、多樣的數據類型、巨大的數據價值。
而《大數據時代》的作者維克托·邁爾·舍恩伯格給出的解釋或許更易于理解,他認為,“大數據”并不是很大或者很多數據,并不是一部分數據樣本,而是關于某個現象的所有數據。比如說關于一家企業的數據信息,除了企業名稱、法定代表人、注冊資本、經營范圍等基本信息外,還包括財務信息、經營信息、外部關聯關系、誠信狀況等信息。大量、多維、立體、交織信息的匯集,就可以為不同主體、基于不同需求分析企業提供數據基礎。
如果將單個或局部領域的數據及其挖掘處理視為小數據,那么關于某一主體的大數據就是由成千上萬、相互關聯、相互交織的小數據匯聚而成的。小數據的充分融合,就是大數據形成的根基。譬如一滴水,唯有與別的水滴融合在一起,才能形成水流,才能匯成江河、海洋,才能發揮水的價值。這種融合就是共享。沒有小數據的共享,就沒有大數據生長的“根”。
要從海量的數據中快速地分析、挖掘出有用的信息,單臺計算機已難以勝任,必須采用分布式架構,依托云計算的分布式處理、分布式數據和云存儲、虛擬化技術,即透過網絡將龐大的計算處理程序自動分拆成無數個較小的子程序,再交由多部服務器所組成的龐大系統經搜尋、計算、分析之后將處理結果回傳給用戶。這就是與大數據相依相存的云計算。顯然,如果沒有數據的共享,云計算也是“無米之炊”。
當然,數據能否共享,涉及到數據的開放性、法律邊界、數據價值實現等問題,還面臨諸多現實障礙。
誰阻礙了數據共享?
當我們沉醉于大數據的奇妙與魔法無邊的時候,現實世界卻給了我們一記響亮的耳光!我們會沮喪地發現,許多政府公共信息仍處于零散、分割、封閉狀態!
各級政府部門在履職過程中掌握了大量的數據信息,其中涉及企業(個人)的數據最為豐富。目前普遍認為比較有用的企業信息大致包括四個方面。
一是反映企業基本情況的信息。包括:工商部門提供的企業注冊登記信息,注冊資本、股東及高管變更情況等;環保部門提供的企業環境違法處罰信息、環評審批、排污許可證和排污權抵押登記情況等;質監、安監、食品藥監、衛生等部門提供的各項資質信息。
二是反映企業真實經營狀況的信息。包括:稅務部門提供的企業應稅銷售額,納稅、退稅情況等;人力社保部門提供的企業社保繳納、勞動爭議情況、勞動保障書面審查信息等;海關部門提供的進出口信息、企業報關情況等;水、電、氣部門提供的繳費及欠費情況等。
三是反映企業及企業主資信狀況及守法情況的信息。包括:公安、法院等部門提供的企業或企業主的司法訴訟、執行、查封信息等;工商、環保、人社、稅務、質監、安監、食品藥監、衛生、海關等部門提供的處罰信息。
四是反映企業融資、財產抵質押、對外擔保等情況的信息。包括:人民銀行[微博]征信系統提供的貸款、質押信息,工商部門提供的股權轉讓、抵押、查封信息等;房產部門提供的房地產權屬、抵押、查封、租賃信息等。
這些涉及企業的各種信息資源散落在不同的政府管理部門,總體處于彼此分割、孤立、封閉狀態,沒有實現數據之間的共享、連接和融合,更談不上大數據價值的體現。
盡管近年來,各級政府都在積極搭建公共信用信息平臺,推動社會征信體系建設,特別是《國務院關于印發社會信用體系建設規劃綱要(2014—2020年)的通知》出臺后,步伐進一步加快,各部門也大多建立了自身的信息管理系統,但部門之間信息不共享或共享不充分仍是常態。即使有一些全國性、地區性的統一信息平臺,如“全國企業信用信息公示系統”“信用浙江”等,所含企業信息也非常有限,且不完整、不及時。
這種信息割裂的狀態,不僅不利于大數據的發展,從眼前看,則對具體運用大數據的相關主體的發展形成阻礙。比如,銀行業在服務實體經濟特別是小微企業過程中,面臨的突出瓶頸之一,就是信息瓶頸。銀行業開展小微企業信貸業務面臨的最大困惑是信息不對稱。信息的不對稱使銀行在發放小微企業貸款時難免“如履薄冰”,顧忌甚多。因此,能否切實掌握和了解反映企業真實經營狀況、企業及企業主資信狀況等相關信息,在很大程度上決定了銀行對小微企業放貸的意愿以及介入小微企業信貸領域的深度。
目前客觀存在的企業信息難共享之格局,根源在于部門利益。相關政府部門在參與公共信用信息平臺建設時,出于種種原因,往往叫得響、做得少。一些部門出于自身商業利益,將自身所擁有的大量公共信息視為“私有財產”,以有償作為提供信息的條件;或以維護商業秘密、涉及部門機密為由,不愿將擁有的、本屬于公共資源的企業信息與其他部門共享,或者象征性地扔幾根“骨頭”,人為造成了企業信息的分割、殘缺,也造就了許多“僵尸”信息平臺;有些信息的共享按說不應存在障礙,只因為一些數據擁有的部門感覺“吃力不討好”,缺乏主動提供數據的動力。
當然,也不排除個別地方政府從局部利益出發,對可能影響當地企業發展的行政處罰類負面、失信信息的公開加以阻擾,影響信息數據的共享。深層的原因,則是社會信用體系建設法制化步伐緩慢,公共信息征集機制不健全,對相關部門提供、公開相關政務信息缺乏有效的約束,以及信用信息使用在公開與保密之間的法律邊界不清晰。
怎樣走向數據共享?
《行動綱要》把加快政府數據開放共享、推動資源整合列為首要任務,把推動政府數據資源共享開放工程、國家大數據資源統籌發展工程、政府治理大數據工程、公共服務大數據工程等工程建設作為促進大數據發展的基礎設施工程。說明政府高層對信息共享問題的高度關注。
顯然,推動數據共享的起點是政府部門間的信息共享,而這恰恰是難點所在。這是一個系統性艱巨工程,也是一個漸進的過程,既需要加快社會征信體系的法制化進程,更需要政府及相關部門創新思維。
搭建統一、公開、透明的社會信用信息共享平臺,有效整合政府各部門信息。對于擁有各種管理資源的政府而言,搭建一個比較完備的信息平臺框架似乎并不難,難就難在能否實現信息的充分共享。如何讓信息平臺所涉及的政府部門主動、及時、充分地將自身所擁有、可公開的數據信息共享到統一的信息平臺,關鍵是要強化信息征集的行政約束力,建立公共信息共享平臺的保障機制。
在現行體制下,筆者以為政績考核“指揮棒”或是推動信息共享之“神器”。應以推動《社會信用體系建設規劃綱要(2014—2020年)》實施、落實政務公開制度為抓手,將公共信用信息共享系統數據信息的報送納入政府對相關部門的考核,前提是要充分研究和界定各類信息公開的法律邊界,特別是在對各類違法違規信息、不誠信行為信息的公開方面,應明確可以采取的共享方式和程度,以打消信息發布各方的顧慮。在此基礎上,制定清晰的公共信息共享清單,明確相應的責任與義務。
小數據不能共享,大數據必是空談。所以,看大勢、顧大局、破本位,推進小數據共享,是政府部門在大數據時代應有的思維。